Set di dati NLP per ML

15 migliori set di dati NLP per addestrare i tuoi modelli di elaborazione del linguaggio naturale

L'elaborazione del linguaggio naturale è un elemento vitale nell'armatura dell'apprendimento automatico. Tuttavia, sono necessarie enormi quantità di dati e formazione affinché il modello funzioni correttamente. Uno dei problemi significativi con la PNL è la mancanza di set di dati di formazione in grado di coprire vasti campi di interesse all'interno del dominio.

Se stai iniziando in questo vasto campo, potresti trovare impegnativo e praticamente ridondante creare i tuoi set di dati. Soprattutto quando c'è la qualità NLP set di dati disponibili per addestrare i tuoi modelli di machine learning in base al loro scopo.

Il mercato della NLP dovrebbe crescere a un CAGR dell'11.7% nel 2018 e nel 2026 per raggiungere $28.6 miliardi entro il 2026. Grazie alla crescente domanda di NLP e apprendimento automatico, ora è possibile mettere le mani su set di dati di qualità che si occupano di analisi del sentimento, recensioni, analisi di domande e risposte e set di dati di analisi vocale.

I set di dati NLP per l'apprendimento automatico di cui ti puoi fidare

Dal momento che innumerevoli set di dati, incentrati su varie esigenze, vengono rilasciati quasi ogni giorno, può essere difficile accedere a set di dati di qualità, affidabili e migliori. In questo caso, ti abbiamo semplificato il lavoro, poiché ti abbiamo presentato set di dati curati e separati in base alle categorie che servono.

Generale

Spambase, creato presso gli Hewlett-Packard Labs, ha una raccolta di e-mail di spam degli utenti, con l'obiettivo di sviluppare un filtro antispam personalizzato. Ha più di 4600 osservazioni da messaggi di posta elettronica, di cui quasi 1820 sono spam.

Il set di dati Enron ha una vasta raccolta di e-mail "reali" rese anonime disponibili al pubblico per addestrare i propri modelli di machine learning. Vanta oltre mezzo milione di e-mail da oltre 150 utenti, principalmente il senior management di Enron. Questo set di dati è disponibile per l'uso in formati strutturati e non strutturati. Per abbellire i dati non strutturati, devi applicare tecniche di elaborazione dei dati.

Il set di dati di Recommender System è una vasta raccolta di vari set di dati contenenti diverse funzionalità come,

  • Recensioni di prodotti
  • Valutazioni in stelle
  • Monitoraggio del fitness
  • Dati della canzone
  • I social network
  • timestamps
  • Interazioni utente/oggetto
  • Dati GPS

Analisi del sentimento

Analisi del sentimento
Il set di dati Dictionaries for Movies and Finance fornisce dizionari specifici del dominio per la polarità positiva o negativa nei riempimenti di Finance e nelle recensioni di film. Questi dizionari sono tratti da riempimenti IMDb e US Form-8.

Sentiment 140 ha più di 160,000 tweet con varie emoticon classificate in 6 campi diversi: data del tweet, polarità, testo, nome utente, ID e query. Questo set di dati ti consente di scoprire il sentimento di un marchio, un prodotto o anche un argomento basato sull'attività di Twitter. Poiché questo set di dati viene creato automaticamente, a differenza di altri tweet con annotazioni umane, classifica i tweet con emozioni positive ed emozioni negative come sfavorevoli.

Questo set di dati sul sentiment multidominio è un repository di recensioni Amazon per vari prodotti. Alcune categorie di prodotti, come i libri, hanno migliaia di recensioni, mentre altre hanno solo poche centinaia di recensioni. Inoltre, le recensioni con valutazioni a stelle possono essere convertite in etichette binarie.

Parliamo oggi dei requisiti relativi ai dati di addestramento AI.

Testo

Creato per aiutare la ricerca di domande e risposte a dominio aperto, WiKi QA Corpus è uno dei set di dati più estesi pubblicamente disponibili. Compilato dai registri delle query del motore di ricerca Bing, viene fornito con coppie di domande e risposte. Ha più di 3000 domande e 1500 frasi di risposta etichettate.

Il set di dati Legal Case Reports ha una raccolta di 4000 casi legali e può essere utilizzato per la formazione per la sintesi automatica del testo e l'analisi delle citazioni. Vengono utilizzati ogni documento, slogan, classi di citazioni, slogan di citazioni e altro ancora.

Il set di dati Jeopardy è una raccolta di oltre 200,000 domande presenti nel popolare programma televisivo a quiz riunito da un utente Reddit. Ciascun punto dati è classificato in base alla data di messa in onda, al numero dell'episodio, al valore, al round e alla domanda/risposta.

Discorso audio

Discorso audio Questo set di dati è perfetto per tutti coloro che cercano di andare oltre la lingua inglese. Questo set di dati contiene una raccolta di articoli parlati in olandese, tedesco e inglese. Ha una vasta gamma di argomenti e set di altoparlanti che durano centinaia di ore.

Il set di dati inglese HUB2000 del 5 ha 40 trascrizioni di conversazioni telefoniche in lingua inglese. I dati sono forniti dal National Institute of Standards and Technology e il suo obiettivo principale è il riconoscimento del parlato e la conversione del parlato in testo.

Il set di dati LibriSpeech è una raccolta di quasi 1000 ore di discorsi in inglese presi e opportunamente segmentati per argomenti in capitoli di audiolibri, il che lo rende uno strumento perfetto per l'elaborazione del linguaggio naturale.

Recensioni

Il set di dati di Yelp ha una vasta raccolta di circa 8.5 milioni di recensioni di oltre 160,000 aziende, le loro recensioni e i dati degli utenti. Le recensioni possono essere utilizzate per addestrare i tuoi modelli sull'analisi del sentimento. Inoltre, questo set di dati ha anche più di 200,000 immagini che coprono otto località metropolitane.

Le recensioni IMDB sono tra i set di dati più popolari contenenti informazioni sul cast, valutazioni, descrizione e genere per oltre 50 mila film. Questo set di dati può essere utilizzato per testare e addestrare i tuoi modelli di machine learning.

Il set di dati di recensioni e valutazioni di Amazon contiene una preziosa raccolta di metadati e recensioni di diversi prodotti di Amazon raccolti dal 1996 al 2014: circa 142.8 milioni di record. I metadati includono il prezzo, la descrizione del prodotto, il marchio, la categoria e altro, mentre le recensioni hanno la qualità del testo, l'utilità del testo, le valutazioni e altro ancora.

Quindi, su quale set di dati hai scelto di addestrare il tuo modello di machine learning?

Mentre andiamo, ti lasceremo con un consiglio professionale. 

Assicurati di esaminare a fondo il file README prima di scegliere un set di dati NLP per le tue esigenze. Il set di dati conterrà tutte le informazioni necessarie di cui potresti aver bisogno, come il contenuto del set di dati, i vari parametri in base ai quali i dati sono stati classificati e i probabili casi d'uso del set di dati.

Indipendentemente dai modelli che costruisci, c'è una prospettiva entusiasmante di integrare le nostre macchine in modo più stretto e intrinseco con le nostre vite. Con la PNL, le possibilità per affari, film, riconoscimento vocale, finanza e altro ancora sono aumentate. Se stai cercando più set di dati di questo tipo Clicca qui.

Share sociale

Potrebbe piacerti anche