L'elaborazione del linguaggio naturale è un elemento vitale nell'armatura dell'apprendimento automatico. Tuttavia, sono necessarie enormi quantità di dati e formazione affinché il modello funzioni correttamente. Uno dei problemi significativi con la PNL è la mancanza di set di dati di formazione in grado di coprire vasti campi di interesse all'interno del dominio.
Se stai iniziando in questo vasto campo, potresti trovare impegnativo e praticamente ridondante creare i tuoi set di dati. Soprattutto quando c'è la qualità NLP set di dati disponibili per addestrare i tuoi modelli di machine learning in base al loro scopo.
Il mercato della NLP dovrebbe crescere a un CAGR dell'11.7% nel 2018 e nel 2026 per raggiungere $28.6 miliardi entro il 2026. Grazie alla crescente domanda di NLP e apprendimento automatico, ora è possibile mettere le mani su set di dati di qualità che si occupano di analisi del sentimento, recensioni, analisi di domande e risposte e set di dati di analisi vocale.
I set di dati NLP per l'apprendimento automatico di cui ti puoi fidare
Dal momento che innumerevoli set di dati, incentrati su varie esigenze, vengono rilasciati quasi ogni giorno, può essere difficile accedere a set di dati di qualità, affidabili e migliori. In questo caso, ti abbiamo semplificato il lavoro, poiché ti abbiamo presentato set di dati curati e separati in base alle categorie che servono.
Generale
Spambase dell'UCI (Collegamento)
Spambase, creato presso gli Hewlett-Packard Labs, ha una raccolta di e-mail di spam degli utenti, con l'obiettivo di sviluppare un filtro antispam personalizzato. Ha più di 4600 osservazioni da messaggi di posta elettronica, di cui quasi 1820 sono spam.
set di dati Enron (Collegamento)
Il set di dati Enron ha una vasta raccolta di e-mail "reali" rese anonime disponibili al pubblico per addestrare i propri modelli di machine learning. Vanta oltre mezzo milione di e-mail da oltre 150 utenti, principalmente il senior management di Enron. Questo set di dati è disponibile per l'uso in formati strutturati e non strutturati. Per abbellire i dati non strutturati, devi applicare tecniche di elaborazione dei dati.
Consiglia il set di dati dei sistemi (Collegamento)
Il set di dati di Recommender System è una vasta raccolta di vari set di dati contenenti diverse funzionalità come,
- Recensioni di prodotti
- Valutazioni in stelle
- Monitoraggio del fitness
- Dati della canzone
- I social network
- timestamps
- Interazioni utente/oggetto
- Dati GPS
Analisi del sentimento
Dizionari per film e finanza (Collegamento)
Il set di dati Dictionaries for Movies and Finance fornisce dizionari specifici del dominio per la polarità positiva o negativa nei riempimenti di Finance e nelle recensioni di film. Questi dizionari sono tratti da riempimenti IMDb e US Form-8.
Sentimento 140 (Collegamento)
Sentiment 140 ha più di 160,000 tweet con varie emoticon classificate in 6 campi diversi: data del tweet, polarità, testo, nome utente, ID e query. Questo set di dati ti consente di scoprire il sentimento di un marchio, un prodotto o anche un argomento basato sull'attività di Twitter. Poiché questo set di dati viene creato automaticamente, a differenza di altri tweet con annotazioni umane, classifica i tweet con emozioni positive ed emozioni negative come sfavorevoli.
Set di dati Sentiment multidominio (Collegamento)
Questo set di dati sul sentiment multidominio è un repository di recensioni Amazon per vari prodotti. Alcune categorie di prodotti, come i libri, hanno migliaia di recensioni, mentre altre hanno solo poche centinaia di recensioni. Inoltre, le recensioni con valutazioni a stelle possono essere convertite in etichette binarie.
Testo
Il Corpus QA Wiki (Collegamento)
Creato per aiutare la ricerca di domande e risposte a dominio aperto, WiKi QA Corpus è uno dei set di dati più estesi pubblicamente disponibili. Compilato dai registri delle query del motore di ricerca Bing, viene fornito con coppie di domande e risposte. Ha più di 3000 domande e 1500 frasi di risposta etichettate.
Set di dati dei rapporti di casi legali (Collegamento)
Il set di dati Legal Case Reports ha una raccolta di 4000 casi legali e può essere utilizzato per la formazione per la sintesi automatica del testo e l'analisi delle citazioni. Vengono utilizzati ogni documento, slogan, classi di citazioni, slogan di citazioni e altro ancora.
Jeopardy (Collegamento)
Il set di dati Jeopardy è una raccolta di oltre 200,000 domande presenti nel popolare programma televisivo a quiz riunito da un utente Reddit. Ciascun punto dati è classificato in base alla data di messa in onda, al numero dell'episodio, al valore, al round e alla domanda/risposta.
Discorso audio
Parlato Wikipedia Corpora (Collegamento)
Questo set di dati è perfetto per tutti coloro che cercano di andare oltre la lingua inglese. Questo set di dati contiene una raccolta di articoli parlati in olandese, tedesco e inglese. Ha una vasta gamma di argomenti e set di altoparlanti che durano centinaia di ore.
2000 HUB5 inglese (Collegamento)
Il set di dati inglese HUB2000 del 5 ha 40 trascrizioni di conversazioni telefoniche in lingua inglese. I dati sono forniti dal National Institute of Standards and Technology e il suo obiettivo principale è il riconoscimento del parlato e la conversione del parlato in testo.
LibriDiscorso (Collegamento)
Il set di dati LibriSpeech è una raccolta di quasi 1000 ore di discorsi in inglese presi e opportunamente segmentati per argomenti in capitoli di audiolibri, il che lo rende uno strumento perfetto per l'elaborazione del linguaggio naturale.
Recensioni
Recensioni di Yelp (Collegamento)
Il set di dati di Yelp ha una vasta raccolta di circa 8.5 milioni di recensioni di oltre 160,000 aziende, le loro recensioni e i dati degli utenti. Le recensioni possono essere utilizzate per addestrare i tuoi modelli sull'analisi del sentimento. Inoltre, questo set di dati ha anche più di 200,000 immagini che coprono otto località metropolitane.
Recensioni IMDB (Collegamento)
Le recensioni IMDB sono tra i set di dati più popolari contenenti informazioni sul cast, valutazioni, descrizione e genere per oltre 50 mila film. Questo set di dati può essere utilizzato per testare e addestrare i tuoi modelli di machine learning.
Set di dati di recensioni e valutazioni di Amazon (Collegamento)
Il set di dati di recensioni e valutazioni di Amazon contiene una preziosa raccolta di metadati e recensioni di diversi prodotti di Amazon raccolti dal 1996 al 2014: circa 142.8 milioni di record. I metadati includono il prezzo, la descrizione del prodotto, il marchio, la categoria e altro, mentre le recensioni hanno la qualità del testo, l'utilità del testo, le valutazioni e altro ancora.
Quindi, su quale set di dati hai scelto di addestrare il tuo modello di machine learning?
Mentre andiamo, ti lasceremo con un consiglio professionale.
Assicurati di esaminare a fondo il file README prima di scegliere un set di dati NLP per le tue esigenze. Il set di dati conterrà tutte le informazioni necessarie di cui potresti aver bisogno, come il contenuto del set di dati, i vari parametri in base ai quali i dati sono stati classificati e i probabili casi d'uso del set di dati.
Indipendentemente dai modelli che costruisci, c'è una prospettiva entusiasmante di integrare le nostre macchine in modo più stretto e intrinseco con le nostre vite. Con la PNL, le possibilità per affari, film, riconoscimento vocale, finanza e altro ancora sono aumentate. Se stai cercando più set di dati di questo tipo Clicca qui.