Shaip fa ora parte dell'ecosistema Ubiquity: lo stesso team, ora supportato da risorse più ampie per supportare i clienti su larga scala. |
Set di dati NLP per ML

Il miglior set di dati NLP per potenziare i tuoi modelli di apprendimento automatico

I set di dati NLP sono la spina dorsale di molti progetti di elaborazione del linguaggio naturale, offrendo flessibilità per un'ampia gamma di attività come la classificazione del testo, l'analisi del sentiment e il question answering. Il Blog Authorship Corpus, ad esempio, contiene oltre 681,000 post di blog di quasi 20,000 blogger, il che lo rende una risorsa preziosa per studiare gli stili di scrittura, l'identificazione degli autori e altro ancora.

Per chi è interessato alla ricerca accademica, il dataset di articoli di ricerca di arXiv offre accesso a una vasta raccolta di articoli scientifici di diverse discipline, supportando attività avanzate di NLP come l'analisi delle citazioni e la classificazione dei documenti. Il dataset del Federal Procurement Data Center è un'altra preziosa risorsa, che offre informazioni dettagliate sui contratti federali, ideale per progetti che coinvolgono dati governativi e il riconoscimento degli enti.

Questi set di dati NLP sono ampiamente utilizzati per addestrare e valutare modelli di apprendimento automatico, aiutando ricercatori e sviluppatori a migliorare le prestazioni dei loro sistemi in diverse attività di NLP. Che si lavori con post di blog, articoli di ricerca o dati governativi, questi set di dati forniscono la base per applicazioni NLP robuste e versatili.

Che cos'è la PNL?

NLP (Natural Language Processing) aiuta i computer a comprendere il linguaggio umano. È come insegnare ai computer a leggere, comprendere e rispondere a testo e discorso come fanno gli umani.

Cosa può fare la PNL?

  • Trasforma il testo disordinato in dati organizzati
  • Capire se i commenti sono positivi o negativi
  • Tradurre tra le lingue
  • Creare riassunti di testi lunghi
  • E altro ancora!
  • Introduzione alla PNL:

Per costruire buoni sistemi NLP, hai bisogno di molti esempi per addestrarli, proprio come gli umani imparano meglio con più pratica. La buona notizia è che ci sono molte risorse gratuite dove puoi trovare questi esempi: Abbracciare il viso, Kaggle GitHub. È possibile accedere facilmente ai set di dati di queste piattaforme, accelerando così lo sviluppo dei progetti NLP.

Dimensioni e crescita del mercato NLP:

A partire dal 2023, il mercato dell'elaborazione del linguaggio naturale (NLP) è stato valutato a circa 26 miliardi di $. Si prevede che crescerà in modo significativo, con un tasso di crescita annuale composto (CAGR) di circa il 30% dal 2023 al 2030. Questa crescita è guidata dalla crescente domanda di applicazioni NLP in settori come sanità, finanza e servizio clienti.

Per scegliere un buon set di dati NLP, considera i seguenti fattori:

  • Rilevanza: Assicurati che il set di dati sia allineato con il tuo compito o dominio specifico.
  • Taglia: In genere, set di dati più grandi migliorano le prestazioni del modello, ma bilanciano dimensioni e qualità.
  • Diversità: Cercare set di dati con stili linguistici e contesti diversi per migliorare la robustezza del modello.
  • Museale: Verificare che i dati siano ben etichettati e accurati per evitare di introdurre errori.
  • Accessibilità: Assicurarsi che il set di dati sia disponibile per l'uso e considerare eventuali restrizioni di licenza.
  • Pre-elaborazione: Determinare se il set di dati necessita di una pulizia o di una pre-elaborazione significativa.
  • Supporto alla Comunità:I set di dati più diffusi spesso dispongono di maggiori risorse e supporto da parte della comunità, il che può essere utile.

Valutando questi fattori, puoi selezionare il set di dati più adatto alle esigenze del tuo progetto. La scelta dei set di dati giusti è essenziale per ottenere risultati ottimali nei progetti di NLP, poiché influiscono direttamente sulle prestazioni del modello e sull'efficienza dell'addestramento.

I 33 migliori dataset aperti da non perdere per l'NLP

Generale

  • Spambase dell'UCI (Collegamento)

    Spambase, creato presso gli Hewlett-Packard Labs, ha una raccolta di e-mail di spam degli utenti, con l'obiettivo di sviluppare un filtro antispam personalizzato. Ha più di 4600 osservazioni da messaggi di posta elettronica, di cui quasi 1820 sono spam.

  • set di dati Enron (Collegamento)

    Il dataset di Enron contiene una vasta raccolta di email "reali" anonimizzate, a disposizione del pubblico per addestrare i propri modelli di apprendimento automatico. Vanta oltre mezzo milione di email provenienti da oltre 150 utenti, prevalentemente dirigenti di Enron. Questo dataset è disponibile per l'utilizzo sia in formato strutturato che non strutturato. Per migliorare i dati non strutturati, è necessario applicare tecniche di elaborazione dati.

  • Consiglia il set di dati dei sistemi (Collegamento)

    Il set di dati di Recommender System è una vasta raccolta di vari set di dati contenenti diverse funzionalità come,

    • Recensioni di prodotti
    • Valutazioni in stelle
    • Monitoraggio del fitness
    • Dati della canzone
    • I social network
    • timestamps
    • Interazioni utente/oggetto
    • Dati GPS
  • Penn Treebank (Collegamento)

    Questo corpus, tratto dal Wall Street Journal, è popolare per testare i modelli di etichettatura delle sequenze.

  • NLTK (Collegamento)

    Questa libreria Python fornisce accesso a oltre 100 corpora e risorse lessicali per la PNL. Include anche il libro NLTK, un corso di formazione sull'utilizzo della libreria. NLTK include l'accesso a WordNet, un ampio database lessicale inglese, in cui parole come nomi, verbi, aggettivi e avverbi sono raggruppate in synset in base al significato condiviso. NLTK fornisce anche un elenco annotato di corpora e risorse lessicali per la ricerca sulla PNL.

  • Dipendenze universali (Collegamento)

    UD fornisce un modo coerente per annotare la grammatica, con risorse in oltre 100 lingue, 200 banche di alberi e supporto da oltre 300 membri della comunità.

Set di dati per l'analisi del sentiment

  • Dizionari per film e finanza (Collegamento)

    Analisi del sentimento
    Il set di dati Dictionaries for Movies and Finance fornisce dizionari specifici del dominio per la polarità positiva o negativa nei riempimenti di Finance e nelle recensioni di film. Questi dizionari sono tratti da riempimenti IMDb e US Form-8.

  • Sentimento 140 (Collegamento)

    Sentiment 140 ha più di 160,000 tweet con varie emoticon classificate in 6 campi diversi: data del tweet, polarità, testo, nome utente, ID e query. Questo set di dati ti consente di scoprire il sentimento di un marchio, un prodotto o anche un argomento basato sull'attività di Twitter. Poiché questo set di dati viene creato automaticamente, a differenza di altri tweet con annotazioni umane, classifica i tweet con emozioni positive ed emozioni negative come sfavorevoli.

  • Set di dati Sentiment multidominio (Collegamento)

    Questo set di dati sul sentiment multidominio è un repository di recensioni Amazon per vari prodotti. Alcune categorie di prodotti, come i libri, hanno migliaia di recensioni, mentre altre hanno solo poche centinaia di recensioni. Inoltre, le recensioni con valutazioni a stelle possono essere convertite in etichette binarie.

  • Standford Sentiment TreeBank (Collegamento)

    Questo set di dati PNL di Rotten Tomatoes include frasi più lunghe ed esempi di testo più dettagliati.

  • Il corpus degli autori del blog (Collegamento)

    Questa raccolta contiene post di blog con quasi 1.4 milioni di parole, ogni blog è un set di dati separato.

  • Set di dati OpinRank (Collegamento)

    300,000 recensioni da Edmunds e TripAdvisor, organizzate per modello di auto o destinazione di viaggio e hotel.

Set di dati di testo

  • Il Corpus QA Wiki (Collegamento)

    Creato per aiutare la ricerca di domande e risposte a dominio aperto, WiKi QA Corpus è uno dei set di dati più estesi pubblicamente disponibili. Compilato dai registri delle query del motore di ricerca Bing, viene fornito con coppie di domande e risposte. Ha più di 3000 domande e 1500 frasi di risposta etichettate.

  • Set di dati dei rapporti di casi legali (Collegamento)

    Il set di dati Legal Case Reports ha una raccolta di 4000 casi legali e può essere utilizzato per la formazione per la sintesi automatica del testo e l'analisi delle citazioni. Vengono utilizzati ogni documento, slogan, classi di citazioni, slogan di citazioni e altro ancora.

  • Jeopardy (Collegamento)

    Il set di dati Jeopardy è una raccolta di oltre 200,000 domande presenti nel popolare programma televisivo a quiz riunito da un utente Reddit. Ciascun punto dati è classificato in base alla data di messa in onda, al numero dell'episodio, al valore, al round e alla domanda/risposta.

  • 20 newsgroup (Collegamento)

    Una raccolta di 20,000 documenti comprende 20 newsgroup e argomenti, che descrivono in dettaglio argomenti dalla religione agli sport popolari.

  • Set di dati delle notizie Reuters (Collegamento)

    Apparso per la prima volta nel 1987, questo set di dati è stato etichettato, indicizzato e compilato per scopi di apprendimento automatico.

  • ArXiv (Collegamento)

    Questo sostanziale set di dati da 270 GB include il testo completo di tutti i documenti di ricerca su arXiv.

  • Corpus parallelo dei lavori del Parlamento europeo (Collegamento)

    Le coppie di frasi dei procedimenti parlamentari includono voci di 21 lingue europee, tra cui alcune lingue meno comuni per i corpora di apprendimento automatico.

  • Benchmark di miliardi di parole (Collegamento)

    Derivato dal News Crawl del WMT 2011, questo set di dati sulla modellazione del linguaggio comprende quasi un miliardo di parole per testare tecniche innovative di modellazione del linguaggio.

Set di dati audio vocali

  • Parlato Wikipedia Corpora (Collegamento)

    Discorso audio Questo set di dati è perfetto per tutti coloro che cercano di andare oltre la lingua inglese. Questo set di dati contiene una raccolta di articoli parlati in olandese, tedesco e inglese. Ha una vasta gamma di argomenti e set di altoparlanti che durano centinaia di ore.

  • 2000 HUB5 inglese (Collegamento)

    Il set di dati inglese HUB2000 del 5 ha 40 trascrizioni di conversazioni telefoniche in lingua inglese. I dati sono forniti dal National Institute of Standards and Technology e il suo obiettivo principale è il riconoscimento del parlato e la conversione del parlato in testo.

  • LibriDiscorso (Collegamento)

    Il set di dati LibriSpeech è una raccolta di quasi 1000 ore di discorsi in inglese presi e opportunamente segmentati per argomenti in capitoli di audiolibri, il che lo rende uno strumento perfetto per l'elaborazione del linguaggio naturale.

  • Set di dati con cifre parlate gratuito (Collegamento)

    Questo set di dati PNL include più di 1,500 registrazioni di cifre parlate in inglese.

  • Set di dati vocali di M-AI Labs (Collegamento)

    Il set di dati offre quasi 1,000 ore di audio con trascrizioni, che comprendono più lingue e classificate in voci maschili, femminili e miste.

  • Database dei discorsi rumorosi (Link)

    Questo set di dati presenta registrazioni parallele di parlato rumoroso e pulito, destinate allo sviluppo di software di miglioramento del parlato ma utili anche per la formazione sul parlato in condizioni difficili.

Revisioni Dataset

  • Recensioni di Yelp (Collegamento)

    Il set di dati di Yelp ha una vasta raccolta di circa 8.5 milioni di recensioni di oltre 160,000 aziende, le loro recensioni e i dati degli utenti. Le recensioni possono essere utilizzate per addestrare i tuoi modelli sull'analisi del sentimento. Inoltre, questo set di dati ha anche più di 200,000 immagini che coprono otto località metropolitane.

  • Recensioni IMDB (Collegamento)

    Le recensioni IMDB sono tra i set di dati più popolari contenenti informazioni sul cast, valutazioni, descrizione e genere per oltre 50 mila film. Questo set di dati può essere utilizzato per testare e addestrare i tuoi modelli di machine learning.

  • Set di dati di recensioni e valutazioni di Amazon (Collegamento)

    Il set di dati di recensioni e valutazioni di Amazon contiene una preziosa raccolta di metadati e recensioni di diversi prodotti di Amazon raccolti dal 1996 al 2014: circa 142.8 milioni di record. I metadati includono il prezzo, la descrizione del prodotto, il marchio, la categoria e altro, mentre le recensioni hanno la qualità del testo, l'utilità del testo, le valutazioni e altro ancora.

Set di dati di domande e risposte

  • Set di dati di domande e risposte di Stanford (SQuAD) (Collegamento)

    Questo set di dati sulla comprensione della lettura contiene 100,000 domande a cui è possibile rispondere e 50,000 senza risposta, tutte create dai crowdworker di Wikipedia.

  • Domande naturali (Collegamento)

    Questo set di formazione contiene oltre 300,000 esempi di formazione, 7,800 esempi di sviluppo e 7,800 esempi di test, ciascuno con una query di Google e una pagina Wikipedia corrispondente.

  • CuriositàQA (Collegamento)

    Questo impegnativo set di domande comprende 950,000 coppie di QA, inclusi sottoinsiemi sia verificati dall'uomo che generati dalla macchina.

  • CLEVR (Linguaggio compositivo e ragionamento visivo elementare) (Collegamento)

    Questo set di dati con risposte a domande visive presenta oggetti renderizzati in 3D e migliaia di domande con dettagli sulla scena visiva.

Quindi, su quale set di dati hai scelto di addestrare il tuo modello di machine learning?

Mentre andiamo, ti lasceremo con un consiglio professionale.

Assicurati di esaminare a fondo il file README prima di scegliere un set di dati NLP per le tue esigenze. Il set di dati conterrà tutte le informazioni necessarie di cui potresti aver bisogno, come il contenuto del set di dati, i vari parametri in base ai quali i dati sono stati classificati e i probabili casi d'uso del set di dati.

Indipendentemente dai modelli che costruisci, esiste l’entusiasmante prospettiva di integrare le nostre macchine in modo più stretto e intrinseco con le nostre vite. Con la PNL, le possibilità per affari, film, riconoscimento vocale, finanza e altro ancora aumentano.

Share sociale