Set di dati aperti
Scopri set di dati open source che ti consentono di addestrare modelli ML
Set di dati open source per iniziare con i modelli AI/ML
L'output dei tuoi modelli AI e ML è buono solo quanto i dati che usi per addestrarlo, quindi la precisione che applichi all'aggregazione dei dati e alla codifica e all'identificazione di tali dati è importante!
Quindi, se vuoi avviare una nuova iniziativa AI/ML e ora ti stai rapidamente rendendo conto che trovare dati di addestramento di alta qualità sarà uno degli aspetti più impegnativi del tuo progetto poiché set di dati di alta qualità sono il carburante che mantiene l'IA/ Motore ML in funzione. Abbiamo accumulato un elenco di set di dati aperti che sono liberi di utilizzare e addestrare i tuoi modelli AI/ML del futuro.
Specializzazione | Tipo di dati | Nome set di dati | Industria/Dipartimento | Annotazione/caso d'uso | Descrizione | Link |
---|---|---|---|---|---|---|
NLP | Testo | Amazon recensioni | E-commerce | Analisi del sentimento | Un insieme di 35 milioni di recensioni e valutazioni degli ultimi 18 anni in testo normale con dettagli sull'utente e sul prodotto. | Link |
NLP | Testo | Dati sui collegamenti di Wikipedia | Generale | Più di 4 milioni. articoli contenenti 1.9 miliardi. parola che comprende parole e frasi, nonché paragrafi. | Link | |
NLP | Testo | Standford Sentiment Treebank | Intrattenimento | Analisi del sentimento | Set di dati di annotazioni sul sentimento per oltre 10,000 recensioni di Rotten Tomatoes in formato file HTML | Link |
NLP | Testo | Twitter Sentimento della compagnia aerea statunitense | linea aerea | Analisi del sentimento | I tweet del 2015 su US Airlines si sono biforcati in toni positivi, negativi e neutri | Link |
CV | Immagine | Volti etichettati in natura | Generale | Riconoscimento facciale | Set di dati contenente oltre 13,000 volti ritagliati con due diverse immagini per l'addestramento al riconoscimento facciale. | Link |
CV | Video, immagine | Set di dati UMDFaces | Generale | Riconoscimento facciale | Set di dati annotato contenente oltre 367,000 volti di oltre 8,000 soggetti che include immagini fisse e video. | Link |
CV | Immagine | Imagenet | Generale | Dataset con oltre 14 Mn. immagini in vari formati di file, organizzati secondo la gerarchia di WordNet. | Link | |
CV | Immagine | Immagini aperte di Google | Generale | 9 milioni URL per classificare le immagini pubbliche da oltre 6,000 categorie. | Link | |
NLP | Testo | Database di terapia intensiva MIMIC | Assistenza sanitaria | Set di dati di fisiologia computazionale con dati non identificati da 40,000 pazienti in terapia intensiva. Il set di dati contiene informazioni come dati demografici, parametri vitali, farmaci, ecc. | Link | |
CV | Immagine | Ufficio nazionale dei viaggi e del turismo degli Stati Uniti | Turismo | Fornisce ampie fotografie dell'industria del turismo con database affidabili, che coprono argomenti come viaggi in entrata e in uscita e informazioni turistiche internazionali. | Link | |
NLP | Testo | Dipartimento dei trasporti | Turismo | Set di dati sul turismo che includono parchi nazionali, registri dei conducenti, ponti e informazioni ferroviarie, ecc. | Link | |
NLP | audio | Corpus di didascalie audio di Flickr | Generale | Oltre 40 didascalie vocali da 8,000 fotografie progettate per schemi vocali senza supervisione | Link | |
NLP | audio | Set di dati dei comandi vocali | Generale | Riconoscimento vocale, annotazione audio | Espressioni lunghe 1 secondo da migliaia di persone, per costruire un'interfaccia vocale di base. | Link |
NLP | audio | Set di dati audio ambientali | Generale | Set di dati audio dell'ambiente che contengono tabelle di suoni di eventi e tabelle di scene acustiche. | Link | |
NLP | Testo | File-Set di ricerca aperta sul COVID-19 | Assistenza sanitaria | IA medica | Un set di dati di ricerca composto da 45,000 articoli accademici su COVID-19 e la famiglia di virus del coronavirus. | Link |
CV | Immagine | Set di dati aperto Waymo | Automotive | I più diversi set di dati di guida autonoma rilasciati da Waymo | Link | |
CV | Immagine | Genoma visivo | Generale | Sottotitoli delle immagini | Una base di conoscenza visiva con sottotitoli dettagliati di oltre 100 immagini | Link |
CV | Immagine | Etichettami | Governo Pubblico | Ampio set di immagini annotate accessibili tramite Labelme Matlab | Link | |
CV | Immagine | BOBINA100 | Generale | Oltre 100 oggetti vari fotografati da più angolazioni (es. 360 gradi) | Link | |
CV | Immagine | Set di dati di Stanford Dogs | Generale | Oltre 20,500 immagini classificate in set di immagini di 120 diverse razze di cani | Link | |
CV | Immagine | Riconoscimento di scene in interni | Generale | Riconoscimento della scena | Un set di dati specifico composto da 15620 immagini da 67 categorie di interni per costruire modelli di riconoscimento della scena | Link |
CV | Immagine | QA visivo | Generale | Un set di dati che include domande aperte relative a 265,016 foto che richiedono la comprensione della vista e la comprensione del linguaggio per rispondere. | Link | |
NLP | Testo | Set di dati di analisi del sentimento multidominio | E-commerce | Analisi del sentimento | Set di dati contenente recensioni di prodotti da Amazon | Link |
NLP | Testo | Recensioni IMDB | Intrattenimento | Analisi del sentimento | Set di dati contenente 25000 recensioni di film per l'analisi del sentimento | Link |
NLP | Testo | Sentimento140 | Generale | Analisi del sentimento | Set di dati contenente 160,000 tweet con emoticon pre-rimosse per una maggiore precisione | Link |
NLP | Testo | Blogger Corpus | Generale | Analisi Keyprase | Set di dati contenente 681,288 post di blog da blogger.com composto da un minimo di 200 occorrenze di parole inglesi ampiamente utilizzate. | Link |
NLP | Testo | Jeopardy | Generale | Formazione su chatbot | Set di dati con oltre 200,000 domande che possono essere utilizzate per addestrare modelli di machine learning per rispondere automaticamente in modo intelligente | Link |
NLP | Testo | Raccolta di SMS spam in inglese | Telecomunicazione | Riconoscimento spam | Un set di dati di messaggi di spam composto da 5,574 SMS in inglese | Link |
NLP | Testo | Recensioni di Yelp | Generale | Analisi del sentimento | Un set di dati con oltre 5 milioni di recensioni pubblicato da Yelp | Link |
NLP | Testo | Spambase dell'UCI | Impresa | Riconoscimento spam | Un ampio set di dati di e-mail di spam, utile per il filtraggio dello spam. | Link |
CV | Video, immagine | Berkeley Deep Drive BDD100k | Automotive | Veicoli autonomi | Uno dei più grandi set di dati per l'intelligenza artificiale a guida autonoma contenente 1,100 ore di esperienze di guida in oltre 100,000 video di diversi momenti della giornata dall'area di New York e San Francisco. | Link |
CV | Video | Virgola.ai | Automotive | Veicoli autonomi | Un set di dati di 7 ore di guida in autostrada contenente informazioni su velocità, accelerazione, angolo di sterzata e coordinate GPS dell'auto | Link |
CV | Video, immagine | Set di dati del paesaggio urbano | Automotive | Etichetta semantica per veicolo autonomo | Un set di dati di 5,000 annotazioni a livello di pixel più un set più ampio di 20,000 fotogrammi debolmente annotati in sequenze video stereo, registrati da 50 città diverse | Link |
CV | Immagine | Set di dati sui segnali stradali KUL Belgio | Automotive | Veicoli autonomi | Oltre 10000 annotazioni sui segnali stradali dalla regione delle Fiandre basate su segnali stradali fisicamente distinti provenienti da tutto il Belgio. | Link |
CV | Immagine | LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets | Automotive | Veicoli autonomi | Un ricco set di dati contenente segnali stradali, rilevamento di veicoli, semafori e schemi di traiettoria. | Link |
CV | Immagine | CIFAR-10 | Generale | Riconoscimento degli oggetti | Un set di dati composto da 50,000 immagini e 10,000 immagini di prova (ovvero 60,000 immagini a colori 32×32 in 10 classi) per il riconoscimento degli oggetti. | Link |
CV | Immagine | Moda MNIST | Moda | Un set di dati di immagini composto da 60,000 esempi e un set di test di 10,000 esempi in immagini in scala di grigi 28 × 28, associate a un'etichetta di 10 classi. | Link | |
CV | Immagine | Set di dati IMDB-Wiki | Intrattenimento | Riconoscimento facciale | Un ampio set di dati di immagini facciali con etichette come sesso ed età. Sul totale di 523,051 immagini di volti, 460,723 immagini sono ottenute da 20,284 celebrità da IMDB e 62,328 da Wikipedia. | Link |
CV | Video | Cinetica-700 | Generale | Per ogni classe di azione, il set di dati di alta qualità è composto da 650,000 video clip e comprende 700 classi di azione umana con almeno 600 video clip. Qui, ogni clip dura circa 10 secondi. | Link | |
CV | Immagine | MS Coco | Generale | Rilevamento di oggetti, segmentazione | Il set di dati contiene 328 immagini e ha un totale di 2.5 milioni di istanze e 91 immagini di oggetti per addestrare il rilevamento di oggetti su larga scala, la segmentazione e i modelli ML relativi alla didascalia dei dati. | Link |
CV | Immagine | Set di dati di posa umana MPII | Generale | Nel set di dati sono incluse circa 25 fotografie contenenti oltre 40 individui con articolazioni del corpo annotate, che viene utilizzato per articolare la stima della posa umana. Complessivamente il set di dati copre 410 attività umane e ogni immagine è dotata di un'etichetta di attività. | Link | |
CV | Immagine | Apri immagini | Generale | Annotazioni sulla posizione dell'oggetto | Set di dati di immagini con circa 9 milioni di immagini annotate con etichette a livello di immagine, riquadri di delimitazione degli oggetti, segmentazione degli oggetti, ecc. Il set di dati comprende anche 16 milioni. riquadri di delimitazione per 600 classi di oggetti su 1.9 milioni di immagini. | Link |
CV | Video | Piattaforma aperta Apollo, di Baidu Inc, Cina | Automotive | Riquadro di delimitazione, LiDAR | Un ricco set di dati di guida autonoma, che fornisce agli sviluppatori i dati richiesti nella guida autonoma per accelerare l'efficienza dell'iterazione innovativa. | Link |
CV | Video, immagine | Argo, di Argo, USA | Automotive | Riquadro di delimitazione, flusso ottico, etichetta comportamentale, etichetta semantica, marcatura di corsia | Un set di dati a guida autonoma costituito da mappe HD con metadati geometrici e semantici, ad esempio linee centrali della corsia, direzione della corsia e area percorribile. Il set di dati viene utilizzato per addestrare modelli ML, per creare algoritmi di percezione più accurati, che aiuteranno i veicoli a guida autonoma a navigare in sicurezza. | Link |
CV | Video | Piccoli semafori Bosch, di Bosch North America Research | Automotive | Rettangolo di selezione | Un set di dati composto da 13427 immagini di telecamere con risoluzione 1280*720 per costruire un sistema di rilevamento del semaforo basato sulla visione. Il set di dati ha più di 24000 semafori annotati. | Link |
CV | Video | Brain4Cars, di Cornell Univ., Stati Uniti | Automotive | Etichetta comportamentale | Un set di dati composto da una serie di sensori in cabina (telecamere, sensori tattili, dispositivi intelligenti, ecc.) per estrarre statistiche utili sulla vigilanza del conducente. I nostri algoritmi possono rilevare i conducenti che sono assonnati o distratti e aumentare gli allarmi necessari per migliorare la protezione. | Link |
CV | Immagine | CULane, dell'univ. cinese di Hong Kong, Pechino, Cina | Automotive | Segnalazione corsia | Un set di dati di Visione artificiale sul rilevamento delle corsie di traffico, composto da 55 ore di video di cui sono stati estratti 133,235 (88880 set di addestramento, 9675 set di convalida e 34680 set di test). Viene raccolto da telecamere montate su sei diversi veicoli guidati da diversi conducenti a Pechino. | Link |
CV | Video | DAVIS, dell'univ. di Zurigo,ETH ¨ Zurigo, Germania, Svizzera | Automotive | Un set di dati di addestramento alla guida di veicoli end-to-end che utilizza una telecamera DAVIS event+frame. I dati dell'auto come sterzo, acceleratore, GPS, ecc. vengono utilizzati per valutare la fusione dei dati del telaio e degli eventi per le app automobilistiche. | Link | |
CV | Video | DBNet, di Shanghai Jiao Tong Univ.,Xiamen Univ., Cina | Automotive | Nuvola di punti, LiDAR | Dati di guida di 1000 KM del mondo reale, che includono video allineati, nuvola di punti, GPS e comportamento del conducente per una ricerca approfondita sui comportamenti di guida. | Link |
CV | Video | Dr(eye)ve, di Univ. di Modena e Reggio Emilia, Modena, Italia | Automotive | Etichetta comportamentale | Set di dati contenente 74 sequenze video di 5 minuti ciascuna, annotate in più di 500,000 fotogrammi. Il set di dati è costituito da posizioni georeferenziate, velocità di guida, rotta e anche etichette delle fissazioni dello sguardo dei conducenti e della loro integrazione temporale fornendo mappe specifiche per attività. | Link |
CV | Video | ETH Pedestrian (2009), di ETH Zurigo, Zurigo, Svizzera | Generale | Rettangolo di selezione | Un set di dati di 74 sequenze video di 5 minuti ciascuna, annotate in oltre 500,000 fotogrammi. Il set di dati fornisce posizioni georeferenziate, velocità di guida, direzione ed etichetta anche le fissazioni dello sguardo per i conducenti e la loro integrazione temporale, comprese mappe specifiche per attività. | Link |
CV | Video | Ford (2009), di Univ. del Michigan, Michigan, Stati Uniti | Automotive | Riquadro di delimitazione, , LiDAR | Un set di dati compilato da un veicolo terrestre automatizzato armato con uno scanner 3D-lidar Velodyne, due lidar Rieg lungimiranti con scopa a spinta, un'unità di misura inerziale tecnica e di consumo (IMU) e un sistema di telecamere omnidirezionali Point Grey Ladybug3. | Link |
CV | Video | Stereo HCI Challenge, Bosch Corporation Research, Hildesheim, Germania | Generale | Un set di dati di diversi milioni di fotogrammi da scene video catturate che include un'ampia gamma di varie condizioni meteorologiche, livelli multipli di movimento e profondità; situazioni in città e campagna, ecc. | Link | |
CV | Video | JAAD, della York University, Ucraina, Canada | Automotive | Riquadro di delimitazione, etichetta comportamentale | "JAAD è un set di dati per lo studio dell'attenzione congiunta nel contesto della guida autonoma. L'attenzione si concentra sui comportamenti di pedoni e conducenti al punto di attraversamento e sui fattori che li influenzano. A tal fine, il set di dati JAAD fornisce una raccolta riccamente annotata di 346 brevi video clip (della durata di 5-10 secondi) estratte da oltre 240 ore di filmati di guida da diverse località del Nord America e dell'Europa orientale. Per tutti i pedoni vengono utilizzati riquadri di delimitazione con tag di occlusione che rendono questo set di dati adatto al rilevamento dei pedoni. Le annotazioni comportamentali specificano i comportamenti dei pedoni che interagiscono o richiedono attenzione da parte dell'autista. Per ogni video sono presenti diversi tag (meteo, località, ecc.) ed etichette di comportamento con timestamp (es. fermarsi, camminare, guardare, ecc.). Inoltre, viene visualizzato un elenco di attributi demografici fornito per ciascun pedone (es. età, sesso, direzione di marcia, ecc.) nonché un elenco di elementi visibili della scena del traffico (es. segnale di stop, segnale stradale, ecc.) in ogni frame." | Link |
CV | Video | KAIST Urban, di KAIST, Corea del Sud | Generale | LiDAR | La raccolta dei dati include numerosi sensori di posizione per dati LiDAR e immagini stereo mirate a un'area urbana molto complessa (ad es. aree metropolitane, edifici complessi e aree residenziali). | Link |
CV | Immagine | Segnaletica stradale LISA, a cura dell'Univ. della California, San Diego, Stati Uniti | Automotive | Rettangolo di selezione | L'insieme di set di dati contenente video e frame annotati contenenti segnali stradali statunitensi. Viene rilasciato in due fasi, una con solo le immagini e l'altra con immagini e video. | Link |
CV | Immagine | Mapillary Vistas, di Mapillary AB, Global | Automotive | Etichetta semantica | Un set di dati fotografici a livello di strada per interpretare le scene di strada in tutto il mondo con annotazioni umane precise ai pixel e specifiche per le istanze. | Link |
CV | Video, immagine | Semantic KITTI, dell'Università di Bonn, Karlsruhe, Germania | Automotive | Riquadro di delimitazione, etichetta semantica, marcatura di corsia | Un set di dati che include un'annotazione semantica per tutte le sequenze di Odometry Benchmark. Il set di dati annota vari tipi di traffico in movimento e non in movimento: comprese automobili, biciclette, biciclette, pedoni e ciclisti, consentendo di studiare gli oggetti nella scena. | Link |
CV | Video | Stanford Track, della Stanford University, Stati Uniti | Automotive | Rilevamento/Classificazione di oggetti LiDAR, GPS, Codici | Un set di dati che include 14,000 tracce di oggetti etichettati osservate da un Velodyne HDL-64E S2 LIDAR in scene di strade naturali, che possono essere utilizzate per addestrare modelli di apprendimento automatico per il riconoscimento di oggetti 3D. | Link |
CV | Video, immagine | The Boxy Dataset, di Bosch, Stati Uniti | Automotive | Riquadro di delimitazione/rilevamento del veicolo | Un set di dati di rilevamento dei veicoli contenente 2 milioni di veicoli annotati per l'addestramento e l'analisi delle strategie di riconoscimento degli oggetti per le auto a guida autonoma sulle autostrade. | Link |
CV | Video | Autostrada TME, di Czech Technical Univ., Nord Italia | Automotive | Rettangolo di selezione | Un set di dati di 28 clip per un totale di 27 minuti suddiviso in oltre 30,000 frame di annotazione del veicolo. L'annotazione è stata prodotta in modo semiautomatico utilizzando i dati dello scanner laser. Questa raccolta di dati coinvolge scenari di traffico variabili, numero di corsie, curvatura della strada e illuminazione, coprendo gran parte delle condizioni dell'acquisizione completa. | Link |
CV | Video | Llamas senza supervisione, di Bosch, Stati Uniti | Automotive | Segnaletica di corsia, LiDAR | Il set di dati Unsupervised Llamas è stato annotato generando mappe di guida automatiche ad alta definizione, inclusi indicatori di corsia basati su Lidar. Il veicolo autonomo può essere allineato rispetto a queste mappe e le linee di demarcazione della corsia vengono proiettate nella cornice della telecamera. La proiezione 3D è ottimizzata riducendo al minimo la discrepanza tra i marker di immagine già osservati e previsti. | Link |
NLP | audio | Facebook AI multilingue LibriSpeech (MLS) | Generale | Annotazione audio/riconoscimento vocale | Facebook AI Multilingual LibriSpeech (MLS), è un set di dati open source su larga scala progettato per aiutare a far avanzare la ricerca nel riconoscimento vocale automatico (ASR). MLS offre oltre 50,000 ore di audio in 8 lingue: inglese, tedesco, olandese, francese, spagnolo, italiano, portoghese e polacco. | Link |