Set di dati aperti

Scopri set di dati open source che ti consentono di addestrare modelli ML

Set di dati aperti

Set di dati open source per iniziare con i modelli AI/ML

L'output dei tuoi modelli AI e ML è buono solo quanto i dati che usi per addestrarlo, quindi la precisione che applichi all'aggregazione dei dati e alla codifica e all'identificazione di tali dati è importante!

Quindi, se vuoi avviare una nuova iniziativa AI/ML e ora ti stai rapidamente rendendo conto che trovare dati di addestramento di alta qualità sarà uno degli aspetti più impegnativi del tuo progetto poiché set di dati di alta qualità sono il carburante che mantiene l'IA/ Motore ML in funzione. Abbiamo accumulato un elenco di set di dati aperti che sono liberi di utilizzare e addestrare i tuoi modelli AI/ML del futuro.

SpecializzazioneTipo di datiNome set di datiIndustria/DipartimentoAnnotazione/caso d'usoDescrizioneLink
NLPTestoAmazon recensioniE-commerceAnalisi del sentimentoUn insieme di 35 milioni di recensioni e valutazioni degli ultimi 18 anni in testo normale con dettagli sull'utente e sul prodotto.Link
NLPTestoDati sui collegamenti di WikipediaGeneralePiù di 4 milioni. articoli contenenti 1.9 miliardi. parola che comprende parole e frasi, nonché paragrafi.Link
NLPTestoStandford Sentiment TreebankIntrattenimentoAnalisi del sentimentoSet di dati di annotazioni sul sentimento per oltre 10,000 recensioni di Rotten Tomatoes in formato file HTMLLink
NLPTestoTwitter Sentimento della compagnia aerea statunitenselinea aereaAnalisi del sentimentoI tweet del 2015 su US Airlines si sono biforcati in toni positivi, negativi e neutriLink
CVImmagine Volti etichettati in naturaGeneraleRiconoscimento faccialeSet di dati contenente oltre 13,000 volti ritagliati con due diverse immagini per l'addestramento al riconoscimento facciale.Link
CVVideo, immagineSet di dati UMDFacesGeneraleRiconoscimento faccialeSet di dati annotato contenente oltre 367,000 volti di oltre 8,000 soggetti che include immagini fisse e video.Link
CVImmagine ImagenetGeneraleDataset con oltre 14 Mn. immagini in vari formati di file, organizzati secondo la gerarchia di WordNet.Link
CVImmagine Immagini aperte di GoogleGenerale9 milioni URL per classificare le immagini pubbliche da oltre 6,000 categorie.Link
NLPTestoDatabase di terapia intensiva MIMICSANITARIETÀSet di dati di fisiologia computazionale con dati non identificati da 40,000 pazienti in terapia intensiva. Il set di dati contiene informazioni come dati demografici, parametri vitali, farmaci, ecc.Link
CVImmagineUfficio nazionale dei viaggi e del turismo degli Stati UnitiTurismoFornisce ampie fotografie dell'industria del turismo con database affidabili, che coprono argomenti come viaggi in entrata e in uscita e informazioni turistiche internazionali.Link
NLPTestoDipartimento dei trasportiTurismoSet di dati sul turismo che includono parchi nazionali, registri dei conducenti, ponti e informazioni ferroviarie, ecc.Link
NLPaudioCorpus di didascalie audio di FlickrGeneraleOltre 40 didascalie vocali da 8,000 fotografie progettate per schemi vocali senza supervisioneLink
NLPaudioSet di dati dei comandi vocaliGeneraleRiconoscimento vocale, annotazione audioEspressioni lunghe 1 secondo da migliaia di persone, per costruire un'interfaccia vocale di base.Link
NLPaudioSet di dati audio ambientaliGeneraleSet di dati audio dell'ambiente che contengono tabelle di suoni di eventi e tabelle di scene acustiche.Link
NLPTestoFile-Set di ricerca aperta sul COVID-19 SANITARIETÀIA medicaUn set di dati di ricerca composto da 45,000 articoli accademici su COVID-19 e la famiglia di virus del coronavirus.Link
CVImmagineSet di dati aperto Waymo AutomotiveI più diversi set di dati di guida autonoma rilasciati da WaymoLink
CVImmagineGenoma visivo GeneraleSottotitoli delle immaginiUna base di conoscenza visiva con sottotitoli dettagliati di oltre 100 immaginiLink
CVImmagineEtichettami Governo PubblicoAmpio set di immagini annotate accessibili tramite Labelme MatlabLink
CVImmagineBOBINA100GeneraleOltre 100 oggetti vari fotografati da più angolazioni (es. 360 gradi)Link
CVImmagineSet di dati di Stanford DogsGeneraleOltre 20,500 immagini classificate in set di immagini di 120 diverse razze di caniLink
CVImmagineRiconoscimento di scene in interniGeneraleRiconoscimento della scenaUn set di dati specifico composto da 15620 immagini da 67 categorie di interni per costruire modelli di riconoscimento della scenaLink
CVImmagineQA visivoGeneraleUn set di dati che include domande aperte relative a 265,016 foto che richiedono la comprensione della vista e la comprensione del linguaggio per rispondere.Link
NLPTestoSet di dati di analisi del sentimento multidominioE-commerceAnalisi del sentimentoSet di dati contenente recensioni di prodotti da AmazonLink
NLPTestoRecensioni IMDBIntrattenimentoAnalisi del sentimentoSet di dati contenente 25000 recensioni di film per l'analisi del sentimentoLink
NLPTestoSentimento140GeneraleAnalisi del sentimentoSet di dati contenente 160,000 tweet con emoticon pre-rimosse per una maggiore precisioneLink
NLPTestoCorpus dei bloggerGeneraleAnalisi KeypraseSet di dati contenente 681,288 post di blog da blogger.com composto da un minimo di 200 occorrenze di parole inglesi ampiamente utilizzate.Link
NLPTestoJeopardyGeneraleFormazione su chatbotSet di dati con oltre 200,000 domande che possono essere utilizzate per addestrare modelli di machine learning per rispondere automaticamente in modo intelligenteLink
NLPTestoRaccolta di SMS spam in ingleseTelecomunicazioneRiconoscimento spamUn set di dati di messaggi di spam composto da 5,574 SMS in ingleseLink
NLPTestoRecensioni di YelpGeneraleAnalisi del sentimentoUn set di dati con oltre 5 milioni di recensioni pubblicato da YelpLink
NLPTestoSpambase dell'UCIImpresaRiconoscimento spamUn ampio set di dati di e-mail di spam, utile per il filtraggio dello spam.Link
CVVideo, immagineBerkeley Deep Drive BDD100kAutomotiveVeicoli autonomiUno dei più grandi set di dati per l'intelligenza artificiale a guida autonoma contenente 1,100 ore di esperienze di guida in oltre 100,000 video di diversi momenti della giornata dall'area di New York e San Francisco.Link
CVVideoVirgola.aiAutomotiveVeicoli autonomi Un set di dati di 7 ore di guida in autostrada contenente informazioni su velocità, accelerazione, angolo di sterzata e coordinate GPS dell'autoLink
CVVideo, immagineSet di dati del paesaggio urbanoAutomotiveEtichetta semantica per veicolo autonomoUn set di dati di 5,000 annotazioni a livello di pixel più un set più ampio di 20,000 fotogrammi debolmente annotati in sequenze video stereo, registrati da 50 città diverseLink
CVImmagineSet di dati sui segnali stradali KUL BelgioAutomotiveVeicoli autonomiOltre 10000 annotazioni sui segnali stradali dalla regione delle Fiandre basate su segnali stradali fisicamente distinti provenienti da tutto il Belgio.Link
CVImmagineLISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego DatasetsAutomotiveVeicoli autonomiUn ricco set di dati contenente segnali stradali, rilevamento di veicoli, semafori e schemi di traiettoria.Link
CVImmagineCIFAR-10GeneraleRiconoscimento degli oggettiUn set di dati composto da 50,000 immagini e 10,000 immagini di prova (ovvero 60,000 immagini a colori 32×32 in 10 classi) per il riconoscimento degli oggetti.Link
CVImmagineModa MNISTModaUn set di dati di immagini composto da 60,000 esempi e un set di test di 10,000 esempi in immagini in scala di grigi 28 × 28, associate a un'etichetta di 10 classi.Link
CVImmagineSet di dati IMDB-WikiIntrattenimentoRiconoscimento faccialeUn ampio set di dati di immagini facciali con etichette come sesso ed età. Sul totale di 523,051 immagini di volti, 460,723 immagini sono ottenute da 20,284 celebrità da IMDB e 62,328 da Wikipedia.Link
CVVideoCinetica-700GeneralePer ogni classe di azione, il set di dati di alta qualità è composto da 650,000 video clip e comprende 700 classi di azione umana con almeno 600 video clip. Qui, ogni clip dura circa 10 secondi.Link
CVImmagineMS CoccoGeneraleRilevamento di oggetti, segmentazioneIl set di dati contiene 328 immagini e ha un totale di 2.5 milioni di istanze e 91 immagini di oggetti per addestrare il rilevamento di oggetti su larga scala, la segmentazione e i modelli ML relativi alla didascalia dei dati.Link
CVImmagineSet di dati di posa umana MPIIGeneraleNel set di dati sono incluse circa 25 fotografie contenenti oltre 40 individui con articolazioni del corpo annotate, che viene utilizzato per articolare la stima della posa umana. Complessivamente il set di dati copre 410 attività umane e ogni immagine è dotata di un'etichetta di attività.Link
CVImmagineApri immaginiGeneraleAnnotazioni sulla posizione dell'oggettoSet di dati di immagini con circa 9 milioni di immagini annotate con etichette a livello di immagine, riquadri di delimitazione degli oggetti, segmentazione degli oggetti, ecc. Il set di dati comprende anche 16 milioni. riquadri di delimitazione per 600 classi di oggetti su 1.9 milioni di immagini.Link
CVVideoPiattaforma aperta Apollo, di Baidu Inc, CinaAutomotiveRiquadro di delimitazione, LiDARUn ricco set di dati di guida autonoma, che fornisce agli sviluppatori i dati richiesti nella guida autonoma per accelerare l'efficienza dell'iterazione innovativa.Link
CVVideo, immagineArgo, di Argo, USAAutomotiveRiquadro di delimitazione, flusso ottico, etichetta comportamentale, etichetta semantica, marcatura di corsiaUn set di dati a guida autonoma costituito da mappe HD con metadati geometrici e semantici, ad esempio linee centrali della corsia, direzione della corsia e area percorribile. Il set di dati viene utilizzato per addestrare modelli ML, per creare algoritmi di percezione più accurati, che aiuteranno i veicoli a guida autonoma a navigare in sicurezza.Link
CVVideoPiccoli semafori Bosch, di Bosch North America ResearchAutomotiveRettangolo di selezioneUn set di dati composto da 13427 immagini di telecamere con risoluzione 1280*720 per costruire un sistema di rilevamento del semaforo basato sulla visione. Il set di dati ha più di 24000 semafori annotati.Link
CVVideoBrain4Cars, di Cornell Univ., Stati UnitiAutomotiveEtichetta comportamentaleUn set di dati composto da una serie di sensori in cabina (telecamere, sensori tattili, dispositivi intelligenti, ecc.) per estrarre statistiche utili sulla vigilanza del conducente. I nostri algoritmi possono rilevare i conducenti che sono assonnati o distratti e aumentare gli allarmi necessari per migliorare la protezione.Link
CVImmagineCULane, dell'univ. cinese di Hong Kong, Pechino, CinaAutomotiveSegnalazione corsiaUn set di dati di Visione artificiale sul rilevamento delle corsie di traffico, composto da 55 ore di video di cui sono stati estratti 133,235 (88880 set di addestramento, 9675 set di convalida e 34680 set di test). Viene raccolto da telecamere montate su sei diversi veicoli guidati da diversi conducenti a Pechino.Link
CVVideoDAVIS, dell'univ. di Zurigo,ETH ¨ Zurigo, Germania, SvizzeraAutomotiveUn set di dati di addestramento alla guida di veicoli end-to-end che utilizza una telecamera DAVIS event+frame. I dati dell'auto come sterzo, acceleratore, GPS, ecc. vengono utilizzati per valutare la fusione dei dati del telaio e degli eventi per le app automobilistiche.Link
CVVideoDBNet, di Shanghai Jiao Tong Univ.,Xiamen Univ., CinaAutomotiveNuvola di punti, LiDARDati di guida di 1000 KM del mondo reale, che includono video allineati, nuvola di punti, GPS e comportamento del conducente per una ricerca approfondita sui comportamenti di guida.Link
CVVideoDr(eye)ve, di Univ. di Modena e Reggio Emilia, Modena, ItaliaAutomotiveEtichetta comportamentaleSet di dati contenente 74 sequenze video di 5 minuti ciascuna, annotate in più di 500,000 fotogrammi. Il set di dati è costituito da posizioni georeferenziate, velocità di guida, rotta e anche etichette delle fissazioni dello sguardo dei conducenti e della loro integrazione temporale fornendo mappe specifiche per attività.Link
CVVideoETH Pedestrian (2009), di ETH Zurigo, Zurigo, SvizzeraGeneraleRettangolo di selezioneUn set di dati di 74 sequenze video di 5 minuti ciascuna, annotate in oltre 500,000 fotogrammi. Il set di dati fornisce posizioni georeferenziate, velocità di guida, direzione ed etichetta anche le fissazioni dello sguardo per i conducenti e la loro integrazione temporale, comprese mappe specifiche per attività.Link
CVVideoFord (2009), di Univ. del Michigan, Michigan, Stati UnitiAutomotiveRiquadro di delimitazione, , LiDARUn set di dati compilato da un veicolo terrestre automatizzato armato con uno scanner 3D-lidar Velodyne, due lidar Rieg lungimiranti con scopa a spinta, un'unità di misura inerziale tecnica e di consumo (IMU) e un sistema di telecamere omnidirezionali Point Grey Ladybug3.Link
CVVideoStereo HCI Challenge, Bosch Corporation Research, Hildesheim, GermaniaGeneraleUn set di dati di diversi milioni di fotogrammi da scene video catturate che include un'ampia gamma di varie condizioni meteorologiche, livelli multipli di movimento e profondità; situazioni in città e campagna, ecc.Link
CVVideoJAAD, della York University, Ucraina, CanadaAutomotiveRiquadro di delimitazione, etichetta comportamentale"JAAD è un set di dati per lo studio dell'attenzione congiunta nel contesto della guida autonoma. L'attenzione si concentra sui comportamenti di pedoni e conducenti al punto di attraversamento e sui fattori che li influenzano. A tal fine, il set di dati JAAD fornisce una raccolta riccamente annotata di 346 brevi video clip (della durata di 5-10 secondi) estratte da oltre 240 ore di filmati di guida da diverse località del Nord America e dell'Europa orientale. Per tutti i pedoni vengono utilizzati riquadri di delimitazione con tag di occlusione che rendono questo set di dati adatto al rilevamento dei pedoni. Le annotazioni comportamentali specificano i comportamenti dei pedoni che interagiscono o richiedono attenzione da parte dell'autista. Per ogni video sono presenti diversi tag (meteo, località, ecc.) ed etichette di comportamento con timestamp (es. fermarsi, camminare, guardare, ecc.). Inoltre, viene visualizzato un elenco di attributi demografici fornito per ciascun pedone (es. età, sesso, direzione di marcia, ecc.) nonché un elenco di elementi visibili della scena del traffico (es. segnale di stop, segnale stradale, ecc.) in ogni frame."Link
CVVideoKAIST Urban, di KAIST, Corea del SudGeneraleLiDARLa raccolta dei dati include numerosi sensori di posizione per dati LiDAR e immagini stereo mirate a un'area urbana molto complessa (ad es. aree metropolitane, edifici complessi e aree residenziali).Link
CVImmagineSegnaletica stradale LISA, a cura dell'Univ. della California, San Diego, Stati UnitiAutomotiveRettangolo di selezioneL'insieme di set di dati contenente video e frame annotati contenenti segnali stradali statunitensi. Viene rilasciato in due fasi, una con solo le immagini e l'altra con immagini e video.Link
CVImmagineMapillary Vistas, di Mapillary AB, GlobalAutomotiveEtichetta semanticaUn set di dati fotografici a livello di strada per interpretare le scene di strada in tutto il mondo con annotazioni umane precise ai pixel e specifiche per le istanze.Link
CVVideo, immagineSemantic KITTI, dell'Università di Bonn, Karlsruhe, GermaniaAutomotiveRiquadro di delimitazione, etichetta semantica, marcatura di corsiaUn set di dati che include un'annotazione semantica per tutte le sequenze di Odometry Benchmark. Il set di dati annota vari tipi di traffico in movimento e non in movimento: comprese automobili, biciclette, biciclette, pedoni e ciclisti, consentendo di studiare gli oggetti nella scena.Link
CVVideoStanford Track, della Stanford University, Stati UnitiAutomotiveRilevamento/Classificazione di oggetti LiDAR, GPS, CodiciUn set di dati che include 14,000 tracce di oggetti etichettati osservate da un Velodyne HDL-64E S2 LIDAR in scene di strade naturali, che possono essere utilizzate per addestrare modelli di apprendimento automatico per il riconoscimento di oggetti 3D.Link
CVVideo, immagineThe Boxy Dataset, di Bosch, Stati UnitiAutomotiveRiquadro di delimitazione/rilevamento del veicoloUn set di dati di rilevamento dei veicoli contenente 2 milioni di veicoli annotati per l'addestramento e l'analisi delle strategie di riconoscimento degli oggetti per le auto a guida autonoma sulle autostrade.Link
CVVideoAutostrada TME, di Czech Technical Univ., Nord ItaliaAutomotiveRettangolo di selezioneUn set di dati di 28 clip per un totale di 27 minuti suddiviso in oltre 30,000 frame di annotazione del veicolo. L'annotazione è stata prodotta in modo semiautomatico utilizzando i dati dello scanner laser. Questa raccolta di dati coinvolge scenari di traffico variabili, numero di corsie, curvatura della strada e illuminazione, coprendo gran parte delle condizioni dell'acquisizione completa.Link
CVVideoLlamas senza supervisione, di Bosch, Stati UnitiAutomotiveSegnaletica di corsia, LiDARIl set di dati Unsupervised Llamas è stato annotato generando mappe di guida automatiche ad alta definizione, inclusi indicatori di corsia basati su Lidar. Il veicolo autonomo può essere allineato rispetto a queste mappe e le linee di demarcazione della corsia vengono proiettate nella cornice della telecamera. La proiezione 3D è ottimizzata riducendo al minimo la discrepanza tra i marker di immagine già osservati e previsti.Link
NLPaudioFacebook AI multilingue LibriSpeech (MLS)GeneraleAnnotazione audio/riconoscimento vocaleFacebook AI Multilingual LibriSpeech (MLS), è un set di dati open source su larga scala progettato per aiutare a far avanzare la ricerca nel riconoscimento vocale automatico (ASR). MLS offre oltre 50,000 ore di audio in 8 lingue: inglese, tedesco, olandese, francese, spagnolo, italiano, portoghese e polacco. Link