Set di dati aperti

Scopri set di dati open source che ti consentono di addestrare modelli ML

Set di dati open source per iniziare con i modelli AI/ML

L'output dei tuoi modelli AI e ML è buono solo quanto i dati che usi per addestrarlo, quindi la precisione che applichi all'aggregazione dei dati e alla codifica e all'identificazione di tali dati è importante!

Quindi, se vuoi avviare una nuova iniziativa AI/ML e ora ti stai rapidamente rendendo conto che trovare dati di addestramento di alta qualità sarà uno degli aspetti più impegnativi del tuo progetto poiché set di dati di alta qualità sono il carburante che mantiene l'IA/ Motore ML in funzione. Abbiamo accumulato un elenco di set di dati aperti che sono liberi di utilizzare e addestrare i tuoi modelli AI/ML del futuro.

Specializzazione	Tipo di dati	Nome set di dati	Industria/Dipartimento	Annotazione/caso d'uso	Descrizione	Link
NLP	Testo	Amazon recensioni	E-commerce	Analisi del sentimento	Un insieme di 35 milioni di recensioni e valutazioni degli ultimi 18 anni in testo normale con dettagli sull'utente e sul prodotto.	Link
NLP	Testo	Dati sui collegamenti di Wikipedia	Generale		Più di 4 milioni. articoli contenenti 1.9 miliardi. parola che comprende parole e frasi, nonché paragrafi.	Link
NLP	Testo	Standford Sentiment Treebank	Intrattenimento	Analisi del sentimento	Set di dati di annotazioni sul sentimento per oltre 10,000 recensioni di Rotten Tomatoes in formato file HTML	Link
NLP	Testo	Twitter Sentimento della compagnia aerea statunitense	linea aerea	Analisi del sentimento	I tweet del 2015 su US Airlines si sono biforcati in toni positivi, negativi e neutri	Link
CV	Immagine	Volti etichettati in natura	Generale	Riconoscimento facciale	Set di dati contenente oltre 13,000 volti ritagliati con due diverse immagini per l'addestramento al riconoscimento facciale.	Link
CV	Video, immagine	Set di dati UMDFaces	Generale	Riconoscimento facciale	Set di dati annotato contenente oltre 367,000 volti di oltre 8,000 soggetti che include immagini fisse e video.	Link
CV	Immagine	Imagenet	Generale		Dataset con oltre 14 Mn. immagini in vari formati di file, organizzati secondo la gerarchia di WordNet.	Link
CV	Immagine	Immagini aperte di Google	Generale		9 milioni URL per classificare le immagini pubbliche da oltre 6,000 categorie.	Link
NLP	Testo	Database di terapia intensiva MIMIC	SANITARIETÀ		Set di dati di fisiologia computazionale con dati non identificati da 40,000 pazienti in terapia intensiva. Il set di dati contiene informazioni come dati demografici, parametri vitali, farmaci, ecc.	Link
CV	Immagine	Ufficio nazionale dei viaggi e del turismo degli Stati Uniti	Turismo		Fornisce ampie fotografie dell'industria del turismo con database affidabili, che coprono argomenti come viaggi in entrata e in uscita e informazioni turistiche internazionali.	Link
NLP	Testo	Dipartimento dei trasporti	Turismo		Set di dati sul turismo che includono parchi nazionali, registri dei conducenti, ponti e informazioni ferroviarie, ecc.	Link
NLP	audio	Corpus di didascalie audio di Flickr	Generale		Oltre 40 didascalie vocali da 8,000 fotografie progettate per schemi vocali senza supervisione	Link
NLP	audio	Set di dati dei comandi vocali	Generale	Riconoscimento vocale, annotazione audio	Espressioni lunghe 1 secondo da migliaia di persone, per costruire un'interfaccia vocale di base.	Link
NLP	audio	Set di dati audio ambientali	Generale		Set di dati audio dell'ambiente che contengono tabelle di suoni di eventi e tabelle di scene acustiche.	Link
NLP	Testo	File-Set di ricerca aperta sul COVID-19	SANITARIETÀ	IA medica	Un set di dati di ricerca composto da 45,000 articoli accademici su COVID-19 e la famiglia di virus del coronavirus.	Link
CV	Immagine	Set di dati aperto Waymo	Automotive		I più diversi set di dati di guida autonoma rilasciati da Waymo	Link
CV	Immagine	Genoma visivo	Generale	Sottotitoli delle immagini	Una base di conoscenza visiva con sottotitoli dettagliati di oltre 100 immagini	Link
CV	Immagine	Etichettami	Governo Pubblico		Ampio set di immagini annotate accessibili tramite Labelme Matlab	Link
CV	Immagine	BOBINA100	Generale		Oltre 100 oggetti vari fotografati da più angolazioni (es. 360 gradi)	Link
CV	Immagine	Set di dati di Stanford Dogs	Generale		Oltre 20,500 immagini classificate in set di immagini di 120 diverse razze di cani	Link
CV	Immagine	Riconoscimento di scene in interni	Generale	Riconoscimento della scena	Un set di dati specifico composto da 15620 immagini da 67 categorie di interni per costruire modelli di riconoscimento della scena	Link
CV	Immagine	QA visivo	Generale		Un set di dati che include domande aperte relative a 265,016 foto che richiedono la comprensione della vista e la comprensione del linguaggio per rispondere.	Link
NLP	Testo	Set di dati di analisi del sentimento multidominio	E-commerce	Analisi del sentimento	Set di dati contenente recensioni di prodotti da Amazon	Link
NLP	Testo	Recensioni IMDB	Intrattenimento	Analisi del sentimento	Set di dati contenente 25000 recensioni di film per l'analisi del sentimento	Link
NLP	Testo	Sentimento140	Generale	Analisi del sentimento	Set di dati contenente 160,000 tweet con emoticon pre-rimosse per una maggiore precisione	Link
NLP	Testo	Corpus dei blogger	Generale	Analisi Keyprase	Set di dati contenente 681,288 post di blog da blogger.com composto da un minimo di 200 occorrenze di parole inglesi ampiamente utilizzate.	Link
NLP	Testo	Jeopardy	Generale	Formazione su chatbot	Set di dati con oltre 200,000 domande che possono essere utilizzate per addestrare modelli di machine learning per rispondere automaticamente in modo intelligente	Link
NLP	Testo	Raccolta di SMS spam in inglese	Telecomunicazione	Riconoscimento spam	Un set di dati di messaggi di spam composto da 5,574 SMS in inglese	Link
NLP	Testo	Recensioni di Yelp	Generale	Analisi del sentimento	Un set di dati con oltre 5 milioni di recensioni pubblicato da Yelp	Link
NLP	Testo	Spambase dell'UCI	Impresa	Riconoscimento spam	Un ampio set di dati di e-mail di spam, utile per il filtraggio dello spam.	Link
CV	Video, immagine	Berkeley Deep Drive BDD100k	Automotive	Veicoli autonomi	Uno dei più grandi set di dati per l'intelligenza artificiale a guida autonoma contenente 1,100 ore di esperienze di guida in oltre 100,000 video di diversi momenti della giornata dall'area di New York e San Francisco.	Link
CV	Video	Virgola.ai	Automotive	Veicoli autonomi	Un set di dati di 7 ore di guida in autostrada contenente informazioni su velocità, accelerazione, angolo di sterzata e coordinate GPS dell'auto	Link
CV	Video, immagine	Set di dati del paesaggio urbano	Automotive	Etichetta semantica per veicolo autonomo	Un set di dati di 5,000 annotazioni a livello di pixel più un set più ampio di 20,000 fotogrammi debolmente annotati in sequenze video stereo, registrati da 50 città diverse	Link
CV	Immagine	Set di dati sui segnali stradali KUL Belgio	Automotive	Veicoli autonomi	Oltre 10000 annotazioni sui segnali stradali dalla regione delle Fiandre basate su segnali stradali fisicamente distinti provenienti da tutto il Belgio.	Link
CV	Immagine	LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets	Automotive	Veicoli autonomi	Un ricco set di dati contenente segnali stradali, rilevamento di veicoli, semafori e schemi di traiettoria.	Link
CV	Immagine	CIFAR-10	Generale	Riconoscimento degli oggetti	Un set di dati composto da 50,000 immagini e 10,000 immagini di prova (ovvero 60,000 immagini a colori 32×32 in 10 classi) per il riconoscimento degli oggetti.	Link
CV	Immagine	Moda MNIST	Moda		Un set di dati di immagini composto da 60,000 esempi e un set di test di 10,000 esempi in immagini in scala di grigi 28 × 28, associate a un'etichetta di 10 classi.	Link
CV	Immagine	Set di dati IMDB-Wiki	Intrattenimento	Riconoscimento facciale	Un ampio set di dati di immagini facciali con etichette come sesso ed età. Sul totale di 523,051 immagini di volti, 460,723 immagini sono ottenute da 20,284 celebrità da IMDB e 62,328 da Wikipedia.	Link
CV	Video	Cinetica-700	Generale		Per ogni classe di azione, il set di dati di alta qualità è composto da 650,000 video clip e comprende 700 classi di azione umana con almeno 600 video clip. Qui, ogni clip dura circa 10 secondi.	Link
CV	Immagine	MS Cocco	Generale	Rilevamento di oggetti, segmentazione	Il set di dati contiene 328 immagini e ha un totale di 2.5 milioni di istanze e 91 immagini di oggetti per addestrare il rilevamento di oggetti su larga scala, la segmentazione e i modelli ML relativi alla didascalia dei dati.	Link
CV	Immagine	Set di dati di posa umana MPII	Generale		Nel set di dati sono incluse circa 25 fotografie contenenti oltre 40 individui con articolazioni del corpo annotate, che viene utilizzato per articolare la stima della posa umana. Complessivamente il set di dati copre 410 attività umane e ogni immagine è dotata di un'etichetta di attività.	Link
CV	Immagine	Apri immagini	Generale	Annotazioni sulla posizione dell'oggetto	Set di dati di immagini con circa 9 milioni di immagini annotate con etichette a livello di immagine, riquadri di delimitazione degli oggetti, segmentazione degli oggetti, ecc. Il set di dati comprende anche 16 milioni. riquadri di delimitazione per 600 classi di oggetti su 1.9 milioni di immagini.	Link
CV	Video	Piattaforma aperta Apollo, di Baidu Inc, Cina	Automotive	Riquadro di delimitazione, LiDAR	Un ricco set di dati di guida autonoma, che fornisce agli sviluppatori i dati richiesti nella guida autonoma per accelerare l'efficienza dell'iterazione innovativa.	Link
CV	Video, immagine	Argo, di Argo, USA	Automotive	Riquadro di delimitazione, flusso ottico, etichetta comportamentale, etichetta semantica, marcatura di corsia	Un set di dati a guida autonoma costituito da mappe HD con metadati geometrici e semantici, ad esempio linee centrali della corsia, direzione della corsia e area percorribile. Il set di dati viene utilizzato per addestrare modelli ML, per creare algoritmi di percezione più accurati, che aiuteranno i veicoli a guida autonoma a navigare in sicurezza.	Link
CV	Video	Piccoli semafori Bosch, di Bosch North America Research	Automotive	Rettangolo di selezione	Un set di dati composto da 13427 immagini di telecamere con risoluzione 1280*720 per costruire un sistema di rilevamento del semaforo basato sulla visione. Il set di dati ha più di 24000 semafori annotati.	Link
CV	Video	Brain4Cars, di Cornell Univ., Stati Uniti	Automotive	Etichetta comportamentale	Un set di dati composto da una serie di sensori in cabina (telecamere, sensori tattili, dispositivi intelligenti, ecc.) per estrarre statistiche utili sulla vigilanza del conducente. I nostri algoritmi possono rilevare i conducenti che sono assonnati o distratti e aumentare gli allarmi necessari per migliorare la protezione.	Link
CV	Immagine	CULane, dell'univ. cinese di Hong Kong, Pechino, Cina	Automotive	Segnalazione corsia	Un set di dati di Visione artificiale sul rilevamento delle corsie di traffico, composto da 55 ore di video di cui sono stati estratti 133,235 (88880 set di addestramento, 9675 set di convalida e 34680 set di test). Viene raccolto da telecamere montate su sei diversi veicoli guidati da diversi conducenti a Pechino.	Link
CV	Video	DAVIS, dell'univ. di Zurigo,ETH ¨ Zurigo, Germania, Svizzera	Automotive		Un set di dati di addestramento alla guida di veicoli end-to-end che utilizza una telecamera DAVIS event+frame. I dati dell'auto come sterzo, acceleratore, GPS, ecc. vengono utilizzati per valutare la fusione dei dati del telaio e degli eventi per le app automobilistiche.	Link
CV	Video	DBNet, di Shanghai Jiao Tong Univ.,Xiamen Univ., Cina	Automotive	Nuvola di punti, LiDAR	Dati di guida di 1000 KM del mondo reale, che includono video allineati, nuvola di punti, GPS e comportamento del conducente per una ricerca approfondita sui comportamenti di guida.	Link
CV	Video	Dr(eye)ve, di Univ. di Modena e Reggio Emilia, Modena, Italia	Automotive	Etichetta comportamentale	Set di dati contenente 74 sequenze video di 5 minuti ciascuna, annotate in più di 500,000 fotogrammi. Il set di dati è costituito da posizioni georeferenziate, velocità di guida, rotta e anche etichette delle fissazioni dello sguardo dei conducenti e della loro integrazione temporale fornendo mappe specifiche per attività.	Link
CV	Video	ETH Pedestrian (2009), di ETH Zurigo, Zurigo, Svizzera	Generale	Rettangolo di selezione	Un set di dati di 74 sequenze video di 5 minuti ciascuna, annotate in oltre 500,000 fotogrammi. Il set di dati fornisce posizioni georeferenziate, velocità di guida, direzione ed etichetta anche le fissazioni dello sguardo per i conducenti e la loro integrazione temporale, comprese mappe specifiche per attività.	Link
CV	Video	Ford (2009), di Univ. del Michigan, Michigan, Stati Uniti	Automotive	Riquadro di delimitazione, , LiDAR	Un set di dati compilato da un veicolo terrestre automatizzato armato con uno scanner 3D-lidar Velodyne, due lidar Rieg lungimiranti con scopa a spinta, un'unità di misura inerziale tecnica e di consumo (IMU) e un sistema di telecamere omnidirezionali Point Grey Ladybug3.	Link
CV	Video	Stereo HCI Challenge, Bosch Corporation Research, Hildesheim, Germania	Generale		Un set di dati di diversi milioni di fotogrammi da scene video catturate che include un'ampia gamma di varie condizioni meteorologiche, livelli multipli di movimento e profondità; situazioni in città e campagna, ecc.	Link
CV	Video	JAAD, della York University, Ucraina, Canada	Automotive	Riquadro di delimitazione, etichetta comportamentale	"JAAD è un set di dati per lo studio dell'attenzione congiunta nel contesto della guida autonoma. L'attenzione si concentra sui comportamenti di pedoni e conducenti al punto di attraversamento e sui fattori che li influenzano. A tal fine, il set di dati JAAD fornisce una raccolta riccamente annotata di 346 brevi video clip (della durata di 5-10 secondi) estratte da oltre 240 ore di filmati di guida da diverse località del Nord America e dell'Europa orientale. Per tutti i pedoni vengono utilizzati riquadri di delimitazione con tag di occlusione che rendono questo set di dati adatto al rilevamento dei pedoni. Le annotazioni comportamentali specificano i comportamenti dei pedoni che interagiscono o richiedono attenzione da parte dell'autista. Per ogni video sono presenti diversi tag (meteo, località, ecc.) ed etichette di comportamento con timestamp (es. fermarsi, camminare, guardare, ecc.). Inoltre, viene visualizzato un elenco di attributi demografici fornito per ciascun pedone (es. età, sesso, direzione di marcia, ecc.) nonché un elenco di elementi visibili della scena del traffico (es. segnale di stop, segnale stradale, ecc.) in ogni frame."	Link
CV	Video	KAIST Urban, di KAIST, Corea del Sud	Generale	LiDAR	La raccolta dei dati include numerosi sensori di posizione per dati LiDAR e immagini stereo mirate a un'area urbana molto complessa (ad es. aree metropolitane, edifici complessi e aree residenziali).	Link
CV	Immagine	Segnaletica stradale LISA, a cura dell'Univ. della California, San Diego, Stati Uniti	Automotive	Rettangolo di selezione	L'insieme di set di dati contenente video e frame annotati contenenti segnali stradali statunitensi. Viene rilasciato in due fasi, una con solo le immagini e l'altra con immagini e video.	Link
CV	Immagine	Mapillary Vistas, di Mapillary AB, Global	Automotive	Etichetta semantica	Un set di dati fotografici a livello di strada per interpretare le scene di strada in tutto il mondo con annotazioni umane precise ai pixel e specifiche per le istanze.	Link
CV	Video, immagine	Semantic KITTI, dell'Università di Bonn, Karlsruhe, Germania	Automotive	Riquadro di delimitazione, etichetta semantica, marcatura di corsia	Un set di dati che include un'annotazione semantica per tutte le sequenze di Odometry Benchmark. Il set di dati annota vari tipi di traffico in movimento e non in movimento: comprese automobili, biciclette, biciclette, pedoni e ciclisti, consentendo di studiare gli oggetti nella scena.	Link
CV	Video	Stanford Track, della Stanford University, Stati Uniti	Automotive	Rilevamento/Classificazione di oggetti LiDAR, GPS, Codici	Un set di dati che include 14,000 tracce di oggetti etichettati osservate da un Velodyne HDL-64E S2 LIDAR in scene di strade naturali, che possono essere utilizzate per addestrare modelli di apprendimento automatico per il riconoscimento di oggetti 3D.	Link
CV	Video, immagine	The Boxy Dataset, di Bosch, Stati Uniti	Automotive	Riquadro di delimitazione/rilevamento del veicolo	Un set di dati di rilevamento dei veicoli contenente 2 milioni di veicoli annotati per l'addestramento e l'analisi delle strategie di riconoscimento degli oggetti per le auto a guida autonoma sulle autostrade.	Link
CV	Video	Autostrada TME, di Czech Technical Univ., Nord Italia	Automotive	Rettangolo di selezione	Un set di dati di 28 clip per un totale di 27 minuti suddiviso in oltre 30,000 frame di annotazione del veicolo. L'annotazione è stata prodotta in modo semiautomatico utilizzando i dati dello scanner laser. Questa raccolta di dati coinvolge scenari di traffico variabili, numero di corsie, curvatura della strada e illuminazione, coprendo gran parte delle condizioni dell'acquisizione completa.	Link
CV	Video	Llamas senza supervisione, di Bosch, Stati Uniti	Automotive	Segnaletica di corsia, LiDAR	Il set di dati Unsupervised Llamas è stato annotato generando mappe di guida automatiche ad alta definizione, inclusi indicatori di corsia basati su Lidar. Il veicolo autonomo può essere allineato rispetto a queste mappe e le linee di demarcazione della corsia vengono proiettate nella cornice della telecamera. La proiezione 3D è ottimizzata riducendo al minimo la discrepanza tra i marker di immagine già osservati e previsti.	Link
NLP	audio	Facebook AI multilingue LibriSpeech (MLS)	Generale	Annotazione audio/riconoscimento vocale	Facebook AI Multilingual LibriSpeech (MLS), è un set di dati open source su larga scala progettato per aiutare a far avanzare la ricerca nel riconoscimento vocale automatico (ASR). MLS offre oltre 50,000 ore di audio in 8 lingue: inglese, tedesco, olandese, francese, spagnolo, italiano, portoghese e polacco.	Link

Set di dati aperti

Set di dati open source per iniziare con i modelli AI/ML

Servizi dati AI AI

Specialità

Industria

Prodotti

Azienda

Risorse

Contatti