Shaip fa ora parte dell'ecosistema Ubiquity: lo stesso team, ora supportato da risorse più ampie per supportare i clienti su larga scala. |
Set di dati sanitari

22 set di dati sanitari gratuiti e aperti per lo sviluppo di apprendimento automatico e intelligenza artificiale nel 2025

Nel mondo odierno, l'assistenza sanitaria è sempre più basata sul machine learning (ML). Dalla previsione delle malattie al miglioramento della diagnostica, il ML sta trasformando i risultati sanitari. Tuttavia, ogni progetto di ML inizia con un pilastro fondamentale: set di dati di qualità.

In questo blog abbiamo raccolto set di dati medici gratuiti e aperti in diverse categorie, tra cui sanità generale, diagnostica per immagini, genomica e ospedali. Che siate ricercatori o sviluppatori, questi set di dati vi aiuteranno a costruire modelli sanitari solidi e innovativi.

Cosa sono i set di dati sanitari?

Un set di dati sanitari o medici è una raccolta di informazioni relative alla salute, come cartelle cliniche dei pazienti, risultati di laboratorio, immagini mediche o anamnesi di trattamenti. I set di dati sanitari sono spesso organizzati in raccolte di dati, ovvero archivi curati e progettati per la ricerca, la salute pubblica e l'uso clinico.

Questi set di dati vengono utilizzati per studiare le malattie, migliorare i trattamenti e sviluppare strumenti come i modelli di intelligenza artificiale per diagnosi e cure più efficaci. Molti set di dati sanitari contengono dati sanitari anonimizzati, garantendo la tutela della privacy dei pazienti e consentendo al contempo ricerche e analisi preziose.

Svolgono un ruolo fondamentale nel progresso della ricerca e nel miglioramento dei risultati per i pazienti.

Importanza dei set di dati sanitari per l'addestramento del modello di apprendimento automatico

Importanza dei dataset sanitari

I dataset sanitari sono raccolte di informazioni sui pazienti, come cartelle cliniche, diagnosi, trattamenti, dati genetici e dettagli sullo stile di vita. La scienza dei dati svolge un ruolo cruciale nell'analisi di questi dataset sanitari, consentendo ai ricercatori di scoprire informazioni e promuovere l'innovazione nell'assistenza ai pazienti. Sono molto importanti nel mondo odierno, in cui l'intelligenza artificiale è sempre più utilizzata. Ecco perché: i dataset di benchmark sono essenziali per valutare e confrontare le prestazioni dei modelli di apprendimento automatico in ambito sanitario.

[Leggi anche: Perché i set di dati sanitari sono importanti per dare forma al futuro dell'intelligenza artificiale medica]

Comprendere la salute del paziente:

I dataset Medical Note forniscono ai dottori un quadro completo della salute di un paziente. Ad esempio, i dati sulla storia clinica, i farmaci e lo stile di vita di un paziente possono aiutare a prevedere se potrebbe contrarre una malattia cronica. Ciò consente ai dottori di intervenire in anticipo e di elaborare un piano di trattamento solo per quel paziente.

Aiutare la ricerca medica:

Studiando i set di dati sanitari, i ricercatori medici possono analizzare come vengono trattati i pazienti oncologici e come guariscono. Possono individuare i trattamenti più efficaci nel mondo reale. Ad esempio, analizzando i campioni tumorali nelle biobanche, i ricercatori spesso analizzano l'espressione genica e utilizzano set di dati relativi a specifici tipi di tumore e profili genici per comprendere la progressione del cancro, nonché come specifiche mutazioni e proteine ​​tumorali reagiscono a diversi trattamenti. Questo approccio basato sui dati aiuta a individuare tendenze che portano a migliori risultati per i pazienti.

Migliore diagnosi e trattamento:

Gli strumenti basati sull'intelligenza artificiale utilizzano set di dati diagnostici medici, che possono includere parametri vitali come la frequenza cardiaca e la pressione sanguigna, per individuare modelli che aiutano i medici a diagnosticare e trattare le malattie in modo più efficace. In radiologia, l'intelligenza artificiale può identificare rapidamente anomalie nelle scansioni con una precisione impressionante, consentendo una diagnosi precoce delle malattie. Con la continua evoluzione di questi set di dati, innovazioni come annotazione di immagini mediche stanno perfezionando ulteriormente i processi diagnostici e l'inclusione dei dati demografici dei pazienti in questi set di dati aiuta ad adattare gli strumenti diagnostici a popolazioni diverse, con conseguente miglioramento dei risultati sanitari per i pazienti.

Aiutare le iniziative di sanità pubblica:

Immaginate una piccola città in cui gli esperti sanitari hanno utilizzato set di dati per monitorare un'epidemia di influenza. Hanno esaminato gli andamenti e individuato le aree colpite. Con questi dati, hanno avviato campagne di vaccinazione mirate e campagne di educazione sanitaria. Questo approccio basato sui dati ha contribuito a contenere l'influenza. Set di dati come questi sono essenziali anche per gli sforzi di controllo delle malattie e per monitorare le tendenze nutrizionali infantili nella sanità pubblica. Questo dimostra come i set di dati sanitari possano guidare e migliorare attivamente le iniziative di sanità pubblica, con il monitoraggio della nutrizione infantile come componente fondamentale di molti set di dati sulla sanità pubblica.

Fonti di dati clinici

I dati clinici costituiscono la spina dorsale dei moderni dataset sanitari, offrendo una raccolta completa di informazioni che guida i progressi nell'assistenza ai pazienti e nella ricerca medica. Questi dati provengono da una varietà di canali, tra cui cartelle cliniche elettroniche (EHR), diagnostica per immagini e sequenziamento genomico. L'Organizzazione Mondiale della Sanità (OMS) gestisce un archivio globale di dati sanitari, fornendo accesso ai dati clinici provenienti dai sistemi sanitari di tutto il mondo. Questa ricchezza di dati sanitari consente ai ricercatori di condurre analisi sanitarie, scoprendo preziose informazioni sui modelli di malattia, l'efficacia dei trattamenti e gli esiti per i pazienti.

Set di dati specializzati, come l'Alzheimer's Disease Neuroimaging Initiative (ADNI) e il Cancer Genome Atlas (TCGA), arricchiscono ulteriormente il panorama offrendo dati clinici dettagliati sulla progressione della malattia, sui marcatori genetici e sulle risposte terapeutiche. Queste risorse sono fondamentali per lo sviluppo di modelli di apprendimento automatico in grado di prevedere gli esiti clinici, personalizzare i trattamenti e, in definitiva, migliorare la salute dei pazienti, riducendo al contempo i costi sanitari. Sfruttando una raccolta così completa di dati clinici, il settore sanitario è meglio equipaggiato per affrontare le sfide sanitarie globali e guidare l'innovazione nella ricerca medica.

[Leggi anche: Il ruolo dei set di dati medici multimodali nel progresso della ricerca sull'intelligenza artificiale]

Esplora 22 set di dati aperti e gratuiti per l'apprendimento medico e delle scienze della vita

I dataset aperti sono essenziali per il buon funzionamento di qualsiasi modello di apprendimento automatico. Molti dataset aperti provengono da ampi database sanitari gestiti da istituti nazionali e organizzazioni di servizi alla persona. L'apprendimento automatico è già utilizzato nelle scienze della vita, nella sanità e nella medicina, e sta dando ottimi risultati. Aiuta a prevedere le malattie e a comprenderne la diffusione. L'apprendimento automatico fornisce anche spunti su come prenderci cura adeguatamente di persone malate, anziane e indisposte in una comunità. Senza buoni dataset, questi modelli di apprendimento automatico non sarebbero possibili.

Sanità generale e pubblica:

  • dati.gov: si concentra sui dati sanitari orientati agli Stati Uniti che possono essere facilmente ricercati utilizzando più parametri. I set di dati sono progettati per migliorare il benessere delle persone residenti negli Stati Uniti; tuttavia, le informazioni potrebbero rivelarsi utili anche per altri gruppi di formazione nella ricerca o in altri settori della sanità pubblica.
  • OMS: offre set di dati incentrati sulle priorità sanitarie globali. La piattaforma incorpora una funzione di ricerca intuitiva e fornisce preziosi approfondimenti insieme ai set di dati per una comprensione completa degli argomenti in questione.
  • Re3Data: Offre dati che abbracciano più di 2,000 argomenti di ricerca classificati in diverse ampie aree. Sebbene non tutti i set di dati siano liberamente accessibili, la piattaforma indica chiaramente la struttura e consente una facile ricerca in base a fattori quali tariffe, requisiti di adesione e restrizioni sul copyright.
  • Database di mortalità umana offre accesso a dati sui tassi di mortalità, dati sulla popolazione e varie statistiche sanitarie e demografiche per 35 nazioni.
  • CHDS: I set di dati degli studi sulla salute e lo sviluppo dei bambini mirano a indagare la trasmissione intergenerazionale della malattia e della salute. Comprende set di dati per la ricerca non solo sull’espressione genomica ma anche sull’influenza di fattori sociali, ambientali e culturali su malattie e salute.
  • Sfida sull'attività molecolare Merck: presenta set di dati progettati per promuovere l'applicazione dell'apprendimento automatico nella scoperta di farmaci simulando le potenziali interazioni tra varie combinazioni di molecole.
  • 1000 Genomi Progetto: Contiene dati di sequenziamento di 2,500 individui di 26 popolazioni diverse, rendendolo uno dei più grandi archivi di genomi accessibili. È possibile accedere a questa collaborazione internazionale tramite AWS. (Si noti che sono disponibili sovvenzioni per progetti sul genoma.)

Set di dati di immagini mediche per scienze della vita, sanità e medicina:

  • Apri Neuro: Essendo una piattaforma gratuita e aperta, OpenNeuro condivide un'ampia gamma di immagini mediche, inclusi dati MRI, MEG, EEG, iEEG, ECoG, ASL e PET. Con 563 set di dati medici che coprono 19,187 partecipanti, costituisce una risorsa inestimabile per ricercatori e operatori sanitari.
  • Oasis: Originato dalla serie Open Access of Imaging Studies (OASIS), questo set di dati si propone di fornire dati di neuroimaging al pubblico gratuitamente a beneficio della comunità scientifica. Comprende 1,098 soggetti in 2,168 sessioni RM e 1,608 sessioni PET, offrendo una vasta gamma di informazioni per i ricercatori.
  • Iniziativa di neuroimaging della malattia di Alzheimer: L'Alzheimer's Disease Neuroimaging Initiative (ADNI) presenta i dati raccolti da ricercatori di tutto il mondo impegnati a definire la progressione della malattia di Alzheimer. Il set di dati include una raccolta completa di immagini MRI e PET, informazioni genetiche, test cognitivi e biomarcatori del liquido cerebrospinale e del sangue, facilitando un approccio sfaccettato alla comprensione di questa complessa condizione.
  • MIMIC-III: Un database completo di dati sui pazienti in terapia intensiva, inclusi referti di diagnostica per immagini e informazioni cliniche, è disponibile tramite MIMIC-III. Questa risorsa anonimizzata supporta la ricerca in terapia intensiva e la modellazione predittiva.
  • CheXpert: Per l'interpretazione automatizzata delle radiografie del torace, CheXpert fornisce un vasto set di dati di oltre 224,000 immagini radiografiche del torace con etichette di incertezza. Svolge un ruolo cruciale nella ricerca radiologica e nella diagnosi delle malattie.
  • HAM10000: HAM10000, che promuove la ricerca dermatologica e la previsione del cancro della pelle, offre 10,000 immagini dermatoscopiche per la rilevazione di lesioni cutanee pigmentate.

Set di dati ospedalieri:

  • Catalogo dati fornitore: accedi e scarica set di dati completi di fornitori in aree quali strutture di dialisi, studi medici, servizi sanitari a domicilio, cure hospice, ospedali, riabilitazione ospedaliera, ospedali per cure a lungo termine, case di cura con servizi di riabilitazione, costi delle visite ambulatoriali ed elenchi di fornitori.
  • Progetto sui costi e sull'utilizzo dell'assistenza sanitaria (HCUP): questo database completo a livello nazionale è stato creato per identificare, monitorare e analizzare le tendenze nazionali nell'utilizzo, nell'accesso, nelle tariffe, nella qualità e nei risultati dell'assistenza sanitaria. Ogni set di dati medici all'interno dell'HCUP contiene informazioni a livello di incontro su tutti i ricoveri dei pazienti, le visite al pronto soccorso e gli interventi ambulatoriali negli ospedali statunitensi, fornendo una grande quantità di dati a ricercatori e responsabili politici.
  • Database di terapia intensiva MIMIC: sviluppato dal MIT per scopi di fisiologia computazionale, questo set di dati medici liberamente disponibile comprende dati sanitari non identificati provenienti da oltre 40,000 pazienti in terapia intensiva. Il set di dati MIMIC costituisce una risorsa preziosa per i ricercatori che studiano terapia intensiva e sviluppano nuovi metodi computazionali.

Set di dati sul cancro:

  • Immagini mediche TC: progettato per facilitare metodi alternativi per l'esame delle tendenze nei dati delle immagini TC, questo set di dati presenta scansioni TC di pazienti affetti da cancro, concentrandosi su fattori quali contrasto, modalità ed età del paziente. I ricercatori possono sfruttare questi dati per sviluppare nuove tecniche di imaging e analizzare i modelli nella diagnosi e nel trattamento del cancro.
  • Collaborazione internazionale sulla segnalazione del cancro (ICCR): I set di dati medici dell'ICCR sono stati sviluppati e forniti per promuovere un approccio basato sull'evidenza scientifica alla segnalazione dei casi di cancro in tutto il mondo. Standardizzando la segnalazione dei casi di cancro, l'ICCR mira a migliorare la qualità e la comparabilità dei dati sul cancro tra istituzioni e paesi.
  • SEER Incidenza del cancro: forniti dal governo degli Stati Uniti, questi dati sul cancro sono segmentati utilizzando distinzioni demografiche di base come razza, sesso ed età. Il set di dati SEER consente ai ricercatori di studiare l’incidenza del cancro e i tassi di sopravvivenza in diversi sottogruppi di popolazione, informando le iniziative di sanità pubblica e le priorità di ricerca.
  • Set di dati sul cancro al polmone: questo set di dati gratuito contiene informazioni sui casi di cancro al polmone risalenti al 1995. I ricercatori possono utilizzare questi dati per studiare le tendenze a lungo termine nell'incidenza, nel trattamento e negli esiti del cancro al polmone, nonché per sviluppare nuovi strumenti diagnostici e prognostici.

Risorse aggiuntive per i dati sanitari:

  • Kaggle: Un repository di set di dati versatile: Kaggle rimane una piattaforma eccezionale per un'ampia gamma di set di dati, non limitata al settore sanitario. Ideale per chi si diversifica in vari argomenti o ha bisogno di set di dati diversi per l'addestramento del modello, Kaggle è una risorsa a cui rivolgersi.
  • subreddit: Un tesoro guidato dalla comunità – Le giuste discussioni su subreddit possono essere una miniera d'oro per set di dati aperti. Per domande di nicchia o specifiche non affrontate da set di dati pubblici, la comunità Reddit potrebbe avere la risposta.

Pro e contro delle piattaforme dati ad accesso aperto

Le piattaforme dati ad accesso aperto forniscono risorse inestimabili per i ricercatori, promuovendo l'innovazione, la collaborazione e l'accesso economicamente vantaggioso ai dati sanitari. Tuttavia, sfide come problemi di qualità dei dati, problemi di privacy e barriere tecniche possono limitarne l'efficacia. Bilanciare questi pro e contro è essenziale per massimizzare il loro potenziale nel guidare i progressi nella ricerca sanitaria.

ProContro
Accessibilità: I set di dati liberamente accessibili consentono a ricercatori e data scientist di accedere più facilmente a informazioni preziose.Problemi di qualità dei dati:I set di dati ad accesso aperto potrebbero non essere standardizzati o contenere dati incompleti o obsoleti.
Collaborazione: Incoraggia la collaborazione interdisciplinare e intersettoriale nella ricerca e nell'innovazione.Preoccupazioni relative alla privacy:Anche i set di dati resi anonimi possono presentare rischi di reidentificazione di informazioni sensibili.
Innovazione: Promuove lo sviluppo di modelli e strumenti di apprendimento automatico per l'analisi e la ricerca in ambito sanitario.Ambito limitato: Alcuni set di dati potrebbero non rappresentare popolazioni diverse o coprire tutte le aree sanitarie necessarie.
Costo-efficace: Consente di risparmiare sui costi fornendo risorse gratuite, eliminando la necessità di costosi dati proprietari.Uso eccessivo di dati sintetici:Un eccessivo affidamento sui dati sintetici potrebbe portare a imprecisioni o distorsioni nei modelli.
Condivisione della conoscenza: Promuove la trasparenza e accelera la diffusione dei risultati della ricerca.Barriere tecniche: L'accesso e l'analisi di grandi set di dati potrebbero richiedere competenze tecniche e risorse avanzate.

Qualità dei dati e sicurezza nei set di dati medici

Mantenere elevati standard di qualità e sicurezza dei dati è fondamentale quando si lavora con set di dati medici. Garantire la qualità dei dati implica rigorosi processi di convalida e pulizia per eliminare errori e incongruenze, essenziali per produrre risultati di ricerca affidabili. Sul fronte della sicurezza, misure robuste come la crittografia, i controlli di accesso e l'archiviazione sicura sono fondamentali per proteggere le informazioni sanitarie sensibili.

La de-identificazione dei set di dati è una pratica fondamentale che consente ai ricercatori di utilizzare dati sanitari de-identificati per l'analisi, tutelando al contempo la privacy dei pazienti. Tecniche avanzate come l'indicizzazione semantica biomedica migliorano ulteriormente l'usabilità e l'accuratezza dei set di dati medici, semplificando l'organizzazione e il recupero delle informazioni rilevanti. Dando priorità sia alla qualità che alla sicurezza dei dati, le istituzioni sanitarie possono promuovere la fiducia, supportare la conformità e consentire l'uso sicuro ed efficace dei set di dati medici per la ricerca e l'innovazione.

Accelera i tuoi progetti di IA nel settore sanitario con i set di dati medici premium e pronti all'uso di Shaip

Set di dati sulle conversazioni tra medico e paziente

Il nostro set di dati contiene file audio di conversazioni tra medici e pazienti riguardanti la loro salute e i piani di trattamento. I file coprono 31 diverse specialità mediche.

Cosa è incluso?

  • 257,977 ore di audio dettato dal medico reale per addestrare modelli vocali sanitari
  • Audio da vari dispositivi come telefoni, registratori digitali, microfoni vocali e smartphone
  • Audio e trascrizioni con informazioni personali rimosse per rispettare le leggi sulla privacy

Set di dati immagine SCANSIONE TC

Offriamo set di dati di immagini di scansione TC di prim'ordine per la ricerca e la diagnosi medica. Disponiamo di migliaia di immagini di alta qualità di pazienti reali, elaborate utilizzando le tecniche più recenti. I nostri set di dati aiutano medici e ricercatori a comprendere meglio vari problemi di salute, come il cancro, i disturbi cerebrali e le malattie cardiache.

I dati indicano che le scansioni TC più comuni riguardano il torace (6000) e la testa (4350), con un numero significativo di scansioni eseguite anche per l'addome, la pelvi e altre parti del corpo. La tabella rivela inoltre che alcune scansioni specializzate, come la TC Covid HRCT e l'angio polmonare, vengono condotte principalmente in India, Asia, Europa e altri paesi.

Set di dati delle cartelle cliniche elettroniche (EHR).

Le cartelle cliniche elettroniche (EHR) sono versioni digitali della storia medica di un paziente. Includono informazioni come diagnosi, farmaci, piani di trattamento, date di immunizzazione, allergie, immagini mediche (come scansioni TC, risonanza magnetica e raggi X), test di laboratorio e altro ancora.

Il nostro set di dati EHR pronto all'uso presenta:

  • Oltre 5.1 milioni di record e file audio medici che abbracciano 31 specialità mediche
  • Cartelle mediche autentiche ideali per la formazione sulla PNL clinica e altri modelli di intelligenza artificiale dei documenti
  • Metadati inclusi MRN anonimizzato, date di ricovero e dimissione, durata del ricovero, sesso, classe del paziente, pagatore, classe finanziaria, stato, disposizione di dimissione, età, DRG, descrizione DRG, rimborso, AMLOS, GMLOS, rischio di mortalità, gravità della malattia, cernia e codice postale dell'ospedale
  • Record che coprono tutte le classi di pazienti: ricoverato, ambulatoriale (clinico, riabilitazione, ricorrente, day care chirurgico) e emergenza
  • Documenti contenenti informazioni di identificazione personale (PII) oscurati, in conformità alle linee guida HIPAA Safe Harbor

Set di dati di immagini MRI

Forniamo set di dati di immagini MRI premium per supportare la ricerca e la diagnosi medica. La nostra vasta raccolta comprende migliaia di immagini ad alta risoluzione di pazienti reali, tutte elaborate utilizzando metodi all'avanguardia. Utilizzando i nostri set di dati, gli operatori sanitari e i ricercatori possono approfondire la loro comprensione di un’ampia gamma di condizioni mediche, portando in definitiva a risultati migliori per i pazienti.

Set di dati di immagini MRI di varie parti del corpo, con la colonna vertebrale e il cervello che hanno i conteggi più alti, pari a 5000 ciascuno. I dati sono distribuiti tra India, Asia centrale ed Europa e regioni dell'Asia centrale.

Set di dati di immagini a raggi X

Set di dati di immagini a raggi X della migliore qualità per la ricerca e la diagnosi medica. Disponiamo di migliaia di immagini ad alta risoluzione di pazienti reali, elaborate utilizzando le tecniche più recenti. Con Shaip puoi accedere a dati medici affidabili per migliorare la tua ricerca e i risultati dei pazienti.

Distribuzione del set di dati sui raggi X in varie parti del corpo, con il torace che ha il numero più alto, pari a 1000, in Asia centrale. Gli arti inferiori e superiori hanno un totale di 850 ciascuno, distribuiti tra le regioni dell'Asia centrale e dell'Asia centrale ed Europa.

Conclusione

In sintesi, i set di dati sanitari rappresentano una risorsa inestimabile per migliorare i risultati dei pazienti, ridurre i costi sanitari e far progredire la ricerca medica e sanitaria. Sfruttando diverse fonti di dati clinici, tra cui cartelle cliniche elettroniche (EHR), diagnostica per immagini e archivi sanitari globali, data scientist e ricercatori possono sviluppare potenti modelli di apprendimento automatico che prevedono la progressione della malattia e identificano i pazienti a rischio. Piattaforme di dati ad accesso aperto e progetti di utilizzo offrono ulteriori opportunità per analizzare i costi e l'utilizzo dell'assistenza sanitaria, offrendo preziose informazioni che influenzano le politiche e la pratica clinica.

Garantire la qualità e la sicurezza dei set di dati sanitari è essenziale per mantenere la fiducia e ottenere risultati affidabili. Man mano che il settore sanitario continua ad abbracciare l'innovazione basata sui dati, l'uso responsabile dei set di dati medici sarà fondamentale per migliorare l'equità sanitaria, ottimizzare i costi e l'utilizzo dell'assistenza sanitaria e ottenere risultati migliori per tutti. Dando priorità all'accessibilità, alla qualità dei dati e alla sicurezza, possiamo sfruttare appieno il potenziale dei set di dati sanitari e plasmare un futuro più luminoso per l'analisi sanitaria e la ricerca medica.

Share sociale