Caso di studio: licenza di set di dati medici
Trasformare l'assistenza pediatrica e ostetrica e ginecologica attraverso la formazione sulla cura dei dati di precisione e l'annotazione
Sfruttare la potenza dei dati medici: conservazione completa dei dati, de-identificazione, ICD-10 CM e annotazione per un addestramento superiore dei modelli di intelligenza artificiale.
Panoramica del progetto
Shaip ha collaborato con un'azienda leader nel settore dell'intelligenza artificiale in ambito sanitario per curare e annotare set di dati medici de-identificati di alta qualità per l'addestramento di modelli NLP avanzati. Il progetto si è concentrato sulle specialità pediatriche e ostetriche, fornendo cartelle cliniche ambulatoriali annotate con codici ICD-10 CM tramite un robusto framework API.
Il set di dati è stato strutturato per facilitare l'addestramento dell'intelligenza artificiale sulla documentazione sanitaria del mondo reale, migliorando la capacità del modello di comprendere le narrazioni cliniche.
Statistiche chiave
pagine 750 / ~300 cartelle cliniche ambulatoriali
375 pagine Pediatria
375 pagine Ostetricia e Ginecologia
Annotazioni del codice medico ICD-10 CM 2023
Ambito del progetto
| Tipo di set di dati | Specialità | Volume | Metadati catturati | Note |
|---|---|---|---|---|
| Note mediche | Pediatria | 375 pagine (~150 record) |
Nome file, Specialità, Tipo di documento, Classe paziente (ambulatoriale) |
Include sezioni di valutazione/pianificazione |
| Ginecologo | 375 pagine (~150 record) | |||
| Annotazioni | ICD-10 CM (2023) | Set di dati completo | Mappatura del codice tramite API | La convalida del codice da parte dei programmatori è fuori dall'ambito |
Le sfide
Il progetto presentava diverse sfide critiche che richiedevano una pianificazione e un'esecuzione meticolose:
1. Raccolta dati specifici per specialità
L'approvvigionamento di cartelle cliniche ambulatoriali di alta qualità esclusivamente da specialità pediatriche e ostetriche-ginecologiche è stato impegnativo. Ogni documento doveva includere sezioni cliniche chiave come Assessment e Plan per supportare annotazioni accurate.
2. De-identificazione completa delle PHI
Garantire la rimozione completa di tutte le informazioni di identificazione personale (PII) mantenendo il contesto medico era essenziale per la conformità HIPAA. Ciò ha richiesto revisioni dettagliate per prevenire qualsiasi violazione della privacy.
3. Annotazione CM ICD-10 complessa
L'applicazione di codici ICD-10 CM (2023) precisi tramite API è stata complessa a causa di stili narrativi e terminologia medica diversi. La coerenza e l'accuratezza nella codifica erano fondamentali per garantire un addestramento affidabile del modello AI.
4. Accuratezza e coerenza dei metadati
Catturare e convalidare metadati quali specialità, tipo di documento e classe di paziente senza discrepanze era fondamentale. Qualsiasi discrepanza poteva avere un impatto sulla formazione del modello e sull'usabilità dei dati.
5. Filtraggio rigoroso dei pazienti ambulatoriali
Garantire che tutte le cartelle cliniche fossero strettamente ambulatoriali ha aggiunto complessità, poiché molti documenti clinici possono contenere classi di pazienti miste o sezioni incomplete.
6. Standard di garanzia della qualità e accuratezza
Per raggiungere la soglia di accuratezza del 90% sono state necessarie revisioni a più livelli per eliminare i duplicati, convalidare l'allineamento delle specialità e garantire la de-identificazione, con disposizioni per la rielaborazione quando necessario.
Soluzione
Licenza dati completa e annotazione
- Cartelle cliniche pediatriche e ginecologiche autorizzate per pazienti ambulatoriali
- Inclusione garantita delle sezioni critiche: reclamo principale, cronologia, ROS, valutazione, piano
- Annotazione ICD-10 CM basata su API (versione 2023)
De-identificazione e conformità
- Sostituiti PHI con segnaposto (PERSON_NAME, DATE, LOCATION, ecc.)
- Conformità garantita agli standard sulla privacy dei dati sanitari
Tagging dei metadati
- Metadati dettagliati catturati per file:
-
- Nome del file
- Specialità (Pediatria o Ostetricia e Ginecologia)
- Tipo di documento (follow-up, H&P, consultazione)
- Classe pazienti (solo pazienti ambulatoriali)
Controllo di qualità
- Rigorose valutazioni della qualità con:
- Nessun record duplicato
- Validazione delle partite speciali
- Controllo ambulatoriale
- Controllo di coerenza dei metadati
- Sostituzione o correzione di registrazioni con una soglia di accuratezza inferiore al 90%
Risultato
Shaip ha fornito un set di dati di note mediche strutturate e annotate che ha consentito al cliente di:
- Modelli di intelligenza artificiale per una previsione accurata del codice CM ICD-10
- Migliorare le capacità di PNL in scenari sanitari reali
- Mantenere la conformità con gli standard normativi e sulla privacy
- Modelli di intelligenza artificiale per l'assistenza sanitaria su larga scala nei settori pediatrico e ostetrico-ginecologico
L'approccio strutturato di Shaip alla cura e all'annotazione dei dataset ha superato le nostre aspettative. L'accuratezza, la de-identificazione e la precisione dei metadati hanno notevolmente rafforzato la nostra pipeline di training dei modelli AI.