De-identificare i dati sanitari non strutturati

La guida completa per de-identificare i dati sanitari non strutturati

L'analisi dei dati strutturati può aiutare a migliorare la diagnosi e l'assistenza ai pazienti. Tuttavia, l'analisi dei dati non strutturati può alimentare scoperte e progressi medici rivoluzionari.

Questo è il succo dell'argomento che discuteremo oggi. È molto interessante osservare che così tanti progressi radicali nello spazio della tecnologia sanitaria sono avvenuti con solo il 10-20% di dati sanitari utilizzabili.

Le statistiche rivelano che oltre il 90% dei dati in questo spettro non è strutturato, il che si traduce in dati meno utilizzabili e più difficili da comprendere, interpretare e applicare. Dai dati analogici come la prescrizione di un medico ai dati digitali sotto forma di immagini mediche e dati audiovisivi, i dati non strutturati sono di tipi diversi.

Tali enormi blocchi di dati non strutturati ospitano intuizioni incredibili che possono accelerare i progressi dell'assistenza sanitaria di decenni. Che si tratti di aiutare la scoperta di farmaci per malattie autoimmuni critiche che consumano la vita o di dati che possono assistere le compagnie di assicurazione sanitaria nelle valutazioni del rischio, i dati non strutturati possono aprire la strada a possibilità sconosciute.

Quando tali ambizioni sono in atto, l'interpretabilità e l'interoperabilità dei dati sanitari diventano cruciali. Con linee guida rigorose e l'applicazione di conformità normativa come GDPR e HIPAA in atto, ciò che diventa inevitabile è de-identificazione dei dati sanitari.

Abbiamo già trattato un ampio articolo sulla demistificazione dati sanitari strutturati e dati sanitari non strutturatiC'è un articolo dedicato (leggi esteso) su de-identificazione dei dati sanitari anche. Vi invitiamo a leggerli per informazioni olistiche, poiché avremo questo articolo per un pezzo speciale su de-identificazione dei dati non strutturati

Sfide nella de-identificazione dei dati non strutturati

Come suggerisce il nome, i dati non strutturati non sono organizzati. Sono sparsi in termini di formati, tipi di file, dimensioni, contesto e altro. Il semplice fatto che i dati non strutturati esistano sotto forma di audio, testo, immagini mediche, voci analogiche e altro rende ancora più difficile comprendere gli identificatori di informazioni personali (PII), che sono essenziali in de-identificazione dei dati non strutturati.

Per darvi un'idea delle sfide fondamentali, ecco un rapido elenco:

Sfide nella de-identificazione dei dati non strutturati

  • Comprensione contestuale – dove è difficile per un stakeholder dell'IA comprendere il contesto specifico dietro una particolare porzione o aspetto di dati non strutturati. Ad esempio, capire se un nome è il nome di un'azienda, il nome di una persona o il nome di un prodotto può portare a un dilemma se debba essere de-identificato.  
  • Dati non testuali – dove l’identificazione di segnali uditivi o visivi per nomi o PII può essere un compito arduo, in quanto una parte interessata potrebbe dover guardare ore e ore di filmati o registrazioni nel tentativo di de-identificare aspetti critici. 
  • Ambiguità – questo è particolarmente vero nel contesto di dati analogici come una prescrizione medica o una registrazione ospedaliera in un registro. Dalla scrittura a mano alle limitazioni di espressione nel linguaggio naturale, potrebbe rendere la de-identificazione dei dati un compito complesso. 

Best practice per la de-identificazione dei dati non strutturati

Il processo di rimozione delle PII dai dati non strutturati è molto diverso da de-identificazione dei dati strutturati ma non impossibile. Attraverso un approccio sistematico e contestuale, il potenziale dei dati non strutturati può essere sfruttato senza problemi. Diamo un'occhiata ai diversi modi in cui questo può essere ottenuto. 

Buone pratiche per la de-identificazione dei dati non strutturati

Redazione dell'immagine: Ciò riguarda i dati di imaging medico e comporta la rimozione degli identificatori dei pazienti e la sfocatura dei riferimenti e delle porzioni anatomiche dalle immagini. Questi vengono sostituiti da caratteri speciali per mantenere comunque la funzionalità diagnostica e l'utilità dei dati di imaging. 

Corrispondenza del modello: Alcune delle informazioni personali identificabili (PII) più comuni, come nomi, dati di contatto e indirizzi, possono essere rilevate e rimosse studiando attentamente modelli predefiniti. 

Privacy differenziale o perturbazione dei dati: comporta l'inclusione di rumore controllato per nascondere dati o attributi che possono essere ricondotti a un individuo. Questo metodo ideale non solo garantisce la de-identificazione dei dati, ma anche la conservazione delle proprietà statistiche del set di dati per le analisi. 

De-identificazione dei dati: Questo è uno dei modi più affidabili ed efficaci per rimuovere le PII dai dati non strutturati. Può essere implementato in uno dei due modi seguenti:

  • Apprendimento supervisionato – dove un modello viene addestrato per classificare testo o dati come PII o non PII
  • Apprendimento senza supervisione – dove un modello viene addestrato ad apprendere autonomamente a rilevare schemi nell’identificazione delle PII

Questo metodo garantisce la salvaguardia di privacy del paziente mantenendo comunque l'intervento umano per gli aspetti più ridondanti del compito. Gli stakeholder e i fornitori di dati sanitari che implementano tecniche di ML per de-identificare i dati non strutturati possono semplicemente avere un processo di garanzia della qualità abilitato dall'uomo per garantire correttezza, pertinenza e accuratezza dei risultati. 

Mascheramento dei dati: Il mascheramento dei dati è il gioco di parole digitale per de-identificare i dati sanitari, in cui identificatori specifici vengono resi generici o vaghi attraverso tecniche di nicchia come:

  • Tokenizzazione – che comporta la sostituzione di PII con caratteri o token
  • Generalizzazione – sostituendo i valori PII specifici con valori generici/vaghi
  • Mescolando – mescolando le PII per renderle ambigue

Tuttavia, questo metodo presenta una limitazione: con un modello o un approccio sofisticato, i dati possono essere resi nuovamente identificabili.

Esternalizzazione ai player del mercato

L'unico approccio corretto per garantire il processo di de-identificazione dei dati non strutturati è ermetico, infallibile e conforme alle linee guida HIPAA è quello di esternalizzare le attività a un fornitore di servizi affidabile come SaipCon modelli all'avanguardia e rigidi protocolli di garanzia della qualità, garantiamo supervisione umana nella privacy dei dati è mitigato in ogni momento.

Essendo un'azienda dominante sul mercato da anni, comprendiamo la criticità dei tuoi progetti. Quindi, contattaci oggi stesso per ottimizzare le tue ambizioni in ambito sanitario con i dati sanitari de-identificati da Shaip.

Share sociale