Annotazione dei dati – NER

Annotazione di riconoscimento di entità denominate (NER) per la PNL clinica

Ner annotazione

Dati di testo clinico ben annotati e Gold Standard per addestrare/sviluppare la PNL clinica per creare la prossima versione dell'API Healthcare

L’importanza dell’elaborazione clinica del linguaggio naturale (PNL) è stata sempre più riconosciuta negli ultimi anni e ha portato a progressi trasformativi. La PNL clinica consente ai computer di comprendere il ricco significato che si nasconde dietro l'analisi scritta di un paziente da parte di un medico. La PNL clinica può avere molteplici casi d'uso che vanno dall'analisi della salute della popolazione al miglioramento della documentazione clinica, al riconoscimento vocale, all'abbinamento degli studi clinici, ecc.

Per sviluppare e addestrare qualsiasi modello clinico di PNL, sono necessari set di dati accurati, imparziali e ben annotati in enormi volumi. Gold Standard e dati diversificati aiutano a migliorare la precisione e il richiamo dei motori PNL.

Volume

N. di documenti annotati
10
N. di pagine annotate
10 +
Durata del progetto
< 1 mese

Le sfide

Il cliente non vedeva l'ora di addestrare e sviluppare la propria piattaforma di elaborazione del linguaggio naturale (NLP) con nuovi tipi di entità e anche di identificare la relazione tra i vari tipi. Inoltre, stavano valutando fornitori che offrivano un'elevata precisione, rispettavano le leggi locali e possedevano le conoscenze mediche necessarie per annotare un ampio insieme di dati.

Il compito era quello di etichettare e annotare fino a 20,000 record etichettati, inclusi fino a 15,000 record etichettati da dati di cartelle cliniche elettroniche (EHR) ospedaliere e ambulatoriali e fino a 5,000 record etichettati da dettati medici trascritti, equamente distribuiti tra (1) provenienze geografiche e ( 2) specialità mediche disponibili.

Quindi, riassumendo le sfide:

  • Organizza dati clinici eterogenei per addestrare la piattaforma NLP
  • Identificare la relazione tra diverse entità per ricavare informazioni critiche
  • Capacità e competenza nell'etichettare/annotare un'ampia serie di documenti clinici complessi
  • Mantenere i costi sotto controllo per etichettare/annotare un grande volume di dati per addestrare la PNL clinica entro i tempi stabiliti
  • Annotare le entità nel set di dati clinici composto per il 75% da record EHR e per il 25% da record di dettatura.
  • Anonimizzazione dei dati al momento della consegna

Altre sfide nella comprensione del linguaggio naturale

Ambiguità

Le parole sono uniche ma possono avere significati diversi a seconda del contesto, con conseguente ambiguità a livello lessicale, sintattico e semantico.

sininimia

Possiamo esprimere la stessa idea con termini diversi che sono anche sinonimi: grande e grande significano la stessa cosa quando descrivono un oggetto.

Coreferenza

Il processo di ricerca di tutte le espressioni che si riferiscono alla stessa entità in un testo è chiamato risoluzione della coreferenza.

Personalità, intenzione, emozioni

A seconda della personalità di chi parla, le sue intenzioni e le sue emozioni potrebbero essere espresse in modo diverso per la stessa idea.

Soluzione

È disponibile un grande volume di dati e conoscenze mediche, sotto forma di documenti medici, ma è principalmente in formato non strutturato. Con l'annotazione dell'entità medica/annotazione del riconoscimento dell'entità denominata (NER), Shaip è stata in grado di convertire i dati non strutturati in un formato strutturato annotando informazioni utili da diversi tipi di cartelle cliniche. Una volta identificate le entità, è stata mappata anche la relazione tra di esse per identificare le informazioni critiche.

Ambito di lavoro: annotazione sulla menzione dell'entità sanitaria

9 tipi di entità

  • Condizioni mediche
  • Procedura medica
  • Struttura anatomica
  • Medicina
  • Dispositivo medico
  • misura corpo
  • Abuso di Sostanze
  • Dati di laboratorio
  • Funzione del corpo

17 modificatori

  • Modificatori del farmaco: forza, unità, dose, da, frequenza, percorso, durata, stato
  • Modificatori della misurazione corporea: valore, unità, risultato
  • Modificatori della procedura: Metodo
    • Modificatore dati di laboratorio: valore di laboratorio, unità di laboratorio, risultato di laboratorio
  • Gravità
  • Risultato della procedura

27 Relazioni e stato del paziente

Risultato

I dati annotati verranno utilizzati per sviluppare e addestrare la piattaforma clinica NLP del cliente, che verrà incorporata nella prossima versione della loro API sanitaria. I vantaggi che il cliente ha tratto sono stati:

  • I dati etichettati/annotati soddisfano le linee guida standard per l'annotazione dei dati del Cliente.
  • Sono stati utilizzati set di dati eterogenei per addestrare la piattaforma NLP a una maggiore precisione.
  • Sono state identificate le relazioni tra diverse entità, ad esempio struttura anatomica del corpo <> Dispositivo medico, Condizione medica <> Dispositivo medico, Condizione medica <> Farmaco, Condizione medica <> Procedura per ricavare informazioni mediche critiche.
  • Anche l'ampio insieme di dati etichettati/annotati è stato anonimizzato al momento della consegna.

La nostra collaborazione con Shaip ha fatto avanzare in modo significativo il nostro progetto di tecnologia ambientale e intelligenza artificiale conversazionale nel settore sanitario. La loro esperienza nella creazione e trascrizione di dialoghi sanitari sintetici ha fornito una solida base, dimostrando il potenziale dei dati sintetici nel superare le sfide normative. Con Shaip abbiamo superato questi ostacoli e ora siamo un passo avanti verso la realizzazione della nostra visione di soluzioni sanitarie intuitive.

Golden-5 stelle

Accelera la tua IA conversazionale
sviluppo di applicazioni del 100%