Annotazione dei dati ed etichettatura dei dati

La guida definitiva per gli acquirenti 2023

Quindi vuoi avviare una nuova iniziativa AI/ML e ora ti stai rapidamente rendendo conto che non solo trovi l'alta qualità dati di allenamento but also data annotation will be a few of the challenging aspects of your project. The output of your AI & ML models is only as good as the data you use to train it – so the precision that you apply to data aggregation and the tagging and identifying of that data is important!

Dove vai per ottenere i migliori servizi di annotazione dei dati ed etichettatura dei dati per l'IA aziendale e la macchina
progetti di apprendimento?

È una domanda che ogni dirigente e leader aziendale come te deve considerare mentre sviluppa la propria
tabella di marcia e tempistica per ciascuna delle loro iniziative AI/ML.

Annotazione dei dati
Leggi la Guida per l'acquirente all'annotazione dei dati / all'etichettatura o scarica una versione PDF

Introduzione

Questa guida sarà estremamente utile per quegli acquirenti e responsabili delle decisioni che stanno iniziando a rivolgere i loro pensieri verso i dadi e i bulloni dell'approvvigionamento e dell'implementazione dei dati sia per le reti neurali che per altri tipi di operazioni di intelligenza artificiale e ML.

Annotazione dei dati

Questo articolo è completamente dedicato a far luce su quale sia il processo, perché è inevitabile, cruciale
fattori che le aziende dovrebbero considerare quando si avvicinano agli strumenti di annotazione dei dati e altro ancora. Quindi, se possiedi un'attività, preparati per essere illuminato poiché questa guida ti guiderà attraverso tutto ciò che devi sapere sull'annotazione dei dati.

Iniziamo.

Per quelli di voi che sfogliano l'articolo, ecco alcuni rapidi takeaway che troverete nella guida:

  • Capire cos'è l'annotazione dei dati
  • Conoscere i diversi tipi di processi di annotazione dei dati
  • Conoscere i vantaggi dell'implementazione del processo di annotazione dei dati
  • Ottieni chiarezza sul fatto che dovresti optare per l'etichettatura dei dati interna o farli esternalizzare
  • Approfondimenti anche sulla scelta dell'annotazione dei dati giusta

A chi è rivolta questa guida?

Questa guida completa è per:

  • Tutti voi imprenditori e imprenditori solisti che sgranocchiate regolarmente enormi quantità di dati
  • AI e machine learning o professionisti che stanno iniziando con le tecniche di ottimizzazione dei processi
  • Project manager che intendono implementare un time-to-market più rapido per i loro moduli di intelligenza artificiale o prodotti basati sull'intelligenza artificiale
  • E gli appassionati di tecnologia a cui piace entrare nei dettagli dei livelli coinvolti nei processi di intelligenza artificiale.
Annotazione dei dati

Cos'è l'apprendimento automatico?

Abbiamo parlato di come annotazione dei dati o etichettatura dei dati supporta l'apprendimento automatico e che consiste nell'etichettare o identificare i componenti. Ma per quanto riguarda l'apprendimento profondo e l'apprendimento automatico stesso: la premessa di base dell'apprendimento automatico è che i sistemi e i programmi informatici possono migliorare i propri risultati in modi che assomigliano ai processi cognitivi umani, senza l'aiuto o l'intervento umano diretto, per darci informazioni. In altre parole, diventano macchine di autoapprendimento che, proprio come un essere umano, migliorano il loro lavoro con più pratica. Questa "pratica" si ottiene analizzando e interpretando più (e meglio) dati di allenamento.

Annotazione dei dati

Uno dei concetti chiave dell'apprendimento automatico è la rete neurale, in cui i singoli neuroni digitali sono mappati insieme a strati. La rete neurale invia segnali attraverso quegli strati, proprio come il funzionamento di un vero cervello umano, per ottenere risultati.

Come appare sul campo è diverso caso per caso, ma si applicano elementi fondamentali. Uno di questi è la necessità di un apprendimento etichettato e supervisionato.

Questi dati etichettati in genere si presentano sotto forma di set di formazione e test che orienteranno il programma di apprendimento automatico verso risultati futuri man mano che vengono aggiunti input di dati futuri. In altre parole, quando si dispone di una buona configurazione dei dati di test e addestramento, la macchina è in grado di interpretare e ordinare i nuovi dati di produzione in arrivo in modi migliori e più efficienti.

In questo senso, l'ottimizzazione di questo apprendimento automatico è una ricerca di qualità e un modo per risolvere il "problema di apprendimento del valore": il problema di come le macchine possono imparare a pensare da sole e dare priorità ai risultati con la minor assistenza umana possibile.

Nello sviluppo dei migliori programmi attuali, la chiave per implementazioni AI/ML efficaci sono dati etichettati "puliti". I set di dati di test e formazione ben progettati e annotati supportano i risultati di cui gli ingegneri hanno bisogno per un ML di successo.

Che cos'è l'etichettatura dei dati? Tutto ciò che un principiante deve sapere

Che cos'è l'annotazione dei dati?

Come accennato in precedenza, quasi il 95% dei dati generati non è strutturato. In parole semplici, i dati non strutturati possono essere ovunque e non sono definiti correttamente. Se stai creando un modello di intelligenza artificiale, devi fornire informazioni a un algoritmo affinché elabori e fornisca output e inferenze.

Annotazione dei datiQuesto processo può verificarsi solo quando l'algoritmo comprende e classifica i dati che gli vengono forniti.

E questo processo di attribuzione, etichettatura o etichettatura dei dati è chiamato annotazione dei dati. Per riassumere, l'etichettatura e l'annotazione dei dati riguardano l'etichettatura o l'etichettatura di informazioni/metadati rilevanti in un set di dati per consentire alle macchine di capire cosa sono. Il set di dati potrebbe essere in qualsiasi forma, ad esempio un'immagine, un file audio, filmati o persino testo. Quando etichettiamo elementi nei dati, i modelli ML comprendono accuratamente ciò che stanno per elaborare e conservano tali informazioni per elaborare automaticamente le informazioni più recenti basate sulla conoscenza esistente per prendere decisioni tempestive.

Con l'annotazione dei dati, un modello AI saprebbe se i dati che riceve sono audio, video, testo, grafica o un mix di formati. A seconda delle sue funzionalità e dei parametri assegnati, il modello classificherà quindi i dati e procederà con l'esecuzione dei suoi compiti.

L'annotazione dei dati è inevitabile perché l'IA e i modelli di apprendimento automatico devono essere addestrati in modo coerente per diventare più efficienti ed efficaci nel fornire gli output richiesti. Nell'apprendimento supervisionato, il processo diventa tanto più cruciale perché più dati annotati vengono inseriti nel modello, prima si allena ad apprendere autonomamente.

Ad esempio, se dobbiamo parlare di auto a guida autonoma, che si basano completamente sui dati generati dai suoi diversi componenti tecnologici come visione computerizzata, NLP (Natural Language Processing), sensori e altro ancora, l'annotazione dei dati è ciò che spinge gli algoritmi a prendere decisioni di guida precise ogni secondo. In assenza del processo, un modello non capirebbe se un ostacolo in avvicinamento è un'altra macchina, un pedone, un animale o un posto di blocco. Ciò si traduce solo in una conseguenza indesiderabile e nel fallimento del modello AI.

Quando viene implementata l'annotazione dei dati, i tuoi modelli vengono addestrati con precisione. Quindi, indipendentemente dall'implementazione del modello per chatbot, riconoscimento vocale, automazione o altri processi, otterresti risultati ottimali e un modello infallibile.

Perché è necessaria l'annotazione dei dati?

Sappiamo per certo che i computer sono in grado di fornire risultati non solo precisi ma anche pertinenti e tempestivi. Tuttavia, come fa una macchina a imparare a fornire con tale efficienza?


Questo è tutto a causa dell'annotazione dei dati. Quando un modulo di apprendimento automatico è ancora in fase di sviluppo, vengono alimentati con volumi dopo volumi di dati di addestramento dell'IA per renderli migliori nel prendere decisioni e identificare oggetti o elementi.

È solo attraverso il processo di annotazione dei dati che i moduli possono distinguere tra un gatto e un cane, un sostantivo e un aggettivo, o una strada da un marciapiede. Senza l'annotazione dei dati, ogni immagine sarebbe la stessa per le macchine in quanto non hanno alcuna informazione o conoscenza intrinseca su nulla nel mondo.

L'annotazione dei dati è necessaria per fare in modo che i sistemi forniscano risultati accurati, aiutano i moduli a identificare gli elementi per addestrare la visione artificiale e il parlato, i modelli di riconoscimento. Qualsiasi modello o sistema che abbia un sistema decisionale guidato da una macchina al fulcro, l'annotazione dei dati è necessaria per garantire che le decisioni siano accurate e pertinenti.

Annotazione dei dati VS Etichettatura dei dati

Esiste una differenza di linea molto sottile tra l'annotazione dei dati e l'etichettatura dei dati, ad eccezione dello stile e del tipo di etichettatura del contenuto utilizzata. Quindi abbastanza spesso sono stati usati in modo intercambiabile per creare set di dati di addestramento ML a seconda del modello di intelligenza artificiale e del processo di addestramento degli algoritmi.

Annotazione dei datiEtichettatura dei dati
L'annotazione dei dati è la tecnica attraverso la quale etichettiamo i dati in modo da rendere gli oggetti riconoscibili dalle macchineL'etichettatura dei dati consiste nell'aggiungere più informazioni/metadati a vari dati
tipi (testo, audio, immagine e video) per addestrare modelli ML
I dati annotati sono il requisito di base per addestrare i modelli MLL'etichettatura consiste nell'identificare le caratteristiche rilevanti nel set di dati
L'annotazione aiuta a riconoscere i dati rilevantiL'etichettatura aiuta a riconoscere i modelli in modo da addestrare gli algoritmi

L'ascesa dell'annotazione dei dati e dell'etichettatura dei dati

Il modo più semplice per spiegare i casi d'uso dell'annotazione dei dati e dell'etichettatura dei dati è discutere prima l'apprendimento automatico supervisionato e non supervisionato.

In generale, in apprendimento automatico supervisionato, gli esseri umani forniscono "dati etichettati" che danno all'algoritmo di apprendimento automatico un vantaggio; qualcosa su cui andare. Gli esseri umani hanno contrassegnato le unità di dati utilizzando vari strumenti o piattaforme come ShaipCloud in modo che l'algoritmo di apprendimento automatico possa applicare qualsiasi lavoro debba essere svolto, sapendo già qualcosa sui dati che sta incontrando.

Per contro, apprendimento dei dati senza supervisione coinvolge programmi in cui le macchine devono identificare i punti dati più o meno da sole.

Usare un modo troppo semplificato per capirlo sta usando un esempio di "cesto di frutta". Supponiamo che tu abbia l'obiettivo di ordinare mele, banane e uva in risultati logici utilizzando un algoritmo di intelligenza artificiale.

Annotazione dei dati ed etichettatura dei dati

Con i dati etichettati, i risultati che sono già identificati come mele, banane e uva, tutto ciò che il programma deve fare è fare distinzioni tra questi elementi di prova etichettati per classificare correttamente i risultati.

Tuttavia, con l'apprendimento automatico non supervisionato, in cui l'etichettatura dei dati non è presente, la macchina dovrà identificare mele, uva e banane attraverso i loro criteri visivi, ad esempio separando oggetti rossi e rotondi da oggetti gialli, lunghi o verdi raggruppati.

Il principale svantaggio dell'apprendimento non supervisionato è che l'algoritmo, in molti modi chiave, funziona alla cieca. Sì, può creare risultati, ma solo con uno sviluppo di algoritmi e risorse tecniche molto più potenti. Tutto ciò significa più dollari per lo sviluppo e risorse anticipate, aggiungendo livelli di incertezza ancora maggiori. Questo è il motivo per cui i modelli di apprendimento supervisionato e l'annotazione e l'etichettatura dei dati che ne derivano sono così preziosi nella creazione di qualsiasi tipo di progetto ML. Il più delle volte, i progetti di apprendimento supervisionato comportano costi di sviluppo iniziali inferiori e una precisione molto maggiore.

In questo contesto, è facile vedere come l'annotazione e l'etichettatura dei dati possano aumentare notevolmente le capacità di un programma di intelligenza artificiale o ML, riducendo allo stesso tempo il time-to-market e il costo totale di proprietà.

Ora che abbiamo stabilito che questo tipo di applicazione e implementazione della ricerca è importante e richiesto, diamo un'occhiata agli attori.

Ancora una volta, inizia con le persone che questa guida è progettata per aiutare: gli acquirenti e i responsabili delle decisioni che operano come strateghi o creatori del piano di intelligenza artificiale di un'organizzazione. Si estende quindi ai data scientist e ai data engineer che lavoreranno direttamente con algoritmi e dati e monitoreranno e controlleranno, in alcuni casi, l'output dei sistemi AI/ML. È qui che entra in gioco il ruolo vitale dell'“Human in the Loop”.

Human-in-the-Loop (HITL) è un modo generico per affrontare l'importanza della supervisione umana nelle operazioni di IA. Questo concetto è molto rilevante per l'etichettatura dei dati su diversi fronti: in primo luogo, l'etichettatura dei dati stessa può essere vista come un'implementazione dell'HITL.

Che cos'è uno strumento di etichettatura/annotazione dei dati?

Strumento di etichettatura/annotazione dei dati In parole povere, è una piattaforma o un portale che consente a specialisti ed esperti di annotare, etichettare o etichettare set di dati di ogni tipo. È un ponte o un mezzo tra i dati grezzi e i risultati che alla fine i tuoi moduli di apprendimento automatico avrebbero prodotto.

Uno strumento di etichettatura dei dati è una soluzione in locale o basata su cloud che annota dati di addestramento di alta qualità per i modelli di machine learning. Mentre molte aziende si affidano a un fornitore esterno per eseguire annotazioni complesse, alcune organizzazioni hanno ancora i propri strumenti personalizzati o basati su strumenti freeware o opensource disponibili sul mercato. Tali strumenti sono generalmente progettati per gestire tipi di dati specifici, ad esempio immagini, video, testo, audio, ecc. Gli strumenti offrono funzionalità o opzioni come riquadri di delimitazione o poligoni per consentire agli annotatori di dati di etichettare le immagini. Possono semplicemente selezionare l'opzione ed eseguire i loro compiti specifici.

Supera le sfide chiave in Data Labor

Ci sono una serie di sfide chiave da valutare nello sviluppo o nell'acquisizione del servizi di annotazione ed etichettatura dei dati che offrirà la massima qualità di output dei tuoi modelli di machine learning (ML).

Alcune delle sfide hanno a che fare con la corretta analisi dei dati che stai etichettando (ad esempio documenti di testo, file audio, immagini o video). In tutti i casi, le soluzioni migliori saranno in grado di elaborare interpretazioni, etichettature e trascrizioni specifiche e mirate.

È qui che gli algoritmi devono essere muscolosi e mirati al compito da svolgere. Ma questa è solo la base per alcune delle considerazioni più tecniche nello sviluppo di migliori servizi di etichettatura dei dati nlp.

A un livello più ampio, la migliore etichettatura dei dati per l'apprendimento automatico riguarda molto di più la qualità della partecipazione umana. Riguarda la gestione del flusso di lavoro e l'integrazione per i lavoratori umani di ogni tipo, e assicurarsi che la persona giusta sia qualificata e svolga il lavoro giusto.

C'è una sfida nell'ottenere il talento giusto e la giusta delega per affrontare un particolare caso d'uso di machine learning, come parleremo più avanti.

Entrambi questi standard fondamentali chiave devono essere messi in gioco per un'efficace annotazione dei dati e un supporto per l'etichettatura dei dati per le implementazioni AI/ML.

Lavoro di dati

Tipi di annotazione dei dati

Questo è un termine generico che comprende diversi tipi di annotazioni dei dati. Ciò include immagini, testo, audio e video. Per darti una migliore comprensione, abbiamo suddiviso ciascuno in ulteriori frammenti. Esaminiamoli singolarmente.

Annotazione di immagine

Annotazione di immagine

Dai set di dati su cui sono stati addestrati possono differenziare istantaneamente e con precisione gli occhi dal naso e le sopracciglia dalle ciglia. Ecco perché i filtri che applichi si adattano perfettamente indipendentemente dalla forma del tuo viso, da quanto sei vicino alla tua fotocamera e altro ancora.


Quindi, come ora sai, annotazione dell'immagine è vitale nei moduli che coinvolgono il riconoscimento facciale, la visione artificiale, la visione robotica e altro ancora. Quando gli esperti di intelligenza artificiale addestrano tali modelli, aggiungono didascalie, identificatori e parole chiave come attributi alle loro immagini. Gli algoritmi quindi identificano e comprendono questi parametri e apprendono autonomamente.

Annotazione audio

Annotazione audio

I dati audio hanno ancora più dinamiche associate rispetto ai dati immagine. Diversi fattori sono associati a un file audio, inclusi, ma non solo, la lingua, i dati demografici dei parlanti, i dialetti, l'umore, l'intento, l'emozione, il comportamento. Affinché gli algoritmi siano efficienti nell'elaborazione, tutti questi parametri dovrebbero essere identificati e contrassegnati da tecniche come timestamp, etichettatura audio e altro. Oltre ai semplici segnali verbali, è possibile annotare i casi non verbali come il silenzio, i respiri e persino il rumore di fondo affinché i sistemi li comprendano in modo completo.

Annotazione video

Annotazione video

Mentre un'immagine è ferma, un video è una raccolta di immagini che creano un effetto di oggetti in movimento. Ora, ogni immagine in questa compilation è chiamata frame. Per quanto riguarda l'annotazione video, il processo prevede l'aggiunta di punti chiave, poligoni o riquadri di delimitazione per annotare diversi oggetti nel campo in ogni fotogramma.

Quando questi fotogrammi vengono cuciti insieme, il movimento, il comportamento, i modelli e altro potrebbero essere appresi dai modelli di intelligenza artificiale in azione. È solo attraverso annotazione video che concetti come la localizzazione, il motion blur e il tracciamento degli oggetti potrebbero essere implementati nei sistemi.

Annotazione di testo

Annotazione di testo

Oggi la maggior parte delle aziende si affida a dati basati su testo per ottenere informazioni e informazioni uniche. Ora, il testo potrebbe essere qualsiasi cosa, dal feedback dei clienti su un'app a una menzione sui social media. E a differenza delle immagini e dei video che trasmettono per lo più intenzioni semplici, il testo ha molta semantica.

Come esseri umani, siamo sintonizzati per comprendere il contesto di una frase, il significato di ogni parola, frase o frase, metterli in relazione con una determinata situazione o conversazione e quindi realizzare il significato olistico dietro una dichiarazione. Le macchine, d'altra parte, non possono farlo a livelli precisi. Concetti come sarcasmo, umorismo e altri elementi astratti gli sono sconosciuti ed è per questo che l'etichettatura dei dati testuali diventa più difficile. Ecco perché l'annotazione del testo ha alcune fasi più raffinate come le seguenti:

Annotazione semantica – oggetti, prodotti e servizi sono resi più rilevanti da appropriati parametri di identificazione e tag delle frasi chiave. I chatbot sono fatti anche per imitare le conversazioni umane in questo modo.

Annotazione dell'intento – l'intenzione di un utente e il linguaggio da lui utilizzato sono contrassegnati per essere compresi dalle macchine. Con questo, i modelli possono differenziare una richiesta da un comando, o una raccomandazione da una prenotazione e così via.

Categorizzazione del testo – frasi o paragrafi possono essere taggati e classificati in base ad argomenti, tendenze, argomenti, opinioni, categorie (sport, intrattenimento e simili) e altri parametri generali.

Annotazione entità – dove le frasi non strutturate sono contrassegnate per renderle più significative e portarle in un formato che può essere compreso dalle macchine. Perché ciò accada, sono coinvolti due aspetti: riconoscimento dell'entità denominata e collegamento di entità. Il riconoscimento dell'entità denominata avviene quando i nomi di luoghi, persone, eventi, organizzazioni e altro vengono taggati e identificati e il collegamento di entità avviene quando questi tag sono collegati a frasi, frasi, fatti o opinioni che li seguono. Collettivamente, questi due processi stabiliscono la relazione tra i testi associati e l'affermazione che li circonda.

3 passaggi chiave nel processo di etichettatura e annotazione dei dati 

A volte può essere utile parlare dei processi di staging che hanno luogo in un complesso progetto di annotazione ed etichettatura dei dati.

La prima fase è l'acquisizione. Ecco dove le aziende raccolgono e aggregano i dati. Questa fase comporta in genere la necessità di reperire le competenze in materia, da operatori umani o tramite un contratto di licenza di dati.

La secondo e il passaggio centrale del processo prevede l'etichettatura e l'annotazione effettive.

Questo passaggio è il punto in cui si svolgerebbero l'analisi del NER, del sentimento e dell'intento, come abbiamo detto in precedenza nel libro.

Questi sono i dadi e i bulloni per etichettare ed etichettare accuratamente i dati da utilizzare nei progetti di apprendimento automatico che riescono a raggiungere gli obiettivi e gli obiettivi fissati per loro.

Dopo che i dati sono stati sufficientemente etichettati, etichettati o annotati, i dati vengono inviati a terza ed ultima fase del processo, che è la distribuzione o la produzione.

Tre passaggi chiave nei progetti di annotazione ed etichettatura dei dati

Una cosa da tenere a mente nella fase di candidatura è la necessità di conformità. Questa è la fase in cui i problemi di privacy potrebbero diventare problematici. Che si tratti di HIPAA o GDPR o di altre linee guida locali o federali, i dati in gioco possono essere dati sensibili e devono essere controllati.

Con l'attenzione a tutti questi fattori, quel processo in tre fasi può essere straordinariamente efficace nello sviluppo di risultati per gli stakeholder aziendali.

Processo di annotazione dei dati

Tre passaggi chiave nei progetti di annotazione ed etichettatura dei dati

Funzionalità per l'annotazione dei dati e gli strumenti di etichettatura dei dati

Gli strumenti di annotazione dei dati sono fattori decisivi che potrebbero creare o distruggere il tuo progetto di intelligenza artificiale. Quando si tratta di output e risultati precisi, la qualità dei set di dati da sola non ha importanza. In effetti, gli strumenti di annotazione dei dati che utilizzi per addestrare i tuoi moduli di intelligenza artificiale influenzano enormemente i tuoi output.

Ecco perché è essenziale selezionare e utilizzare lo strumento di etichettatura dei dati più funzionale e appropriato che soddisfi le esigenze della tua azienda o del tuo progetto. Ma che cos'è uno strumento di annotazione dei dati in primo luogo? A che scopo serve? Ci sono dei tipi? Bene, scopriamolo.

Funzionalità per l'annotazione dei dati e gli strumenti di etichettatura dei dati

Analogamente ad altri strumenti, gli strumenti di annotazione dei dati offrono un'ampia gamma di funzionalità e funzionalità. Per darti una rapida idea delle funzionalità, ecco un elenco di alcune delle funzionalità più fondamentali che dovresti cercare quando selezioni uno strumento di annotazione dei dati.

Gestione del set di dati

Lo strumento di annotazione dei dati che intendi utilizzare deve supportare i set di dati che hai in mano e consentirti di importarli nel software per l'etichettatura. Pertanto, la gestione dei set di dati è l'offerta principale degli strumenti di funzionalità. Le soluzioni contemporanee offrono funzionalità che ti consentono di importare volumi elevati di dati senza interruzioni, consentendoti contemporaneamente di organizzare i tuoi set di dati attraverso azioni come ordinamento, filtro, clonazione, unione e altro ancora.

Una volta terminato l'input dei set di dati, il passaggio successivo consiste nell'esportarli come file utilizzabili. Lo strumento che utilizzi dovrebbe consentirti di salvare i tuoi set di dati nel formato specificato in modo da poterli inserire nei tuoi modelli ML.

Tecniche di annotazione

Questo è ciò per cui è stato creato o progettato uno strumento di annotazione dei dati. Uno strumento solido dovrebbe offrire una gamma di tecniche di annotazione per set di dati di tutti i tipi. Questo a meno che tu non stia sviluppando una soluzione personalizzata per le tue esigenze. Il tuo strumento dovrebbe consentirti di annotare video o immagini da computer vision, audio o testo da NLP e trascrizioni e altro ancora. Perfezionando ulteriormente questo aspetto, dovrebbero esserci opzioni per utilizzare riquadri di delimitazione, segmentazione semantica, cuboidi, interpolazione, analisi del sentimento, parti del discorso, soluzione di coreferenza e altro ancora.

Per chi non lo sapesse, ci sono anche strumenti di annotazione dei dati basati sull'intelligenza artificiale. Questi sono dotati di moduli di intelligenza artificiale che apprendono autonomamente dai modelli di lavoro di un annotatore e annotano automaticamente immagini o testo. Tale
i moduli possono essere utilizzati per fornire un'assistenza incredibile agli annotatori, ottimizzare le annotazioni e persino implementare controlli di qualità.

Controllo della qualità dei dati

Parlando di controlli di qualità, diversi strumenti di annotazione dei dati sono disponibili con moduli di controllo di qualità incorporati. Questi consentono agli annotatori di collaborare meglio con i membri del loro team e aiutano a ottimizzare i flussi di lavoro. Con questa funzione, gli annotatori possono contrassegnare e tenere traccia di commenti o feedback in tempo reale, tenere traccia delle identità dietro le persone che apportano modifiche ai file, ripristinare versioni precedenti, optare per l'etichettatura del consenso e altro ancora.

Sicurezza

Dal momento che stai lavorando con i dati, la sicurezza dovrebbe avere la massima priorità. Potresti lavorare su dati riservati come quelli che coinvolgono dettagli personali o proprietà intellettuale. Quindi, il tuo strumento deve fornire una sicurezza ermetica in termini di dove vengono archiviati i dati e come vengono condivisi. Deve fornire strumenti che limitino l'accesso ai membri del team, prevengano download non autorizzati e altro ancora.

Oltre a questi, gli standard e i protocolli di sicurezza devono essere rispettati e rispettati.

Gestione della forza lavoro

Uno strumento di annotazione dei dati è anche una sorta di piattaforma di gestione dei progetti, in cui è possibile assegnare compiti ai membri del team, svolgere lavori collaborativi, revisioni e altro ancora. Ecco perché il tuo strumento dovrebbe adattarsi al tuo flusso di lavoro e processo per una produttività ottimizzata.

Inoltre, lo strumento deve anche avere una curva di apprendimento minima poiché il processo di annotazione dei dati di per sé richiede molto tempo. Non serve a nessuno spendere troppo tempo semplicemente imparando lo strumento. Quindi, dovrebbe essere intuitivo e senza interruzioni per chiunque iniziare rapidamente.

Analisi dei vantaggi dell'annotazione dei dati

Quando un processo è così elaborato e definito, deve esserci un insieme specifico di vantaggi che gli utenti oi professionisti possono sperimentare. Oltre al fatto che l'annotazione dei dati ottimizza il processo di addestramento per l'IA e gli algoritmi di apprendimento automatico, offre anche diversi vantaggi. Esploriamo quali sono.
Analisi dei vantaggi dell'annotazione dei dati

Esperienza utente più coinvolgente

Lo scopo stesso dei modelli di intelligenza artificiale è offrire la massima esperienza agli utenti e semplificare la loro vita. Idee come chatbot, automazione, motori di ricerca e altro sono nate tutte con lo stesso scopo. Con l'annotazione dei dati, gli utenti possono vivere un'esperienza online senza interruzioni in cui i loro conflitti vengono risolti, le query di ricerca vengono soddisfatte con risultati pertinenti e comandi e attività vengono eseguiti con facilità.

Rendono il test di Turing crackabile

Il test di Turing è stato proposto da Alan Turing per le macchine pensanti. Quando un sistema supera il test, si dice che sia alla pari con la mente umana, dove la persona dall'altra parte della macchina non sarebbe in grado di dire se sta interagendo con un altro essere umano o una macchina. Oggi siamo tutti a un passo dal decifrare il test di Turing a causa delle tecniche di etichettatura dei dati. I chatbot e gli assistenti virtuali sono tutti alimentati da modelli di annotazione superiori che ricreano perfettamente le conversazioni che si potrebbero avere con gli esseri umani. Se noti, gli assistenti virtuali come Siri non sono solo diventati più intelligenti ma anche più bizzarri.

Rendono i risultati più efficaci

L'impatto dei modelli di intelligenza artificiale può essere decifrato dall'efficienza dei risultati che forniscono. Quando i dati sono perfettamente annotati e contrassegnati, i modelli di intelligenza artificiale non possono sbagliare e produrrebbero semplicemente output che sono i più efficaci e precisi. In effetti, verrebbero formati a tal punto che i loro risultati sarebbero dinamici con risposte che variano in base a situazioni e scenari unici.

Per costruire o meno uno strumento di annotazione dei dati

Un problema critico e generale che può sorgere durante un progetto di annotazione dei dati o etichettatura dei dati è la scelta di creare o acquistare funzionalità per questi processi. Questo può verificarsi più volte in varie fasi del progetto o in relazione a diversi segmenti del programma. Nella scelta se costruire un sistema internamente o affidarsi ai fornitori, c'è sempre un compromesso.

Per costruire o non creare uno strumento di annotazione dei dati

Come probabilmente ora puoi vedere, l'annotazione dei dati è un processo complesso. Allo stesso tempo, è anche un processo soggettivo. Ciò significa che non esiste una risposta univoca alla domanda se dovresti acquistare o creare uno strumento di annotazione dei dati. È necessario considerare molti fattori ed è necessario porsi alcune domande per comprendere le proprie esigenze e rendersi conto se è effettivamente necessario acquistarne o costruirne uno.

Per semplificare, ecco alcuni dei fattori che dovresti considerare.

Il tuo obiettivo

Il primo elemento che devi definire è l'obiettivo con i tuoi concetti di intelligenza artificiale e machine learning.

  • Perché li stai implementando nella tua attività?
  • Risolvono un problema reale che i tuoi clienti devono affrontare?
  • Stanno facendo un processo di front-end o back-end?
  • Utilizzerai l'IA per introdurre nuove funzionalità o ottimizzare il tuo sito Web, app o un modulo esistente?
  • Cosa sta facendo il tuo concorrente nel tuo segmento?
  • Hai abbastanza casi d'uso che richiedono l'intervento dell'IA?

Le risposte a queste domande raccoglieranno i tuoi pensieri - che attualmente potrebbero essere ovunque - in un unico posto e ti daranno più chiarezza.

Raccolta/licenza dati AI

I modelli di IA richiedono un solo elemento per funzionare: i dati. È necessario identificare da dove è possibile generare enormi volumi di dati sulla verità. Se la tua azienda genera grandi volumi di dati che devono essere elaborati per ottenere informazioni cruciali su attività, operazioni, ricerca sulla concorrenza, analisi della volatilità del mercato, studio del comportamento dei clienti e altro, è necessario disporre di uno strumento di annotazione dei dati. Tuttavia, dovresti anche considerare il volume di dati che generi. Come accennato in precedenza, un modello di intelligenza artificiale è efficace solo quanto la qualità e la quantità di dati che viene alimentato. Quindi, le tue decisioni dovrebbero invariabilmente dipendere da questo fattore.

Se non disponi dei dati giusti per addestrare i tuoi modelli ML, i fornitori possono tornare molto utili, assistendoti con la concessione in licenza dei dati del set di dati corretto richiesto per addestrare i modelli ML. In alcuni casi, parte del valore che il venditore apporta riguarderà sia l'abilità tecnica che l'accesso a risorse che promuoveranno il successo del progetto.

bilancio

Un'altra condizione fondamentale che probabilmente influenza ogni singolo fattore di cui stiamo attualmente discutendo. La soluzione alla domanda se dovresti creare o acquistare un'annotazione di dati diventa facile quando capisci se hai abbastanza budget da spendere.

Complessità di conformità

Complessità di conformità I fornitori possono essere estremamente utili quando si tratta di privacy dei dati e la corretta gestione dei dati sensibili. Uno di questi tipi di casi d'uso riguarda un ospedale o un'azienda sanitaria che desidera utilizzare la potenza dell'apprendimento automatico senza compromettere la sua conformità con HIPAA e altre regole sulla privacy dei dati. Anche al di fuori del campo medico, leggi come il GDPR europeo stanno rafforzando il controllo dei set di dati e richiedono una maggiore vigilanza da parte degli stakeholder aziendali.

Manodopera

L'annotazione dei dati richiede manodopera qualificata su cui lavorare indipendentemente dalle dimensioni, dalla scala e dal dominio della tua attività. Anche se stai generando dati minimi ogni singolo giorno, hai bisogno di esperti di dati che lavorino sui tuoi dati per l'etichettatura. Quindi, ora, devi capire se hai la manodopera necessaria. Se lo fai, sono esperti negli strumenti e nelle tecniche richiesti o hanno bisogno di un miglioramento delle competenze? Se hanno bisogno di un miglioramento delle competenze, hai il budget per formarli in primo luogo?

Inoltre, i migliori programmi di annotazione ed etichettatura dei dati prendono una serie di esperti in materia o di dominio e li segmentano in base a dati demografici come età, sesso e area di competenza, o spesso in termini di lingue localizzate con cui lavoreranno. Questo è, ancora una volta, il punto in cui noi di Shaip parliamo di mettere le persone giuste al posto giusto guidando così i giusti processi umani nel ciclo che porteranno i tuoi sforzi programmatici al successo.

Piccole e grandi operazioni di progetto e soglie di costo

In molti casi, il supporto del fornitore può essere più un'opzione per un progetto più piccolo o per fasi di progetto più piccole. Quando i costi sono controllabili, l'azienda può trarre vantaggio dall'outsourcing per rendere più efficienti i progetti di annotazione o etichettatura dei dati.

Le aziende possono anche considerare soglie importanti, in cui molti fornitori legano i costi alla quantità di dati consumati o ad altri benchmark delle risorse. Ad esempio, supponiamo che un'azienda si sia iscritta a un fornitore per eseguire la noiosa immissione di dati richiesta per l'impostazione dei set di test.

Potrebbe esserci una soglia nascosta nell'accordo in cui, ad esempio, il business partner deve eliminare un altro blocco di storage di dati AWS o qualche altro componente del servizio da Amazon Web Services o da qualche altro fornitore di terze parti. Lo trasmettono al cliente sotto forma di costi più elevati e mette il cartellino del prezzo fuori dalla portata del cliente.

In questi casi, misurare i servizi che ricevi dai fornitori aiuta a mantenere il progetto accessibile. Avere la giusta portata in atto assicurerà che i costi del progetto non eccedano quanto è ragionevole o fattibile per l'azienda in questione.

Alternative open source e freeware

Alternative open source e freewareAlcune alternative al supporto completo del fornitore implicano l'utilizzo di software open source, o anche freeware, per intraprendere progetti di annotazione dei dati o etichettatura. Qui c'è una sorta di via di mezzo in cui le aziende non creano tutto da zero, ma evitano anche di fare troppo affidamento sui fornitori commerciali.

La mentalità fai-da-te dell'open source è di per sé una sorta di compromesso: ingegneri e persone interne possono trarre vantaggio dalla comunità open source, dove le basi di utenti decentralizzate offrono il proprio tipo di supporto di base. Non sarà come quello che ottieni da un fornitore: non riceverai assistenza o risposte alle domande 24 ore su 7, XNUMX giorni su XNUMX senza fare ricerche interne, ma il prezzo è inferiore.

Quindi, la grande domanda: quando dovresti acquistare uno strumento di annotazione dei dati:

Come con molti tipi di progetti high-tech, questo tipo di analisi – quando costruire e quando acquistare – richiede una riflessione e una considerazione dedicate su come questi progetti vengono reperiti e gestiti. Le sfide che la maggior parte delle aziende deve affrontare relative ai progetti AI/ML quando si considera l'opzione "costruisci" non riguardano solo le parti di costruzione e sviluppo del progetto. Spesso c'è un'enorme curva di apprendimento anche per arrivare al punto in cui può verificarsi un vero sviluppo AI/ML. Con i nuovi team e iniziative AI/ML, il numero di "sconosciute sconosciute" supera di gran lunga il numero di "sconosciute conosciute".

CostruireAcquista

PRO:

  • Pieno controllo sull'intero processo
  • Tempi di risposta più rapidi

PRO:

  • Time-to-market più rapido per il vantaggio dei first mover
  • Accesso alle ultime novità tecnologiche in linea con le migliori pratiche del settore

Contro:

  • Processo lento e costante. Richiede pazienza, tempo e denaro.
  • Spese di manutenzione continua e miglioramento della piattaforma
Contro:
  • L'offerta del fornitore esistente potrebbe richiedere la personalizzazione per supportare il tuo caso d'uso
  • La piattaforma può supportare i requisiti in corso e non garantisce supporto futuro.

Per rendere le cose ancora più semplici, considera i seguenti aspetti:

  • quando lavori su enormi volumi di dati
  • quando lavori su diverse varietà di dati
  • quando le funzionalità associate ai tuoi modelli o soluzioni potrebbero cambiare o evolversi in futuro
  • quando hai un caso d'uso vago o generico
  • quando hai bisogno di un'idea chiara delle spese legate alla distribuzione di uno strumento di annotazione dei dati
  • e quando non hai la forza lavoro giusta o esperti qualificati per lavorare sugli strumenti e stai cercando una curva di apprendimento minima

Se le tue risposte erano opposte a questi scenari, dovresti concentrarti sulla creazione del tuo strumento.

Fattori da considerare quando si sceglie il giusto strumento di annotazione dei dati

Se stai leggendo questo, queste idee sembrano eccitanti e sono decisamente più facili a dirsi che a farsi. Quindi, come si fa a sfruttare la pletora di strumenti di annotazione dei dati già esistenti? Quindi, il passaggio successivo consiste nel considerare i fattori associati alla scelta del giusto strumento di annotazione dei dati.

A differenza di alcuni anni fa, il mercato si è evoluto con tonnellate di strumenti di annotazione dei dati in pratica oggi. Le aziende hanno più opzioni nella scelta di uno in base alle proprie esigenze. Ma ogni singolo strumento ha la sua serie di pro e contro. Per prendere una decisione saggia, è necessario prendere un percorso oggettivo oltre alle esigenze soggettive.

Diamo un'occhiata ad alcuni dei fattori cruciali che dovresti considerare nel processo.

Definire il tuo caso d'uso

Per selezionare lo strumento di annotazione dei dati corretto, è necessario definire il caso d'uso. Dovresti capire se il tuo requisito riguarda testo, immagini, video, audio o un mix di tutti i tipi di dati. Ci sono strumenti autonomi che puoi acquistare e ci sono strumenti olistici che ti consentono di eseguire diverse azioni sui set di dati.

Gli strumenti odierni sono intuitivi e offrono opzioni in termini di strutture di archiviazione (di rete, locale o cloud), tecniche di annotazione (audio, immagini, 3D e altro) e una miriade di altri aspetti. Puoi scegliere uno strumento in base alle tue esigenze specifiche.

Stabilire standard di controllo della qualità

Stabilire standard di controllo della qualità Questo è un fattore cruciale da considerare poiché lo scopo e l'efficienza dei tuoi modelli di IA dipendono dagli standard di qualità che stabilisci. Come un audit, devi eseguire controlli di qualità dei dati che fornisci e dei risultati ottenuti per capire se i tuoi modelli vengono addestrati nel modo giusto e per gli scopi giusti. Tuttavia, la domanda è: come intendete stabilire standard di qualità?

Come per molti diversi tipi di lavoro, molte persone possono eseguire annotazioni e tag dei dati, ma lo fanno con vari gradi di successo. Quando si richiede un servizio, non si verifica automaticamente il livello di controllo qualità. Ecco perché i risultati variano.

Quindi, vuoi implementare un modello di consenso, in cui gli annotatori offrono feedback sulla qualità e le misure correttive vengono prese istantaneamente? Oppure preferisci la revisione del campione, i gold standard o l'intersezione rispetto ai modelli sindacali?

Il miglior piano di acquisto garantirà che il controllo di qualità sia in atto fin dall'inizio stabilendo standard prima che venga concordato qualsiasi contratto finale. Quando lo stabilisci, non dovresti trascurare anche i margini di errore. L'intervento manuale non può essere completamente evitato poiché i sistemi sono destinati a produrre errori fino al 3%. Questo richiede del lavoro in anticipo, ma ne vale la pena.

Chi annoterà i tuoi dati?

Il prossimo fattore importante si basa su chi annota i tuoi dati. Intendi avere un team interno o preferisci affidarlo in outsourcing? Se stai esternalizzando, ci sono misure legali e di conformità che devi considerare a causa dei problemi di privacy e riservatezza associati ai dati. E se hai un team interno, quanto sono efficienti nell'apprendimento di un nuovo strumento? Qual è il tuo time-to-market con il tuo prodotto o servizio? Hai le metriche di qualità e i team giusti per approvare i risultati?

Il venditore vs. Dibattito con i partner

Il venditore vs. Dibattito con i partner L'annotazione dei dati è un processo collaborativo. Implica dipendenze e complessità come l'interoperabilità. Ciò significa che alcuni team lavorano sempre in tandem tra loro e uno dei team potrebbe essere il tuo fornitore. Ecco perché il fornitore o il partner che selezioni è importante quanto lo strumento che utilizzi per l'etichettatura dei dati.

Con questo fattore, aspetti come la capacità di mantenere riservati i tuoi dati e le tue intenzioni, l'intenzione di accettare e lavorare sui feedback, essere proattivi in ​​termini di richieste di dati, flessibilità nelle operazioni e altro dovrebbero essere considerati prima di stringere la mano a un fornitore o un partner . Abbiamo incluso la flessibilità perché i requisiti di annotazione dei dati non sono sempre lineari o statici. Potrebbero cambiare in futuro man mano che amplierai ulteriormente la tua attività. Se attualmente hai a che fare solo con dati basati su testo, potresti voler annotare i dati audio o video mentre ridimensioni e il tuo supporto dovrebbe essere pronto ad espandere i propri orizzonti con te.

Coinvolgimento del venditore

Uno dei modi per valutare il coinvolgimento del fornitore è il supporto che riceverai.

Qualsiasi piano di acquisto deve tenere in considerazione questa componente. Come sarà il supporto a terra? Chi saranno le parti interessate e le persone di riferimento su entrambi i lati dell'equazione?

Ci sono anche compiti concreti che devono precisare quale sia (o sarà) il coinvolgimento del venditore. In particolare, per un'annotazione dei dati o un progetto di etichettatura dei dati, il fornitore fornirà attivamente i dati grezzi o no? Chi fungerà da esperto in materia e chi li assumerà come dipendenti o appaltatori indipendenti?

Casi d'uso chiave

Perché le aziende intraprendono questo tipo di progetti di annotazione e etichettatura dei dati?

I casi d'uso abbondano, ma alcuni di quelli comuni illustrano come questi sistemi aiutano le aziende a raggiungere obiettivi e obiettivi.

Casi d'uso chiave per l'annotazione dei dati

Ad esempio, alcuni casi d'uso implicano il tentativo di addestrare assistenti digitali o sistemi di risposta vocale interattivi. In realtà, gli stessi tipi di risorse possono essere utili in qualsiasi situazione in cui un'entità di intelligenza artificiale interagisce con un essere umano. Più l'annotazione dei dati e l'etichettatura dei dati hanno contribuito a dati di test mirati e dati di addestramento, migliore è il funzionamento di queste relazioni, in generale.

Un altro caso d'uso chiave per l'annotazione e l'etichettatura dei dati è lo sviluppo dell'IA specifica del settore. Potresti chiamare alcuni di questi tipi di progetti AI "orientati alla ricerca", mentre altri sono più operativi o procedurali. L'assistenza sanitaria è una delle principali verticali per questo sforzo ad alta intensità di dati. Con questo in mente, tuttavia, anche altri settori come finanza, ospitalità, produzione o vendita al dettaglio utilizzeranno questi tipi di sistemi.

Altri casi d'uso sono di natura più specifica. Prendi il riconoscimento facciale come un sistema di elaborazione delle immagini. La stessa annotazione e etichettatura dei dati aiuta a fornire ai sistemi informatici le informazioni di cui hanno bisogno per identificare le persone e produrre risultati mirati.

L'avversione di alcune aziende al settore del riconoscimento facciale è un esempio di come funziona. Quando la tecnologia non è sufficientemente controllata, porta a grandi preoccupazioni sull'equità e sul suo impatto sulle comunità umane.

Studi di casi

Ecco alcuni esempi di casi di studio specifici che affrontano il modo in cui l'annotazione e l'etichettatura dei dati funzionano davvero sul campo. In Shaip, ci preoccupiamo di fornire i massimi livelli di qualità e risultati superiori nell'annotazione dei dati e nell'etichettatura dei dati.

Gran parte della discussione di cui sopra sui risultati standard per l'annotazione dei dati e l'etichettatura dei dati rivela come affrontiamo ogni progetto e cosa offriamo alle aziende e alle parti interessate con cui lavoriamo.

Materiali di studio del caso che dimostreranno come funziona:

Casi d'uso chiave per l'annotazione dei dati

In un progetto di licenza di dati clinici, il team Shaip ha elaborato oltre 6,000 ore di audio, rimuovendo tutte le informazioni sanitarie protette (PHI) e lasciando contenuti conformi HIPAA su cui lavorare i modelli di riconoscimento vocale dell'assistenza sanitaria.

In questo tipo di casi, sono i criteri e la classificazione dei risultati che sono importanti. I dati grezzi sono sotto forma di audio e c'è la necessità di anonimizzare le parti. Ad esempio, nell'utilizzo dell'analisi NER, il duplice obiettivo è anonimizzare e annotare il contenuto.

Un altro caso di studio prevede un approfondimento dati di addestramento dell'IA conversazionale progetto che abbiamo completato con 3,000 linguisti che hanno lavorato in un periodo di 14 settimane. Ciò ha portato alla produzione di dati di formazione in 27 lingue, al fine di evolvere assistenti digitali multilingue in grado di gestire le interazioni umane in un'ampia selezione di lingue native.

In questo caso di studio particolare, era evidente la necessità di mettere la persona giusta sulla sedia giusta. Il gran numero di esperti in materia e di operatori di input di contenuti ha reso necessaria una razionalizzazione organizzativa e procedurale per portare a termine il progetto in una determinata sequenza temporale. Il nostro team è stato in grado di battere lo standard del settore con un ampio margine, ottimizzando la raccolta dei dati e i processi successivi.

Altri tipi di casi di studio riguardano cose come l'addestramento dei bot e l'annotazione di testo per l'apprendimento automatico. Anche in questo caso, in formato testo, è ancora importante trattare le parti identificate secondo le leggi sulla privacy e ordinare i dati grezzi per ottenere i risultati mirati.

In altre parole, lavorando su più tipi e formati di dati, Shaip ha dimostrato lo stesso successo vitale applicando gli stessi metodi e principi sia ai dati grezzi che agli scenari aziendali di licenza dei dati.

Avvolgere Up

Crediamo onestamente che questa guida sia stata piena di risorse per te e che tu abbia risposto alla maggior parte delle tue domande. Tuttavia, se non sei ancora convinto di un fornitore affidabile, non cercare oltre.

Noi di Shaip siamo una delle principali società di annotazione dei dati. Abbiamo esperti del settore che comprendono i dati e le relative preoccupazioni come nessun altro. Potremmo essere i tuoi partner ideali mentre mettiamo in gioco competenze come impegno, riservatezza, flessibilità e proprietà per ogni progetto o collaborazione.

Quindi, indipendentemente dal tipo di dati per cui intendi ottenere annotazioni, potresti trovare in noi quel team di veterani per soddisfare le tue richieste e i tuoi obiettivi. Ottieni i tuoi modelli di intelligenza artificiale ottimizzati per l'apprendimento con noi.

Parliamo

  • Registrandoti, sono d'accordo con Shaip Informativa sulla Privacy e Termini di Servizio e fornisco il mio consenso a ricevere comunicazioni di marketing B2B da Shaip.

Domande frequenti (FAQ)

L'annotazione dei dati o l'etichettatura dei dati è il processo che rende i dati con oggetti specifici riconoscibili dalle macchine in modo da prevederne il risultato. L'etichettatura, la trascrizione o l'elaborazione di oggetti all'interno di testo, immagini, scansioni, ecc. consentono agli algoritmi di interpretare i dati etichettati e di essere formati per risolvere casi aziendali reali da soli senza l'intervento umano.

Nell'apprendimento automatico (sia supervisionato che non supervisionato), i dati etichettati o annotati etichettano, trascrivono o elaborano le funzionalità che desideri che i tuoi modelli di apprendimento automatico comprendano e riconoscano in modo da risolvere le sfide del mondo reale.

Un data annotator è una persona che lavora instancabilmente per arricchire i dati in modo da renderli riconoscibili dalle macchine. Può comportare uno o tutti i seguenti passaggi (a seconda del caso d'uso in questione e del requisito): pulizia dei dati, trascrizione dei dati, etichettatura o annotazione dei dati, QA ecc.

Gli strumenti o le piattaforme (basati su cloud o on-premise) utilizzati per etichettare o annotare dati di alta qualità (come testo, audio, immagini, video) con metadati per l'apprendimento automatico sono chiamati strumenti di annotazione dei dati.

Strumenti o piattaforme (basati su cloud o on-premise) utilizzati per etichettare o annotare immagini in movimento fotogramma per fotogramma da un video per creare dati di addestramento di alta qualità per l'apprendimento automatico.

Strumenti o piattaforme (basati su cloud o on-premise) utilizzati per etichettare o annotare il testo di recensioni, giornali, prescrizioni mediche, cartelle cliniche elettroniche, bilanci, ecc. per creare dati di formazione di alta qualità per l'apprendimento automatico. Questo processo può anche essere chiamato etichettatura, etichettatura, trascrizione o elaborazione.