Crowd Worker per la raccolta dati

Crowd Workers per la raccolta dati: una parte indispensabile dell'intelligenza artificiale etica

Nei nostri sforzi per creare soluzioni di intelligenza artificiale solide e imparziali, è pertinente concentrarsi sull'addestramento dei modelli su un assortimento di dati imparziale, dinamico e rappresentativo. Il nostro processo di raccolta dei dati è estremamente importante per lo sviluppo di soluzioni AI credibili. A questo proposito, raccolta Dati di addestramento AI attraverso i crowd worker diventa un aspetto critico della strategia di raccolta dei dati.

In questo articolo, esploriamo il ruolo dei crowd worker, il suo impatto sullo sviluppo dell'IA algoritmi di apprendimento e modelli ML e la necessità e i vantaggi che presta all'intero processo. 

Perché i crowdworker sono tenuti a costruire modelli di intelligenza artificiale?

Come esseri umani, generiamo tonnellate di dati, ma solo una frazione di questi dati generati e raccolti ha valore. A causa della mancanza di standard di benchmarking dei dati, la maggior parte dei dati raccolti è distorta, piena di problemi di qualità o non rappresentativa dell'ambiente. Da sempre di più machine learning e si stanno sviluppando modelli di deep learning che prosperano su enormi quantità di dati, la necessità di set di dati migliori, più nuovi e diversificati è sempre più sentita.

È qui che entrano in gioco i lavoratori della folla.

I dati di crowdsourcing stanno costruendo un set di dati con la partecipazione di grandi gruppi di persone. I lavoratori della folla infondono l'intelligenza umana nell'intelligenza artificiale.

Piattaforme di crowdsourcing assegnare microtask di raccolta dati e annotazione a un gruppo ampio e diversificato di persone. Il crowdsourcing consente alle aziende di accedere a una forza lavoro massiccia, dinamica, conveniente e scalabile.

La piattaforma di crowdsourcing più popolare, Amazon Mechanical Turk, è stata in grado di reperire 11mila dialoghi da uomo a uomo in 15 ore e ha pagato i lavoratori $0.35 per ogni dialogo riuscito. I Crowd Worker vengono assunti per una quantità così esigua, il che fa luce sull'importanza di costruire standard etici di approvvigionamento dei dati.

In teoria, sembra un piano intelligente, ma non è una strategia facile da eseguire. L'anonimato dei crowdworker ha dato origine a problemi di retribuzione bassa, disprezzo per i diritti dei lavoratori e lavoro di scarsa qualità che incidono sulle prestazioni del modello di intelligenza artificiale. 

Vantaggi di avere crowd worker per reperire i dati

Coinvolgendo un gruppo eterogeneo di crowd worker, gli sviluppatori di soluzioni basate sull'intelligenza artificiale possono distribuire micro attività e raccogliere osservazioni varie e diffuse in modo rapido e a un costo relativamente basso.

Alcuni dei principali vantaggi dell'assunzione di crowdworker per progetti di intelligenza artificiale sono

Vantaggi della raccolta dati attraverso i Crowd Worker

Time to Market più veloce: Secondo una ricerca di Cognilytica, quasi 80% of intelligenza artificiale il tempo del progetto viene dedicato ad attività di raccolta dati come la pulizia, l'etichettatura e l'aggregazione dei dati. Solo il 20% del tempo viene dedicato allo sviluppo e alla formazione. Le tradizionali barriere alla generazione di dati vengono eliminate poiché è possibile reclutare un gran numero di contributori in breve tempo. 

Soluzione conveniente: Raccolta di dati di crowdsourcing riduce il tempo e l'energia spesi per la formazione, il reclutamento e il coinvolgimento. Ciò elimina il costo, il tempo e le risorse necessarie poiché la forza lavoro è impiegata con un metodo pay-per-task. 

Aumenta la diversità nel set di dati: La diversità dei dati è fondamentale per l'intera formazione sulla soluzione AI. Affinché un modello produca risultati imparziali, deve essere addestrato su un set di dati diversi. Con il crowd-sourcing dei dati, è possibile generare diversi set di dati (geografici, linguistici, dialettali) con sforzi e costi ridotti.

Migliora la scalabilità: Quando recluti crowd worker affidabili, puoi assicurarti alta qualità raccolta di dati che può essere scalata in base alle esigenze del progetto.

In-house vs. crowdsourcing: chi ne esce vincitore?

Dati interniDati crowdsourcing
L'accuratezza e la coerenza dei dati possono essere garantite.La qualità, l'accuratezza e la coerenza dei dati possono essere mantenute se vengono utilizzate piattaforme di crowdsourcing affidabili con misure di QA standard
L'approvvigionamento interno dei dati non è sempre una decisione pratica in quanto il tuo team interno potrebbe non soddisfare le richieste del progetto.La diversità dei dati può essere garantita in quanto è possibile reclutare un gruppo eterogeneo di crowd worker in base alle esigenze del progetto.
Costoso reclutare e formare i lavoratori per le esigenze del progetto.Soluzione conveniente per raccolta dei dati in quanto è possibile reclutare, formare e assumere lavoratori con un investimento minore.
Il time-to-market è elevato poiché la raccolta interna dei dati richiede molto tempo.Il tempo di commercializzazione è significativamente inferiore poiché molti contributi arrivano rapidamente.
Un piccolo gruppo di collaboratori ed etichettatori interniUn gruppo ampio e diversificato di contributori e etichettatori di dati
La riservatezza dei dati è molto elevata con un team interno.La riservatezza dei dati è difficile da mantenere quando si lavora con grandi crowd worker in tutto il mondo.
Più facile tracciare, addestrare e valutare i raccoglitori di datiSfida per monitorare e addestrare i raccoglitori di dati.

Colmare il divario tra i lavoratori crowdsource e il richiedente.

Colmare il divario tra i lavoratori Crowdsource e il richiedente C'è un disperato bisogno di colmare il divario tra crowd worker e richiedenti, non solo nel regno della retribuzione.

C'è una palese mancanza di informazioni da parte del richiedente perché ai lavoratori vengono fornite solo informazioni riguardanti l'attività specifica. Ad esempio, sebbene ai lavoratori vengano affidati micro compiti come la registrazione di dialoghi nel loro dialetto nativo, raramente viene loro fornito un contesto. Non hanno le informazioni richieste sul motivo per cui stanno facendo ciò che stanno facendo e sul modo migliore per farlo. Questa mancanza di informazioni influisce sul qualità del lavoro di crowdsourcing.

Per un essere umano, avere l'intero contesto fornisce chiarezza e scopo al proprio lavoro.

Aggiungi a questo mix un'altra dimensione dell'NDA: gli accordi di non divulgazione che limitano la quantità di informazioni fornite a un crowd worker. Dal punto di vista del crowdworker, questo ritiro di informazioni mostra una mancanza di fiducia e una minore importanza per il loro lavoro.

Quando la stessa situazione è vista dall'altra parte dello spettro, c'è una mancanza di trasparenza dalla parte del lavoratore. Il richiedente non comprende appieno il lavoratore incaricato di eseguire il lavoro. Alcuni progetti potrebbero richiedere un tipo specifico di lavoratore; tuttavia, nella maggior parte dei progetti, vi è ambiguità. IL realtà di base è questo può complicare la valutazione, il feedback e la formazione lungo la linea.

Per contrastare queste difficoltà, è importante lavorare con esperti di raccolta dati con una comprovata esperienza nel fornire dati diversificati, curati e ben rappresentati da un'ampia selezione di contributori.

La scelta di Shaip come partner di dati può avere molteplici vantaggi. Ci concentriamo sulla diversità e sulle distribuzioni rappresentative dei dati. Il nostro personale esperto e dedicato comprende le compulsioni di ogni progetto e sviluppa set di dati in grado di addestrare solide soluzioni basate sull'intelligenza artificiale in pochissimo tempo.

[Leggi anche: AI Training Data Starter Guide: definizione, esempio, set di dati]

Share sociale