Raccolta di dati per l'IA conversazionale

Come affrontare la raccolta dei dati per l'IA conversazionale

Oggi abbiamo alcuni robot parlanti come chatbot, assistenti virtuali e altro nelle nostre case, sistemi automobilistici, dispositivi portatili, soluzioni di automazione domestica, ecc. Questi dispositivi ascoltano con precisione ciò che diciamo e come diciamo e recuperano risultati o eseguono attività specifiche .

E se hai usato un assistente come Siri o Alexa, ti renderesti anche conto che stanno diventando ogni giorno più bizzarri. Le loro risposte sono spiritose, rispondono, snobbano, ricambiano i complimenti e si comportano in modo più umano di alcuni dei colleghi che potresti conoscere. Non stiamo scherzando. Secondo PwC, il 27% degli utenti che hanno interagito con il loro recente collaboratore del servizio clienti non sapeva se stavano parlando con un essere umano o un chatbot.

Lo sviluppo di sistemi e dispositivi di conversazione così complessi è estremamente complesso e scoraggiante. È un gioco con la palla completamente diverso con approcci di sviluppo distinti. Ecco perché abbiamo pensato che dovremmo scomporlo per te per una più facile comprensione. Quindi, se stai cercando di sviluppare un motore di intelligenza artificiale conversazionale o un assistente virtuale, questa guida ti aiuterà a fare chiarezza.

Significato dell'IA conversazionale

Man mano che la tecnologia diventa un aspetto più integrale delle nostre vite sotto forma di dispositivi e sistemi più recenti, sorge la necessità di superare le barriere, infrangere le convenzioni e trovare nuovi modi per interagire con esse. Dal semplice utilizzo di periferiche collegate come mouse e tastiera, siamo passati a tappetini per mouse che offrivano maggiore praticità. Siamo quindi passati ai touchscreen che offrivano ulteriore comodità nell'alimentazione degli input e nell'esecuzione delle attività.

Con i dispositivi che diventano estensioni di noi stessi, ora stiamo sbloccando un nuovo mezzo di comando tramite la voce. Non abbiamo nemmeno bisogno di essere vicino a un dispositivo per azionarlo. Tutto quello che dobbiamo fare è usare la nostra voce per sbloccarlo e comandare i nostri input. Da una stanza vicina, durante la guida, mentre si utilizza un altro dispositivo contemporaneamente, l'IA conversazionale esegue senza problemi le attività previste. Quindi, da dove iniziamo: tutto inizia con dati vocali di alta qualità per addestrare modelli ML.

Nozioni di base sulla raccolta dei dati di formazione vocale

La raccolta e l'annotazione dei dati di addestramento dell'IA per l'IA conversazionale è molto diversa. Ci sono tonnellate di complessità coinvolte nei comandi umani e diverse misure devono essere implementate per garantire che ogni aspetto sia adattato per risultati di grande impatto. Diamo un'occhiata a quali sono alcuni dei fondamenti dei dati vocali.

Comprensione del linguaggio naturale (NLU)

Affinché i chatbot e gli assistenti virtuali capiscano e rispondano a ciò che scriviamo o comandiamo, un processo chiamato NLU è implementato. Sta per Comprensione del linguaggio naturale e coinvolge tre concetti tecnologici per interpretare ed elaborare diversi tipi di input.

  • Intento

    Tutto inizia con l'intento. Che cosa sta cercando di trasmettere, comunicare o ottenere un particolare utente attraverso un comando? L'utente cerca informazioni? Stanno aspettando aggiornamenti per un'azione? Stanno comandando un'istruzione per l'esecuzione del sistema? Come lo stanno comandando? È attraverso una domanda o una richiesta? Tutti questi aspetti aiutano le macchine a comprendere e classificare gli intenti e gli scopi per fornire rispettivamente risposte ermetiche.

  • Raccolta di enunciati

    C'è una differenza tra il comando "Dov'è il bancomat più vicino?" e il comando "Trovami un bancomat nelle vicinanze". Ora gli umani riconoscerebbero che entrambi significano la stessa cosa, ma le macchine devono essere spiegate con questa differenza. Sono gli stessi in termini di intenti, ma il modo in cui l'intento è stato modellato è completamente diverso.

    La raccolta di espressioni riguarda la definizione e la mappatura di diverse espressioni e frasi verso obiettivi specifici per l'esecuzione precisa di compiti e risposte. Tecnicamente, gli specialisti dell'annotazione dei dati lavorano su dati vocali o dati di testo per aiutare le macchine a differenziarlo.

  • Estrazione di entità

    Ogni frase ha parole o frasi specifiche che portano un peso enfatizzato ed è questa enfasi che porta a un'interpretazione del contesto e dello scopo. Le macchine, come i sistemi rigidi che sono, hanno bisogno di essere alimentate a cucchiaio da tali entità. Ad esempio, "Dove posso trovare le corde della mia chitarra vicino alla 6th Avenue?"

    Se rifinisci la frase, trova l'entità uno, le corde sono due, la chitarra è tre e la 6th avenue è 4. Queste entità vengono unite insieme da macchine per recuperare i risultati appropriati e affinché ciò avvenga, gli esperti lavorano nel back-end.

Set di dati vocali / vocali / audio pronti all'uso per addestrare il tuo modello di IA conversazionale più velocemente

Progettare dialoghi per l'IA conversazionale

L'obiettivo dell'IA è stato principalmente replicare il comportamento umano attraverso gesti, azioni e risposte. La mente umana cosciente ha la capacità innata di comprendere il contesto, l'intento, il tono, le emozioni e altri fattori e di rispondere di conseguenza. Ma come possono le macchine differenziare questi aspetti? 

Progettare dialoghi per AI conversazionale è molto complesso e, soprattutto, del tutto impossibile implementare un modello universale. Ogni individuo ha un modo diverso di pensare, parlare e rispondere. Anche nelle risposte, tutti noi esprimiamo i nostri pensieri in modo univoco. Quindi, le macchine devono ascoltare e rispondere di conseguenza. 

Tuttavia, anche questo non è facile. Quando gli esseri umani parlano, entrano in gioco fattori come accenti, pronuncia, etnia, lingua e altro e non è facile per le macchine fraintendere e interpretare male le parole e rispondere. Una parola particolare può essere compresa dalle macchine in una miriade di modi quando dettata da un indiano, un inglese, un americano e un messicano. Ci sono tonnellate di barriere linguistiche che entrano in gioco e il modo più pratico per creare un sistema di risposta è attraverso la programmazione visiva basata su diagrammi di flusso. 

Tramite blocchi dedicati per gesti, risposte e trigger, autori ed esperti possono aiutare le macchine a sviluppare un personaggio. Questo è più simile a una macchina algoritmica che può utilizzare per trovare le risposte giuste. Quando viene fornito un input, le informazioni fluiscono attraverso i fattori corrispondenti, portando alla risposta giusta per le macchine da fornire. 

Comporre D per la diversità

Come abbiamo già detto, le interazioni umane sono davvero uniche. Le persone in tutto il mondo provengono da diversi percorsi di vita, background, nazionalità, demografia, etnia, accenti, dizione, pronuncia e altro ancora. 

Affinché un bot conversazionale o un sistema sia universalmente utilizzabile, deve essere addestrato con il maggior numero possibile di dati di addestramento. Se, ad esempio, un modello è stato addestrato solo con i dati del parlato di una particolare lingua o etnia, un nuovo accento confonderebbe il sistema e lo costringerebbe a fornire risultati errati. Questo non è solo imbarazzante per gli imprenditori, ma anche offensivo per gli utenti. 

Ecco perché la fase di sviluppo dovrebbe coinvolgere i dati di addestramento dell'IA provenienti da un ricco pool di set di dati diversificati composti da persone di tutti i possibili background. Più accenti ed etnie comprende il tuo sistema, più universale sarebbe. Inoltre, ciò che infastidirebbe di più gli utenti non è il recupero errato delle informazioni, ma in primo luogo la mancata comprensione dei loro input. 

Eliminare i pregiudizi dovrebbe essere una priorità chiave e un modo in cui le aziende potrebbero farlo è optare per i dati in crowdsourcing. Quando raccogli in crowdsourcing i tuoi dati vocali o dati di testo, consenti a persone di tutto il mondo di contribuire alle tue esigenze, rendendo il tuo pool di dati solo salutare (leggi il nostro blog per comprendere i vantaggi e le insidie ​​dell'esternalizzazione dei dati ai lavoratori in crowdsourcing). Ora, il tuo modello capirà diversi accenti e pronunce e risponderà di conseguenza. 

La via da seguire

Sviluppare l'IA conversazionale è difficile quanto crescere un bambino. L'unica differenza è che il bambino alla fine crescerà per capire le cose e migliorare nella comunicazione autonoma. Sono le macchine che devono essere costantemente spinte. Attualmente ci sono diverse sfide in questo spazio e dovremmo riconoscere il fatto che abbiamo alcuni dei più rivoluzionari sistemi di IA conversazionale che emergono nonostante queste sfide. Aspettiamo e vediamo cosa riserva il futuro per i nostri amichevoli chatbot di quartiere e assistenti virtuali. Nel frattempo, se intendi ottenere un'IA conversazionale come Google Home sviluppata per la tua azienda, contattaci per i tuoi dati di formazione sull'IA e le tue esigenze di annotazione.

Share sociale