Raccolta audio di frasi chiave/suggerimenti

Caso di studio: raccolta di frasi chiave per i sistemi ad attivazione vocale in auto

Raccolta di frasi chiave

C'è una crescente domanda di sistemi ad attivazione vocale per auto nel settore automobilistico, ridefinendo il modo in cui interagiamo con i nostri veicoli per la mobilità.

L’industria automobilistica ha rapidamente adottato sistemi ad attivazione vocale, con i principali attori come Ford, Tesla e BMW che hanno integrato il riconoscimento vocale avanzato nei loro veicoli. Si stima che entro il 2022 oltre il 50% delle nuove auto sarà dotato di funzionalità di riconoscimento vocale. Queste integrazioni mirano a migliorare la sicurezza, consentendo ai conducenti di utilizzare le funzioni di navigazione, intrattenimento e comunicazione senza distrazioni.

Si prevede che il valore di mercato del riconoscimento vocale nelle automobili supererà il miliardo di dollari entro il 1, indicando una crescente domanda di interazioni intelligenti e a mani libere in auto.

Automotive

La ricerca suggerisce che entro il 2022, il 73% dei conducenti utilizzerà un assistente vocale a bordo.

Il mercato dei sistemi di riconoscimento vocale automobilistico è stato valutato a 2.01 miliardi di dollari nel 2021 e dovrebbe raggiungere 3.51 miliardi di dollari entro il 2027, registrando un CAGR di circa l'8.07%.

Soluzione del mondo reale

Dati che alimentano i sistemi ad attivazione vocale

I sistemi ad attivazione vocale nelle automobili migliorano la sicurezza e la comodità. Consentono ai conducenti di accedere alla navigazione, effettuare chiamate, inviare messaggi e controllare la musica senza togliere le mani dal volante o gli occhi dalla strada. Rispondendo ai comandi verbali, questi sistemi riducono la distrazione, promuovono il multitasking e garantiscono una concentrazione continua sulla guida. 

Il cliente è un leader globale nell'intelligenza conversazionale che offre soluzioni di intelligenza artificiale vocale che consentono alle aziende di offrire incredibili esperienze di conversazione ai propri clienti. Stavano lavorando con le principali aziende automobilistiche per addestrare i loro sistemi ad attivazione vocale con frasi chiave brandizzate e avevano bisogno dell'esperienza di Shaip nella raccolta di dati audio.

Soluzione del mondo reale
Le sfide

Le sfide

  • Crowdsourcing: Recluta oltre 2800 madrelingua per lingua a livello globale.
  • Raccolta dei dati: Proteggi oltre 200 prompt in 12 lingue entro un periodo di tempo prestabilito.
  • Riconoscimento del contesto e dell'intento: per comprendere correttamente le richieste degli utenti, i sistemi dovevano essere addestrati su diverse varianti per la stessa frase chiave.
  • Gestione del rumore di fondo: Risolvi il rumore di fondo del mondo reale per la precisione del modello ML.
  • Riduzione del pregiudizio: Acquisisci campioni vocali da diversi dati demografici per garantire l'inclusività.
  • Specifiche audio: PCM 16khz 16bit, mono, canale singolo, WAV; nessuna elaborazione.
  • Ambiente di registrazione: Le registrazioni dovrebbero avere un audio pulito senza rumori di fondo o disturbi. Frasi chiave da registrare utilizzando il parlato normale.
  • Controllo di qualità:  Tutte le registrazioni vocali saranno sottoposte a valutazione e convalida della qualità, verranno consegnate solo le registrazioni vocali convalidate. Se Shaip non soddisfa gli standard di qualità concordati, Shaip riconsegnerà i dati senza costi aggiuntivi

Soluzione

Shaip, con la sua esperienza nello spazio dell'intelligenza artificiale conversazionale, ha consentito al cliente di:

  • Raccolta dei dati: 208 frasi chiave/proposte relative al brand raccolte in 12 lingue globali da 2800 relatori nel periodo di tempo stabilito
  • Accenti e dialetti diversi: Specialisti reclutati da tutto il mondo, esperti negli accenti e nei dialetti desiderati.
  • Riconoscimento del contesto e dell'intento: a ogni relatore è stato assegnato il compito di registrare le frasi chiave in 20 varianti distinte, consentendo ai modelli ML di cogliere con precisione le richieste degli utenti in termini di contesto e intento.
  • Gestione del rumore di fondo: Per garantire una qualità audio impeccabile, ci siamo assicurati che le frasi chiave fossero catturate in un ambiente sereno con livelli di rumore inferiori a 40 dB, privo di disturbi di sottofondo come TV, radio, musica, parlato o suoni della strada.
  • Riduzione del pregiudizio: Per ridurre al minimo i pregiudizi, abbiamo coinvolto individui provenienti da diverse regioni e mantenuto una rappresentazione demografica equilibrata con il 50% di maschi e il 50% di femmine, coprendo fasce di età dai 18 ai 60 anni.
  • Linee guida per la registrazione: Le frasi chiave sono state catturate in uno schema vocale coerente e normale, senza alcuna variazione come ritmo veloce o lento. 2 secondi di silenzio sia all'inizio che alla fine per garantire che nessuna parte del discorso venga inavvertitamente tagliata.
  • Formato di registrazione: L'audio è stato registrato a 16kHz, PCM a 16 bit in mono, utilizzando un singolo canale e salvato nel formato file WAV. L'audio rimane non elaborato, il che significa che non è stata applicata alcuna compressione, riverbero o equalizzazione.
  • Qualità: Ogni registrazione vocale è stata sottoposta a rigorosi controlli di qualità e convalida. Sono state consegnate solo le registrazioni che hanno superato questa valutazione. Tutti i file che non soddisfacevano gli standard di qualità concordati sono stati registrati nuovamente e forniti senza costi aggiuntivi
Soluzione
Risultato

Risultato

I dati audio o i comandi vocali delle frasi chiave del marchio di alta qualità consentiranno alle aziende automobilistiche e ai loro clienti di:

  1. Marchio e identità: I comandi vocali con frasi specifiche del marchio aiutano le aziende a creare una connessione diretta e memorabile tra l'utente e il marchio che migliora il ricordo del marchio.
  2. Facilità d'uso: I comandi vocali rendono più facile per i conducenti interagire con il veicolo senza togliere le mani dal volante o gli occhi dalla strada, migliorando così la sicurezza stradale.
  3. Funzionalità: I comandi vocali rendono l'accesso e il controllo delle funzionalità dell'auto più intuitivi. Che si tratti di navigazione, riproduzione multimediale o climatizzazione.
  4. Integrazione con altri sistemi: Molti sistemi ad attivazione vocale sono integrati con smartphone, dispositivi domestici intelligenti e altri dispositivi IoT. Ad esempio, un utente potrebbe essere in grado di chiedere alla propria auto di accendere le luci di casa mentre si avvicina a casa.
  5. Vantaggio competitivo: L'offerta di sistemi avanzati ad attivazione vocale può rappresentare un punto di forza e un elemento di differenziazione. Gli acquirenti cercano la tecnologia più recente quando considerano l'acquisto di una nuova auto.
  6. A prova di futuro: Man mano che la tecnologia si evolve e l’IoT diventa sempre più integrato nella vita di tutti i giorni, disporre di un robusto sistema ad attivazione vocale consente alle aziende automobilistiche di essere più adattive alla tecnologia futura.
  7. Opportunità di guadagno: Ulteriori opportunità di monetizzazione, ad esempio i sistemi vocali offrono consigli o esperienze di e-commerce integrate (come ordinare cibo o trovare servizi nelle vicinanze) che potrebbero fornire entrate di affiliazione.
Golden-5 stelle

Quando abbiamo iniziato a fornire comandi vocali per il settore automobilistico, le sfide erano numerose. Catturare la diversità nel parlato, negli accenti e nei toni era fondamentale per rappresentare la clientela globale del nostro cliente. Shaip si è distinto non solo come fornitore, ma come vero partner. Il loro impegno nel garantire una vasta gamma di voci provenienti da diverse regioni è stato encomiabile. Sono andati oltre la semplice raccolta di voci; hanno colto le sfumature delle esigenze del nostro progetto, garantendo registrazioni di altissimo livello. La loro impeccabile aderenza agli standard di raccolta audio ha dimostrato la loro professionalità e dedizione al progetto.

Accelera la tua IA conversazionale
sviluppo di applicazioni del 100%