IA conversazionale: riconoscimento vocale automatico

Oltre 8k ore di audio raccolte, 800 ore trascritte per la tecnologia vocale multilingue

Ai conversazionale

Introduzione

L’India aveva bisogno di una piattaforma che si concentrasse sulla creazione di set di dati multilingue e soluzioni tecnologiche linguistiche basate sull’intelligenza artificiale per fornire servizi digitali nelle lingue indiane. Per lanciare questa iniziativa, il Cliente ha collaborato con Shaip per raccogliere e trascrivere la lingua indiana per costruire modelli vocali multilingue.

Volume

Ore di dati raccolti
10
N. di pagine annotate
10 +
Durata del progetto
< 1 mese

Le sfide

Per assistere il cliente con la roadmap vocale della tecnologia vocale per le lingue indiane, il team aveva bisogno di acquisire, segmentare e trascrivere grandi volumi di dati di addestramento per creare un modello di intelligenza artificiale. I requisiti critici del cliente erano:

Raccolta Dati

  • Acquisisci 8000 ore di dati di allenamento da località remote dell'India
  • Il fornitore per raccogliere discorsi spontanei da gruppi di età di 20-70 anni
  • Garantire un mix diversificato di parlanti per età, sesso, istruzione e dialetti
  • Ciascuna registrazione audio deve essere di almeno 16kHz con 16 bit/campione.
Raccolta dei dati

Trascrizione dei dati

Seguire le linee guida dettagliate per la trascrizione su caratteri e simboli speciali, ortografia e grammatica, maiuscole, abbreviazioni, contrazioni, singole lettere parlate, numeri, punteggiatura, acronimi e inizialismi, discorso disfluente, discorso incomprensibile, lingue non target, non parlato

Trascrizione dei dati

Controllo di qualità e feedback

Tutte le registrazioni devono essere sottoposte a valutazione e convalida della qualità, verranno consegnate solo le registrazioni vocali convalidate

Soluzione

Grazie alla nostra profonda conoscenza dell'intelligenza artificiale conversazionale, abbiamo aiutato il cliente a raccogliere e trascrivere i dati audio con un team di esperti collezionisti, linguisti e annotatori per creare un ampio corpus di dati audio provenienti da parti remote dell'India.

L'ambito di lavoro di Shaip includeva, ma non si limitava, all'acquisizione di grandi volumi di dati di formazione audio, alla trascrizione dei dati e alla consegna dei file JSON corrispondenti contenenti i metadati [sia per i relatori che per i trascrittori. Per ciascun parlante, i metadati includono un ID parlante anonimo, dettagli del dispositivo, informazioni demografiche come sesso, età e istruzione, insieme al codice PIN, allo stato socioeconomico, alle lingue parlate e a una registrazione della durata del soggiorno. Per ogni trascrittore, i dati incorporano un ID trascrittore anonimo, dettagli demografici simili a quelli degli oratori, la durata dell'esperienza di trascrizione e un'analisi approfondita delle lingue che possono leggere, scrivere e parlare.

Shaip raccolto 8000 ore di dati audio/discorso spontaneo su larga scala e trascritto 800 ore mantenendo i livelli di qualità desiderati richiesti per addestrare la tecnologia vocale per progetti complessi. Il modulo di consenso esplicito è stato preso da ciascuno dei partecipanti. Il /Discorso spontaneo raccolto si è basato su immagini fornite dall'Università. Di 3500 immagini, 1000 sono generici e 2500 si riferiscono alla cultura, ai festival, ecc. specifici del distretto. Le immagini raffigurano vari ambiti come stazioni ferroviarie, mercati, condizioni meteorologiche e altro ancora.

Raccolta Dati

Regione / StatodistrettiOre audioTrascrizione
(Ore)
BiharSaran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui2000200
UttarradeshDeoria, Varanasi, Gorakhpur, Ghazipur, Muzzaffarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun1000100
RajasthanNagaur, Churu20020
UttarakhandTehri Garhwal, Uttarkashi20020
ChhattisgarhBilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma1000100
west BengalPaschim Medinipur, Malda, Jalpaiguri, Purulia, Calcutta, Jhargram, Nord 24 Parganas, Dakshin Dinajpur80080
JharkhandSahebganj, Jamtara20020
APGuntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam60060
TelanganaKarimnagar, Nalgonda20020
GoaNord+Sud Goa10010
KarnatakaDakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar1000100
MaharashtraSindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur70070
Totale8000800

Linee guida generali

Formato

    • Audio a 16 kHz, 16 bit/campione.
    • Canale singolo.
    • Audio grezzo senza transcodifica.

Style

    • Discorso spontaneo.
    • Frasi basate su immagini fornite dall'Università. Delle 3500 immagini, 1000 sono generiche e 2500 si riferiscono a cultura, festival, ecc. specifici del distretto. Le immagini raffigurano vari ambiti come stazioni ferroviarie, mercati, condizioni meteorologiche e altro ancora.

Sfondo di registrazione

    • Registrato in un ambiente silenzioso e privo di eco.
    • Nessun disturbo dello smartphone (vibrazioni o notifiche) durante la registrazione.
    • Nessuna distorsione come ritaglio o effetti far-field.
    • Vibrazioni del telefono inaccettabili; le vibrazioni esterne sono tollerabili se l'audio è chiaro.

Specifiche dell'altoparlante

    • Fascia di età compresa tra 20 e 70 anni con distribuzione equilibrata di genere per distretto.
    • Minimo 400 madrelingua in ciascun distretto.
    • Gli oratori dovrebbero usare la loro lingua/dialetto di casa.
    • Moduli di consenso obbligatori per tutti i partecipanti.


Controllo qualità e garanzia di qualità critica

Il processo di QA dà priorità alla garanzia della qualità delle registrazioni e delle trascrizioni audio. Gli standard audio si concentrano su silenzi precisi, durata del segmento, chiarezza del singolo altoparlante e metadati dettagliati tra cui età e stato socioeconomico. I criteri di trascrizione enfatizzano l'accuratezza dei tag, la veridicità delle parole e i dettagli corretti del segmento. Il benchmark di accettazione stabilisce che se più del 20% di un batch audio non soddisfa questi standard, viene rifiutato. Per discrepanze inferiori al 20% sono necessarie registrazioni sostitutive con profili simili.

Trascrizione dei dati

Le linee guida per la trascrizione enfatizzano l'accuratezza e la trascrizione letterale solo quando le parole sono chiare e comprensibili; le parole poco chiare vengono contrassegnate come [incomprensibile] o [non udibile] in base al problema. I limiti delle frasi nell'audio lungo sono contrassegnati con , e non è consentita alcuna parafrasi o correzione di errori grammaticali. La trascrizione letterale copre errori, slang e ripetizioni ma omette false partenze, suoni di riempimento e balbettii. I rumori di sottofondo e di primo piano vengono trascritti con tag descrittivi, mentre i nomi propri, i titoli e i numeri seguono regole di trascrizione specifiche. Le etichette degli oratori vengono utilizzate per ogni frase e le frasi incomplete sono indicate con .

Flusso di lavoro del progetto

Il flusso di lavoro descrive il processo di trascrizione audio. Si inizia con l'onboarding e la formazione dei partecipanti. Registrano l'audio utilizzando un'app, che viene caricata su una piattaforma di QA. Questo audio è sottoposto a controlli di qualità e segmentazione automatica. Il team tecnico prepara quindi i segmenti per la trascrizione. Dopo la trascrizione manuale, c'è una fase di controllo della qualità. Le trascrizioni vengono consegnate al cliente e, se accettate, la consegna si ritiene completata. In caso contrario, le revisioni vengono effettuate in base al feedback del cliente.

Risultato

I dati audio di alta qualità provenienti da linguisti esperti consentiranno al nostro cliente di addestrare e costruire accuratamente modelli di riconoscimento vocale multilingue in varie lingue indiane con differenti dialetti nei tempi stabiliti. I modelli di riconoscimento vocale possono essere utilizzati per:

  • Superare la barriera linguistica per l'inclusione digitale collegando i cittadini alle iniziative nella propria lingua madre.
  • Promuove la governance digitale
  • Catalizzatore per formare un ecosistema per servizi e prodotti nelle lingue indiane
  • Contenuti digitali più localizzati nei settori di interesse pubblico, in particolare governance e politica

Siamo ammirati dall'esperienza di Shaip nel campo dell'intelligenza artificiale conversazionale. Il compito di gestire 8000 ore di dati audio insieme a 800 ore di trascrizione in 80 distretti diversi è stato a dir poco monumentale. È stata la profonda comprensione da parte di Shaip degli intricati dettagli e delle sfumature di questo ambito che ha reso possibile la riuscita esecuzione di un progetto così impegnativo. La loro capacità di gestire e navigare senza problemi attraverso le complessità di questa grande quantità di dati, garantendo al contempo una qualità di prim'ordine, è davvero encomiabile.

Golden-5 stelle

Accelera la tua IA conversazionale
sviluppo di applicazioni del 100%