Caso di studio: IA conversazionale

Oltre 3k ore di dati raccolti, segmentati e trascritti per creare ASR in 8 lingue indiane

Raccolta di espressioni
Il governo mira a consentire ai propri cittadini un facile accesso a Internet e ai servizi digitali nella propria lingua madre attraverso il progetto Bhashini.

BHASHINI, la piattaforma di traduzione linguistica guidata dall'intelligenza artificiale dell'India, è una parte vitale dell'iniziativa Digital India.

Progettata per fornire strumenti di Intelligenza Artificiale (AI) e Natural Language Processing (NLP) a MPMI, startup e innovatori indipendenti, la piattaforma Bhashini funge da risorsa pubblica. Il suo obiettivo è promuovere l'inclusione digitale consentendo ai cittadini indiani di interagire con le iniziative digitali del paese nella loro lingua madre.

Inoltre, mira ad espandere in modo significativo la disponibilità di contenuti Internet nelle lingue indiane. Ciò è rivolto in particolare ai settori di interesse pubblico come la governance e la politica, la scienza e la tecnologia, ecc. Di conseguenza, ciò incentiverà i cittadini a utilizzare Internet nella propria lingua, promuovendo la loro partecipazione attiva.

Sfrutta la PNL per abilitare un ecosistema diversificato di contributori, entità partner e cittadini allo scopo di trascendere le barriere linguistiche, garantendo così l'inclusione digitale e l'empowerment

Soluzione del mondo reale

Liberare il potere della localizzazione con i dati

L'India aveva bisogno di una piattaforma che si concentrasse sulla creazione di set di dati multilingue e soluzioni tecnologiche linguistiche basate sull'intelligenza artificiale per fornire servizi digitali nelle lingue indiane. Per lanciare questa iniziativa, l'Indian Institute of Technology, Madras (IIT Madras) ha collaborato con Shaip per raccogliere, segmentare e trascrivere set di dati in lingua indiana per costruire modelli vocali multilingue.

Le sfide

Per assistere il cliente con la roadmap vocale della tecnologia vocale per le lingue indiane, il team aveva bisogno di acquisire, segmentare e trascrivere grandi volumi di dati di addestramento per costruire un modello di intelligenza artificiale. I requisiti critici del cliente erano:

Raccolta Dati

  • Acquisisci 3000 ore di dati di formazione in 8 lingue indiane con 4 dialetti per lingua.
  • Per ogni lingua, il fornitore raccoglierà Extempore Speech e
    Discorso colloquiale da gruppi di età di 18-60 anni
  • Garantire un mix diversificato di parlanti per età, sesso, istruzione e dialetti
  • Garantire un mix diversificato di ambienti di registrazione secondo le specifiche.
  • Ciascuna registrazione audio deve essere di almeno 16 kHz ma preferibilmente di 44 kHz

Segmentazione dei dati

  • Crea segmenti vocali di 15 secondi e timestamp dell'audio in millisecondi per ogni dato oratore, tipo di suono (parlato, balbettio, musica, rumore), turni, espressioni e frasi in una conversazione
  • Crea ogni segmento per il suo segnale sonoro mirato con un riempimento di 200-400 millisecondi all'inizio e alla fine.
  • Per tutti i segmenti, devono essere compilati i seguenti oggetti, ad esempio ora di inizio, ora di fine, ID segmento, livello di intensità sonora, tipo di suono, codice lingua, ID altoparlante, ecc.

Trascrizione dei dati

  • Segui le linee guida dettagliate per la trascrizione di caratteri e simboli speciali, ortografia e grammatica, lettere maiuscole, abbreviazioni, contrazioni, singole lettere parlate, numeri, punteggiatura, acronimi, disfluente, parlato, parlato incomprensibile, lingue non target, non parlato ecc.

Controllo di qualità e feedback

  • Tutte le registrazioni devono essere sottoposte a valutazione e convalida della qualità, solo discorsi convalidati da consegnare

Soluzione

Con la nostra profonda conoscenza dell'intelligenza artificiale conversazionale, abbiamo aiutato il cliente a raccogliere, segmentare e trascrivere i dati con un team di esperti collezionisti, linguisti e annotatori per creare un ampio corpus di set di dati audio in 8 lingue indiane

Lo scopo del lavoro per Shaip includeva, ma non era limitato, l'acquisizione di grandi volumi di dati di formazione audio, la segmentazione delle registrazioni audio in più registrazioni, la trascrizione dei dati e la consegna dei file JSON corrispondenti contenenti i metadati [SpeakerID, Age, Gender, Language, Dialetto,
Madrelingua, Qualifica, Professione, Dominio, Formato file, Frequenza, Canale, Tipo di audio, N. di parlanti, N. di lingue straniere, Configurazione utilizzata, Audio a banda stretta o larga, ecc.]. 

Shaip ha raccolto 3000 ore di dati audio su larga scala mantenendo i livelli desiderati di qualità richiesti per addestrare la tecnologia vocale per progetti complessi. Modulo di consenso esplicito è stato preso da ciascuno dei partecipanti.

1. Raccolta dati