Caso di studio: IA conversazionale

Oltre 3k ore di dati raccolti, segmentati e trascritti per creare ASR in 8 lingue indiane

Raccolta di espressioni
Il governo mira a consentire ai propri cittadini un facile accesso a Internet e ai servizi digitali nella propria lingua madre attraverso il progetto Bhashini.

BHASHINI, la piattaforma di traduzione linguistica guidata dall'intelligenza artificiale dell'India, è una parte vitale dell'iniziativa Digital India.

Progettata per fornire strumenti di Intelligenza Artificiale (AI) e Natural Language Processing (NLP) a MPMI, startup e innovatori indipendenti, la piattaforma Bhashini funge da risorsa pubblica. Il suo obiettivo è promuovere l'inclusione digitale consentendo ai cittadini indiani di interagire con le iniziative digitali del paese nella loro lingua madre.

Inoltre, mira ad espandere in modo significativo la disponibilità di contenuti Internet nelle lingue indiane. Ciò è rivolto in particolare ai settori di interesse pubblico come la governance e la politica, la scienza e la tecnologia, ecc. Di conseguenza, ciò incentiverà i cittadini a utilizzare Internet nella propria lingua, promuovendo la loro partecipazione attiva.

Sfrutta la PNL per abilitare un ecosistema diversificato di contributori, entità partner e cittadini allo scopo di trascendere le barriere linguistiche, garantendo così l'inclusione digitale e l'empowerment

Soluzione del mondo reale

Liberare il potere della localizzazione con i dati

L'India aveva bisogno di una piattaforma che si concentrasse sulla creazione di set di dati multilingue e soluzioni tecnologiche linguistiche basate sull'intelligenza artificiale per fornire servizi digitali nelle lingue indiane. Per lanciare questa iniziativa, l'Indian Institute of Technology, Madras (IIT Madras) ha collaborato con Shaip per raccogliere, segmentare e trascrivere set di dati in lingua indiana per costruire modelli vocali multilingue.

Le sfide

Per assistere il cliente con la roadmap vocale della tecnologia vocale per le lingue indiane, il team aveva bisogno di acquisire, segmentare e trascrivere grandi volumi di dati di addestramento per costruire un modello di intelligenza artificiale. I requisiti critici del cliente erano:

Raccolta Dati

  • Acquisisci 3000 ore di dati di formazione in 8 lingue indiane con 4 dialetti per lingua.
  • Per ogni lingua, il fornitore raccoglierà Extempore Speech e
    Discorso colloquiale da gruppi di età di 18-60 anni
  • Garantire un mix diversificato di parlanti per età, sesso, istruzione e dialetti
  • Garantire un mix diversificato di ambienti di registrazione secondo le specifiche.
  • Ciascuna registrazione audio deve essere di almeno 16 kHz ma preferibilmente di 44 kHz

Segmentazione dei dati

  • Crea segmenti vocali di 15 secondi e timestamp dell'audio in millisecondi per ogni dato oratore, tipo di suono (parlato, balbettio, musica, rumore), turni, espressioni e frasi in una conversazione
  • Crea ogni segmento per il suo segnale sonoro mirato con un riempimento di 200-400 millisecondi all'inizio e alla fine.
  • Per tutti i segmenti, devono essere compilati i seguenti oggetti, ad esempio ora di inizio, ora di fine, ID segmento, livello di intensità sonora, tipo di suono, codice lingua, ID altoparlante, ecc.

Trascrizione dei dati

  • Segui le linee guida dettagliate per la trascrizione di caratteri e simboli speciali, ortografia e grammatica, lettere maiuscole, abbreviazioni, contrazioni, singole lettere parlate, numeri, punteggiatura, acronimi, disfluente, parlato, parlato incomprensibile, lingue non target, non parlato ecc.

Controllo di qualità e feedback

  • Tutte le registrazioni devono essere sottoposte a valutazione e convalida della qualità, solo discorsi convalidati da consegnare

Soluzione

Con la nostra profonda conoscenza dell'intelligenza artificiale conversazionale, abbiamo aiutato il cliente a raccogliere, segmentare e trascrivere i dati con un team di esperti collezionisti, linguisti e annotatori per creare un ampio corpus di set di dati audio in 8 lingue indiane

Lo scopo del lavoro per Shaip includeva, ma non era limitato, l'acquisizione di grandi volumi di dati di formazione audio, la segmentazione delle registrazioni audio in più registrazioni, la trascrizione dei dati e la consegna dei file JSON corrispondenti contenenti i metadati [SpeakerID, Age, Gender, Language, Dialetto,
Madrelingua, Qualifica, Professione, Dominio, Formato file, Frequenza, Canale, Tipo di audio, N. di parlanti, N. di lingue straniere, Configurazione utilizzata, Audio a banda stretta o larga, ecc.]. 

Shaip ha raccolto 3000 ore di dati audio su larga scala mantenendo i livelli desiderati di qualità richiesti per addestrare la tecnologia vocale per progetti complessi. Modulo di consenso esplicito è stato preso da ciascuno dei partecipanti.

1. Raccolta dati

2. Segmentazione dei dati

  • I dati audio raccolti sono stati ulteriormente biforcati in segmenti vocali di 15 secondi ciascuno e contrassegnati con timestamp in millisecondi per ogni dato oratore, tipo di suono, turni, espressioni e frasi in una conversazione
  • Ogni segmento è stato creato per il segnale audio mirato con un riempimento di 200-400 millisecondi all'inizio e alla fine di un segnale audio.
  • Per tutti i segmenti, erano presenti e riempiti i seguenti oggetti, ad esempio ora di inizio, ora di fine, ID segmento, livello di intensità sonora (alto, normale, basso), tipo di suono principale (parlato, balbettio, musica, rumore, sovrapposizione), codice lingua ID oratore, trascrizione ecc.

3. Controllo qualità e feedback

  • Tutte le registrazioni sono state valutate per la qualità e sono state consegnate solo registrazioni vocali convalidate con WER del 90% e TER del 90%
  • Lista di controllo della qualità seguita:
       » Max 15 secondi di lunghezza del segmento
       » Trascrizione da domini specifici, vale a dire: meteo, diversi tipi di notizie, salute, agricoltura, istruzione, lavoro o finanza
       » Basso rumore di fondo
       » Nessuna clip audio disattivata – Nessuna distorsione
       » Correggere la segmentazione audio per la trascrizione

4. Trascrizione dei dati
Tutte le parole pronunciate, comprese le esitazioni, le parole di riempimento, le false partenze e altri tic verbali, sono state catturate accuratamente nella trascrizione. Abbiamo anche seguito linee guida dettagliate per la trascrizione di lettere maiuscole e minuscole, ortografia, lettere maiuscole, abbreviazioni, contrazioni, numeri,
punteggiatura, acronimi, discorso disfluente, rumori non vocali ecc. Inoltre il flusso di lavoro seguito per la raccolta e la trascrizione è il seguente:

Risultato

I dati audio di alta qualità di esperti linguisti consentiranno all'Indian Institute of Technology - Madras di addestrare e costruire accuratamente modelli di riconoscimento vocale multilingue in 8 lingue indiane con dialetti diversi nel tempo stabilito. I modelli di riconoscimento vocale possono essere utilizzati per:

  • Superare la barriera linguistica per l'inclusione digitale collegando i cittadini alle iniziative nella propria lingua madre.
  • Promuove la governance digitale
  • Catalizzatore per formare un ecosistema per servizi e prodotti nelle lingue indiane
  • Contenuti digitali più localizzati nei settori di interesse pubblico, in particolare governance e politica
Golden-5 stelle

Siamo rimasti colpiti dall'esperienza di Shaip nello spazio AI conversazionale. La loro competenza complessiva nell'esecuzione del progetto dall'approvvigionamento, segmentazione, trascrizione e fornitura dei dati di formazione richiesti da linguisti esperti in 8 lingue entro tempistiche e linee guida rigorose; pur mantenendo lo standard accettabile di qualità.”

Accelera la tua IA conversazionale
sviluppo di applicazioni del 100%

Clienti in primo piano

Consentire ai team di creare prodotti di intelligenza artificiale leader a livello mondiale.