In un paese culturalmente diversificato e linguisticamente ricco come l'India, la creazione di un'intelligenza artificiale inclusiva inizia con la raccolta di set di dati rappresentativi e di alta qualità. Questa è la visione alla base. Progetto Vaani—un'iniziativa open source su larga scala guidata da PARCO D'ARTE, IISc Bengalurue Google, con l'obiettivo di dare voce a ogni lingua e dialetto indiano.
L'obiettivo ambizioso? Raccogliere Oltre 150,000 ore di discorso Oltre 15,000 ore di trascrizioni da 1 milione di persone operanti in 773 distretti of India).
In qualità di uno dei principali fornitori di questa missione nazionale, Saip ha svolto un ruolo fondamentale nella cura dei dati vocali spontanei, nella trascrizione e nella raccolta di metadati, gettando le basi per tecnologie vocali eque che rappresentano davvero la vera India.
La visione dietro il progetto Vaani
Il progetto Vaani è progettato per colmare il divario di inclusione dell'IA creando l' il più grande set di dati multimodale, multilingue e open source in India. Questi dati sono fondamentali per lo sviluppo di sistemi accurati di riconoscimento vocale, traduzione e intelligenza artificiale generativa nelle lingue native indiane, molte delle quali sono sottorappresentate negli ecosistemi tecnologici globali.
La visione a lungo termine è quella di potenziare applicazioni di impatto in:
- Settore Sanitario – Telemedicina basata sulla voce
- Formazione – Piattaforme di apprendimento vernacolari
- Governance LPI – Interfacce conversazionali per i servizi al cittadino
- Accessibilità – Strumenti vocali per utenti diversamente abili
- Risposta al disastro – Comunicazione in tempo reale nei dialetti locali
Come Shaip ha contribuito a creare il più grande set di dati vocali open source dell'India per il progetto Vaani
A Shaip fu affidata la raccolta di 8,000 ore di discorso spontaneo 800 ore di trascrizioni verificate manualmenteLe nostre responsabilità comprendevano l'inserimento degli oratori, l'acquisizione audio, l'etichettatura dei metadati, il coordinamento della trascrizione e il controllo qualità.
8,000 ore di dati audio spontanei
Registrazioni da Oltre 400 madrelingua per distretto, che rappresentano diversi gruppi di età, generi e dialetti
80 distretti, coperto
Prompt basato sulle immagini per garantire discorso naturale e contestualizzato
Ecco cosa rende unico il nostro approccio:
Diversità a livello distrettuale
Abbiamo reperito registrazioni da 80 distretti distribuiti in stati come Bihar, Uttar Pradesh, Karnataka, Bengala Occidentale e Maharashtra. Ogni distretto ha contribuito con 100 ore di dati audio, garantendo l'equilibrio regionale. Abbiamo coinvolto madrelingua, garantendo la rappresentazione di accenti e dialetti regionali spesso trascurati nei dataset di intelligenza artificiale più diffusi.
Rappresentazione linguistica e demografica
Abbiamo reperito registrazioni da 80 distretti distribuiti in stati come Bihar, Uttar Pradesh, Karnataka, Bengala Occidentale e Maharashtra. Ogni distretto ha contribuito con 100 ore di dati audio, garantendo l'equilibrio regionale. Abbiamo coinvolto madrelingua, garantendo la rappresentazione di accenti e dialetti regionali spesso trascurati nei dataset di intelligenza artificiale più diffusi.
Discorso guidato dalle immagini
Per stimolare un vocabolario spontaneo e naturale, ai partecipanti sono state mostrate 45-90 immagini per sessione, chiedendo loro di descriverle. È stato chiesto loro di utilizzare immagini diverse, che spaziavano da simboli culturali a oggetti di uso quotidiano, per suscitare risposte naturali e spontanee nella loro lingua madre. Questo ha garantito che le registrazioni riflettessero il linguaggio reale e contestualizzato, essenziale per l'addestramento di sistemi avanzati di PNL.
Standard di trascrizione di alta qualità
È stato trascritto solo il 10% dei dati vocali, per un totale di 800 ore. Le trascrizioni sono state eseguite da linguisti locali entro un raggio di 20-50 km dal parlante, garantendo la familiarità con dialetti e sfumature. Un controllo di secondo livello ha garantito un tasso di errore di parola (WER) inferiore al 5%.
Garanzia di qualità rigorosa
I dati audio dovevano soddisfare requisiti elevati: assenza di rumori di fondo, echi, vibrazioni del telefono o distorsioni. L'audio è stato registrato in ambienti silenziosi e privi di eco. I file sono stati sottoposti a una rigorosa revisione per soddisfare le linee guida relative a chiarezza vocale, livelli di rumore, accuratezza dei metadati e verifica dell'altoparlante. Il tagging dei metadati doveva essere accurato in tutti i file e tutte le registrazioni sono state controllate per verificare l'allineamento dell'altoparlante e della posizione.
Sfide che abbiamo risolto
- Logistica remota – Gestione di team in 80 distretti
- Diversità degli oratori – Inserimento di oltre 32,000 relatori verificati in località remote
- Sensibilità culturale – Rispettare le usanze e i dialetti locali
- Integrità dei dati – Rispetto degli standard di qualità e conformità
- Controllo di qualità – in molteplici contesti linguistici e culturali
Il nostro successo è dovuto a una pianificazione meticolosa, alla convalida basata sulla tecnologia e alle partnership con team locali che comprendevano le sfumature culturali di ogni regione.
Impatto e applicazioni
Il contributo di Shaip non solo ha accelerato i progressi del Progetto Vaani, ma ha anche gettato le basi per un'intelligenza artificiale inclusiva in India. Il set di dati vocali curato è già utilizzato per costruire e perfezionare modelli di intelligenza artificiale per:
- Assistenti vocali vernacolari
- Motori di traduzione regionali
- Strumenti di comunicazione accessibili per ipovedenti
- Piattaforme edtech basate sull'intelligenza artificiale per studenti rurali
- Telemedicina rurale
- Servizi ai cittadini basati sulla voce
- Traduzione e trascrizione in tempo reale
Conclusione
Il progetto Vaani rappresenta un passo coraggioso verso un'intelligenza artificiale inclusiva e accessibile, e Shaip è onorato di svolgere un ruolo fondamentale. Il lavoro di Shaip sul Progetto Vaani ribadisce il nostro impegno nel creare sistemi di intelligenza artificiale etici e inclusivi, basati sulla diversità e sulla rappresentanza. Con oltre 8,000 ore di discorsi raccolti e 800 ore trascritte, siamo orgogliosi di aver contribuito a uno dei progetti di inclusione digitale più lungimiranti dell'India.
Mentre il Progetto Vaani prosegue verso il suo obiettivo più ampio di oltre 150,000 ore di dati, siamo pronti a supportare la prossima frontiera dell'innovazione dell'intelligenza artificiale che parla a – e per – ogni indiano.
Vuoi collaborare con noi per sviluppare un'intelligenza artificiale che comprenda il mondo reale? www.shaip.com