Shaip fa ora parte dell'ecosistema Ubiquity: lo stesso team, ora supportato da risorse più ampie per supportare i clienti su larga scala. |
Progetto Vaani

Progetto Vaani: il ruolo di Shaip nel plasmare l'intelligenza artificiale multilingue per l'India

In un paese culturalmente diversificato e linguisticamente ricco come l'India, la creazione di un'intelligenza artificiale inclusiva inizia con la raccolta di set di dati rappresentativi e di alta qualità. Questa è la visione alla base. Progetto Vaani—un'iniziativa open source su larga scala guidata da PARCO D'ARTE, IISc Bengalurue Google, con l'obiettivo di dare voce a ogni lingua e dialetto indiano.

L'obiettivo ambizioso? Raccogliere Oltre 150,000 ore di discorso Oltre 15,000 ore di trascrizioni da 1 milione di persone operanti in 773 distretti of India).

In qualità di uno dei principali fornitori di questa missione nazionale, Saip ha svolto un ruolo fondamentale nella cura dei dati vocali spontanei, nella trascrizione e nella raccolta di metadati, gettando le basi per tecnologie vocali eque che rappresentano davvero la vera India.

La visione dietro il progetto Vaani

Il progetto Vaani è progettato per colmare il divario di inclusione dell'IA creando l' il più grande set di dati multimodale, multilingue e open source in India. Questi dati sono fondamentali per lo sviluppo di sistemi accurati di riconoscimento vocale, traduzione e intelligenza artificiale generativa nelle lingue native indiane, molte delle quali sono sottorappresentate negli ecosistemi tecnologici globali.

La visione a lungo termine è quella di potenziare applicazioni di impatto in:

Come Shaip ha contribuito a creare il più grande set di dati vocali open source dell'India per il progetto Vaani

A Shaip fu affidata la raccolta di 8,000 ore di discorso spontaneo 800 ore di trascrizioni verificate manualmenteLe nostre responsabilità comprendevano l'inserimento degli oratori, l'acquisizione audio, l'etichettatura dei metadati, il coordinamento della trascrizione e il controllo qualità.

8,000 ore di dati audio spontanei

800 ore di trascrizioni manuali di alta qualità

Registrazioni da Oltre 400 madrelingua per distretto, che rappresentano diversi gruppi di età, generi e dialetti

80 distretti, coperto

Prompt basato sulle immagini per garantire discorso naturale e contestualizzato

Ecco cosa rende unico il nostro approccio:

Diversità a livello distrettuale

Diversità a livello distrettuale

Abbiamo reperito registrazioni da 80 distretti distribuiti in stati come Bihar, Uttar Pradesh, Karnataka, Bengala Occidentale e Maharashtra. Ogni distretto ha contribuito con 100 ore di dati audio, garantendo l'equilibrio regionale. Abbiamo coinvolto madrelingua, garantendo la rappresentazione di accenti e dialetti regionali spesso trascurati nei dataset di intelligenza artificiale più diffusi.

Rappresentazione linguistica e demografica

Rappresentazione linguistica e demografica

Abbiamo reperito registrazioni da 80 distretti distribuiti in stati come Bihar, Uttar Pradesh, Karnataka, Bengala Occidentale e Maharashtra. Ogni distretto ha contribuito con 100 ore di dati audio, garantendo l'equilibrio regionale. Abbiamo coinvolto madrelingua, garantendo la rappresentazione di accenti e dialetti regionali spesso trascurati nei dataset di intelligenza artificiale più diffusi.

Discorso guidato dalle immagini

Per stimolare un vocabolario spontaneo e naturale, ai partecipanti sono state mostrate 45-90 immagini per sessione, chiedendo loro di descriverle. È stato chiesto loro di utilizzare immagini diverse, che spaziavano da simboli culturali a oggetti di uso quotidiano, per suscitare risposte naturali e spontanee nella loro lingua madre. Questo ha garantito che le registrazioni riflettessero il linguaggio reale e contestualizzato, essenziale per l'addestramento di sistemi avanzati di PNL.

Standard di trascrizione di alta qualità

Standard di trascrizione di alta qualità

È stato trascritto solo il 10% dei dati vocali, per un totale di 800 ore. Le trascrizioni sono state eseguite da linguisti locali entro un raggio di 20-50 km dal parlante, garantendo la familiarità con dialetti e sfumature. Un controllo di secondo livello ha garantito un tasso di errore di parola (WER) inferiore al 5%.

Garanzia di qualità rigorosa

I dati audio dovevano soddisfare requisiti elevati: assenza di rumori di fondo, echi, vibrazioni del telefono o distorsioni. L'audio è stato registrato in ambienti silenziosi e privi di eco. I file sono stati sottoposti a una rigorosa revisione per soddisfare le linee guida relative a chiarezza vocale, livelli di rumore, accuratezza dei metadati e verifica dell'altoparlante. Il tagging dei metadati doveva essere accurato in tutti i file e tutte le registrazioni sono state controllate per verificare l'allineamento dell'altoparlante e della posizione.

Sfide che abbiamo risolto

Il nostro successo è dovuto a una pianificazione meticolosa, alla convalida basata sulla tecnologia e alle partnership con team locali che comprendevano le sfumature culturali di ogni regione.

Impatto e applicazioni

Il contributo di Shaip non solo ha accelerato i progressi del Progetto Vaani, ma ha anche gettato le basi per un'intelligenza artificiale inclusiva in India. Il set di dati vocali curato è già utilizzato per costruire e perfezionare modelli di intelligenza artificiale per:

  • Assistenti vocali vernacolari
  • Motori di traduzione regionali
  • Strumenti di comunicazione accessibili per ipovedenti
  • Piattaforme edtech basate sull'intelligenza artificiale per studenti rurali
  • Telemedicina rurale
  • Servizi ai cittadini basati sulla voce
  • Traduzione e trascrizione in tempo reale

Conclusione

Il progetto Vaani rappresenta un passo coraggioso verso un'intelligenza artificiale inclusiva e accessibile, e Shaip è onorato di svolgere un ruolo fondamentale. Il lavoro di Shaip sul Progetto Vaani ribadisce il nostro impegno nel creare sistemi di intelligenza artificiale etici e inclusivi, basati sulla diversità e sulla rappresentanza. Con oltre 8,000 ore di discorsi raccolti e 800 ore trascritte, siamo orgogliosi di aver contribuito a uno dei progetti di inclusione digitale più lungimiranti dell'India.

Mentre il Progetto Vaani prosegue verso il suo obiettivo più ampio di oltre 150,000 ore di dati, siamo pronti a supportare la prossima frontiera dell'innovazione dell'intelligenza artificiale che parla a – e per – ogni indiano.

Vuoi collaborare con noi per sviluppare un'intelligenza artificiale che comprenda il mondo reale? www.shaip.com

Share sociale