Definizione
L'intelligenza artificiale multimodale combina ed elabora dati provenienti da più modalità, come testo, immagini, audio o video, per generare output o previsioni.
Missione
L'obiettivo è costruire sistemi che comprendano le informazioni in modo più simile agli esseri umani, integrando più sensi. Viene utilizzato in ambito sanitario, robotico e nei sistemi conversazionali.
Importanza
- Espande le capacità oltre l'IA monomodale.
- Consente un'interazione più ricca tra uomo e intelligenza artificiale.
- Richiede architetture avanzate per la fusione di dati diversi.
- Aumenta la complessità nella formazione e nella valutazione.
Come funziona
- Raccogliere set di dati multimodali con input allineati (ad esempio, testo + immagini).
- Codificare ciascuna modalità in rappresentazioni vettoriali.
- Utilizzare tecniche di fusione per combinare le modalità.
- Addestrare modelli per apprendere relazioni intermodali.
- Generare output attraverso una o più modalità.
Esempi (mondo reale)
- CLIP (OpenAI): collega immagini e testo per la ricerca.
- Google Gemini: modello multimodale per la gestione di testo, immagini e audio.
- Sistemi di didascalia delle immagini: generano descrizioni testuali dalle foto.
Riferimenti / Ulteriori letture
- Baltrušaitis et al. “Apprendimento automatico multimodale: un sondaggio”. IEEE TPAMI.
- OpenAI CLIP Paper.
- Stanford HAI: ricerca multimodale sull'intelligenza artificiale.
- Come funziona l'intelligenza artificiale multimodale
