Definizione
I dati di addestramento dell'IA sono il set di dati etichettato utilizzato per insegnare ai modelli di apprendimento automatico come identificare pattern e generare previsioni. Rappresentano la "verità di base" in base alla quale i modelli regolano i propri parametri interni.
Missione
Lo scopo è fornire esempi che guidino gli algoritmi nell'apprendimento delle relazioni statistiche. Permette ai modelli di generalizzare dagli esempi a dati non ancora osservati.
Importanza
- La qualità dei dati di addestramento ha un impatto diretto sulla precisione del modello.
- Dati distorti o sbilanciati producono modelli ingiusti o inaffidabili.
- Set di dati sufficientemente grandi migliorano la generalizzazione.
- La perdita di dati di addestramento nei set di test compromette le valutazioni.
Come funziona
- Definire l'attività di previsione e i requisiti del set di dati.
- Raccogliere dati grezzi rilevanti.
- Etichettare o annotare i dati con i risultati corretti.
- Suddiviso in set di addestramento, convalida e test.
- Addestrare il modello per regolare i pesi in base ai dati di addestramento.
Esempi (mondo reale)
- Set di dati COCO: immagini annotate per il rilevamento e la segmentazione.
- Common Crawl: dataset di testo web su larga scala per la pre-formazione degli LLM.
- LibriSpeech: set di dati vocali per l'addestramento ASR.
Riferimenti / Ulteriori letture
- Dati di addestramento per l'apprendimento automatico — IBM Research.
- ISO/IEC 23053: Framework per sistemi di intelligenza artificiale che utilizzano ML — ISO.
- Quadro di gestione del rischio dell'intelligenza artificiale del NIST — NIST.
- Cosa sono i dati di addestramento nell'apprendimento automatico – Shaip