- Raccolta dei dati: La mia formazione è iniziata con una vasta gamma di testi su Internet. Tuttavia, dovrei notare che mentre sono stato addestrato su un ampio set di dati, non conosco i dettagli su quali documenti facevano parte di quel set di formazione o ho accesso a documenti o fonti specifici.
- Formazione iniziale (pre-formazione): È qui che ho imparato a prevedere la parola successiva in una frase. Non ho iniziato a conoscere l'inglese o qualsiasi altra lingua. Invece, prevedendo la parola successiva in milioni di frasi, ho gradualmente imparato a conoscere la grammatica, fatti sul mondo e alcune capacità di ragionamento. Tuttavia, questo significa anche che potrei aver imparato da informazioni distorte o errate poiché i dati non sono stati accuratamente filtrati.
- Ritocchi: Dopo la formazione iniziale, i miei creatori di OpenAI hanno fornito ulteriori indicazioni con un set di dati più specifico, generato con l'aiuto di revisori umani. Questi revisori seguono le linee guida per rivedere e valutare i possibili output del modello per una serie di input di esempio. Il processo di messa a punto è una sorta di dialogo tra il modello e i revisori che mi aiuta ad allinearmi meglio con i valori umani.
- Apprendimento continuo: Anche se non imparo dalle interazioni individuali per motivi di privacy, OpenAI collabora continuamente con un team di revisori umani per fornire feedback e apportare miglioramenti iterativi basati su modelli e approfondimenti più ampi.
- Esempio di pre-formazione: Supponiamo di avere la frase "Il gatto si è seduto sul __". Nella fase di pre-addestramento, il modello come me imparerebbe a prevedere la parola successiva nella frase, che potrebbe essere "mat", "tetto" o "albero". Questo viene appreso elaborando miliardi di frasi da diversi testi Internet, coinvolgendo indirettamente l'interazione umana quando gli esseri umani hanno creato il contenuto originale.
- Esempio di regolazione fine: Dopo la fase di pre-training, il modello entra nella fase di fine tuning. Ecco come potrebbe funzionare:
Al revisore umano viene assegnato il compito di rivedere i possibili output del modello per input come "Traduci il seguente testo inglese in francese: 'Ciao, come stai?'". Il modello potrebbe generare diverse risposte come "Bonjour, comment ça va?" o "Salut, comment vas-tu?" eccetera.
Il revisore valuta queste risposte in base a fattori quali accuratezza, fluidità e adeguatezza. Queste valutazioni aiutano il modello a generalizzare e rispondere a input simili in futuro.
Ricorda, gli esempi forniti qui sono semplificati per illustrare il processo. L'addestramento vero e proprio coinvolge algoritmi complessi e grandi quantità di dati.
- Varietà di dati: Non si tratta solo del volume dei dati, ma anche della varietà. I dati devono essere diversificati per coprire un'ampia gamma di argomenti, stili e toni che si trovano nel linguaggio umano.
- Qualità dei dati: La qualità dei dati utilizzati per l'addestramento può anche influenzare l'efficacia con cui il modello apprende. Dati di migliore qualità possono potenzialmente ridurre il volume richiesto per una formazione efficace.
- Architettura del modello: Anche l'architettura del modello (come il numero di livelli o parametri nella rete neurale) può influire sulla quantità di dati necessari. I modelli più grandi, come GPT-3 o GPT-4, in genere richiedono più dati rispetto ai modelli più piccoli.
- Obiettivi di allenamento: Il tipo di attività che il modello deve eseguire può influenzare la quantità di dati necessari. Un modello progettato per un'attività specifica potrebbe richiedere meno dati se ben mirato, mentre un modello generico come GPT-3 o GPT-4, progettato per gestire un'ampia gamma di attività, richiederà più dati per una comprensione più ampia.
Nel caso di GPT-3, ad esempio, il modello ha 175 miliardi di parametri ed è stato addestrato su centinaia di gigabyte di testo. Ma queste cifre non colgono appieno la complessità del processo. Le specifiche del processo di formazione, inclusa l'esatta quantità di dati utilizzati, sono dettagli proprietari detenuti da OpenAI e organizzazioni simili.
- Inizia piccolo: Soprattutto per problemi semplici o prototipi di modelli iniziali, un set di dati più piccolo può essere adeguato. Ad esempio, se stai costruendo un classificatore di immagini di base, potresti iniziare con poche centinaia o migliaia di immagini per categoria.
- Considera la complessità: Problemi più complessi in genere richiedono più dati. Se stai sviluppando un modello di deep learning o stai lavorando con un problema complesso come l'elaborazione del linguaggio naturale, potresti aver bisogno di milioni di punti dati.
- Qualità più che quantità: Dati rilevanti e di qualità possono spesso essere più vantaggiosi di una quantità enorme di dati di scarsa qualità. Garantire che i tuoi dati siano adeguatamente puliti, annotati e rappresentativi del problema che stai cercando di risolvere è fondamentale.
- Bilancia le tue classi: Per le attività di apprendimento supervisionato, assicurati di avere un buon equilibrio di esempi per ogni classe. Un set di dati squilibrato può portare a un modello che funziona male su classi sottorappresentate.
- Utilizzare set di convalida e test: Parte del set di dati deve essere riservata per la convalida (ottimizzazione dei parametri del modello) e il test (valutazione delle prestazioni del modello). Le suddivisioni comuni potrebbero essere il 70% dei dati per la formazione, il 15% per la convalida e il 15% per i test, sebbene queste proporzioni possano variare.
- Sperimenta e ripeti: Inizia con una quantità iniziale di dati, addestra il tuo modello, valuta le sue prestazioni e aggiungi iterativamente più dati, modifica il tuo modello o migliora la qualità dei dati in base ai risultati.
Ricorda, più dati in genere migliorano le prestazioni dei modelli di machine learning, ma solo fino a un certo punto. Dopo un certo punto, la raccolta di più dati potrebbe richiedere più tempo e denaro del suo valore e potrebbe essere più vantaggioso concentrarsi sul miglioramento della qualità dei dati o sul perfezionamento dell'architettura del modello.
- Pre-allenamento: In questa fase, il modello è esposto a una grande quantità di dati di testo Internet. Questi dati non sono annotati in modo esplicito, ma il modello viene addestrato per prevedere la parola successiva in una frase. Ciò fornisce al modello una comprensione generale della grammatica, dei fatti sul mondo e alcune capacità di ragionamento.
- Ritocchi: Dopo il pre-addestramento, il modello viene ulteriormente perfezionato su un set di dati più ristretto generato con l'aiuto di revisori umani. Questi revisori seguono le linee guida di OpenAI per esaminare e valutare i possibili output del modello per una serie di input. In questo senso, il processo di messa a punto può essere visto come una forma di annotazione, in cui i revisori umani guidano le risposte del modello, aiutandolo ad allinearsi meglio con i valori umani e assicurando che eviti contenuti inappropriati o non sicuri.
Pertanto, mentre il set di dati iniziale utilizzato per il pre-addestramento non è annotato nel senso tradizionale, il processo di messa a punto comporta una forma di annotazione, in cui i revisori umani guidano il comportamento del modello valutando diversi output.
Correttezza: I revisori valutano se l'output del modello è effettivamente corretto.
Esempio:
Adeguatezza: L'output del modello viene valutato per la sua adeguatezza in relazione all'input dato.
Esempio:
Sicurezza: Gli output vengono esaminati per garantire che non includano istruzioni dannose o linguaggio offensivo.
Esempio:
Completezza: Questo valuta se la risposta del modello risponde completamente alla query dell'utente.
Esempio:
Fluidità: I revisori controllano se l'output del modello è linguisticamente fluido e coerente.
Esempio:
Queste categorie sono solo esempi. L'effettivo processo di messa a punto comporta un sistema di valutazione più complesso e un feedback continuo tra i revisori e il team di sviluppo dell'IA. L'obiettivo di queste annotazioni è rendere le risposte del modello più utili, sicure e in linea con i valori umani.
OpenAI, l'organizzazione dietro ChatGPT, non rivela pubblicamente il numero esatto di revisori coinvolti nel processo di messa a punto. Tuttavia, data la portata e la complessità dell'addestramento di un modello linguistico così ampio, è lecito affermare che il processo coinvolge probabilmente un team consistente di revisori.
Questi revisori umani seguono le linee guida fornite da OpenAI per esaminare e valutare i possibili risultati del modello. È un processo continuo e iterativo in cui il feedback dei revisori viene utilizzato per migliorare e perfezionare il modello nel tempo. OpenAI mantiene un forte ciclo di feedback con i revisori, inclusi incontri settimanali per rispondere a domande e fornire chiarimenti.
- Complessità del compito: Attività semplici come l'etichettatura delle immagini o la categorizzazione del testo richiederebbero meno tempo per PDF, consentendo a un singolo annotatore di gestire più file. D'altra parte, attività complesse come l'estrazione di entità dettagliate o l'analisi semantica richiederebbero più tempo per documento, e quindi più annotatori per lo stesso volume di PDF.
- Lunghezza e complessità dei PDF: Un PDF più lungo o più complesso richiederà più tempo per annotare rispetto a uno più breve o più semplice.
- Requisiti di qualità: Se è richiesta un'elevata precisione, potrebbe essere necessario disporre di più annotatori per PDF per la verifica incrociata delle annotazioni.
- Vincoli di tempo: Se le annotazioni devono essere completate rapidamente, sarebbero necessari più annotatori.
Come esempio ipotetico, supponiamo che un annotatore possa annotare 5 PDF al giorno per un'attività particolare e lavori 5 giorni alla settimana. In questo caso, per annotare 10,000 PDF, un singolo annotatore avrebbe bisogno di 2000 giorni, ovvero circa 8 anni.
Tuttavia, se avessi un team di 20 annotatori, potrebbero completare l'attività in circa 5 mesi (presupponendo 20 giorni lavorativi al mese). Con 100 annotatori, lo stesso compito potrebbe essere completato in circa un mese.
Ricorda, questi numeri sono puramente illustrativi e la velocità effettiva di annotazione dipenderebbe dai fattori sopra menzionati. Inoltre, un'adeguata formazione degli annotatori e un controllo di qualità coerente sono fondamentali per il successo di qualsiasi progetto di annotazione su larga scala.