Entro il 2026 non avremo dati sufficienti per addestrare l’intelligenza artificiale

Tempo di lettura: 2 minuti

L’intelligenza artificiale è diventata parte integrante della nostra vita, in un modo o nell’altro. Tuttavia, l’ascesa di diverse intelligenze artificiali generative ha suscitato qualche preoccupazione tra i ricercatori: i dati necessari per addestrare le intelligenze artificiali potrebbero esaurirsi più velocemente di quanto pensiamo.

L’addestramento degli algoritmi che fungono da base per l’intelligenza artificiale generativa richiede una grande quantità di dati. Inoltre, è importante che questi dati siano di alta qualità per migliorare anche la qualità delle risposte. Ad esempio, ChatGPT è stato addestrato su 570 gigabyte di testo, ovvero circa 300 miliardi di parole. Lo stesso vale per gli algoritmi che generano immagini come DALL-E, addestrati su quasi 6 miliardi di coppie testo-immagine. In sintesi: per avere intelligenze artificiali veramente utili nella vita di tutti i giorni è necessaria una notevole quantità di testo per addestrarle.

Il problema è che questi dati devono essere di alta qualità. Per capire il perché basta porsi una domanda: vogliamo davvero che ChatGPT sia addestrato su tutti i post social che vediamo ogni giorno? Potremmo rischiare che Microsoft riceva risposte razziste da un’intelligenza artificiale generativa addestrata sui contenuti di Twitter. I dati devono quindi essere di alta qualità, ed è qui che sorge il secondo problema: non ce ne sono abbastanza. Secondo alcuni ricercatori del MIT, infatti, i dati testuali di alta qualità potrebbero esaurirsi entro il 2026. Dopo di che?

L’allarme lanciato sulla disponibilità di dati per addestrare le intelligenze artificiali è al momento semplicemente un avvertimento. Gli sviluppatori potrebbero ottimizzare gli algoritmi e quindi creare un’intelligenza artificiale generativa che:

possa utilizzare meglio i dati esistenti;
sia in grado di imparare da meno dati;
ridurre l’impronta di carbonio richiesta.

Questa alternativa, tuttavia, è piena di variabili. Un’altra opzione sarebbe quella di concludere un accordo con i principali editori per l’accesso gratuito all’intelligenza artificiale ai nuovi libri e al patrimonio letterario esistente. Esiste infine una soluzione di cui ancora si parla poco: addestrare l’intelligenza artificiale con dati sintetici, cioè prodotti dall’intelligenza artificiale.

Ci sono aziende che stanno affrontando la carenza di dati in modo “creativo”, producendo dati sintetici per addestrare l’intelligenza artificiale. Alcuni esempi di questo approccio sono Mostly AI e Clearbox AI, che addestrano le IA con i dati prodotti da altre IA. Si tratta di algoritmi basati su tecnologia proprietaria che rappresentano simulazioni matematiche di situazioni del mondo reale. I dati sintetici preservano la privacy individuale e riducono i costi associati all’accesso ai dati sensibili.

D’altro canto, i sostenitori dei dati sintetici sottolineano il fattore privacy, nonché la carenza di dati reali di alta qualità. Utilizzando i dati creati dall’intelligenza artificiale, questi problemi possono essere risolti e si possono addestrare modelli generativi, a seconda delle intenzioni delle aziende. Forse rimane solo un dilemma: su quali dati sono state addestrate le IA che hanno prodotto i dati con cui addestrare le IA addestrate?