La crescente diffusione dell’Intelligenza Artificiale Generativa (IAG) mette a disposizione modelli sempre più sofisticati, accessibili attraverso piattaforme diffuse come ChatGPT, Bard e Mid Journey. Tuttavia, l’abbondanza di dati su cui si basano queste applicazioni solleva questioni importanti.
AI generativa fondata sui modelli linguistici LLM
L’IA generativa si fonda su modelli linguistici denominati Large Language Model (LLM) i quali operano attraverso prompt definiti in linguaggio naturale. Questi algoritmi producono risultati su base statistica e, ad ogni iterazione, tendono a eliminare progressivamente ogni evento poco probabile, secondo una moltitudine di parametri forniti. Gli algoritmi di deep learning sono addestrati su dati forniti in input dall’utente o ricavati anche da fonti online. E se i dati contengono errori o bias, gli algoritmi non faranno altro che riprodurli fornendo risultati “alterati”.
È essenziale quindi analizzare l’IA generativa considerando anche la qualità dei dati di addestramento.
L’utilizzo di queste tecnologie in contesti professionali implica l’adozione di processi di Data Governance e Data Quality per verificare e certificare le fonti dati utilizzate, riducendo così la possibilità di analisi non coerenti con la realtà e di risultati non utilizzabili per decisioni aziendali.
IA generativa e l’utilizzo di modelli LLM
La natura stessa della IA generativa può portare ad una proliferazione di contenuti che potrebbe inquinare il modello stesso su cui si basano questi algoritmi. Questa condizione, denominata artificial intelligence model collapse, introduce un ulteriore rischio quando i modelli addestrati si degradano e perdono la capacità di generare contenuti creativi, producendo cioè una gamma limitata di risultati, spesso con conseguente scarsa qualità dei dati generati.
Questo fenomeno è amplificato quando gli algoritmi di IA generativa si auto-addestrano utilizzando i risultati, alterando i dataset utilizzati dalle prossime generazioni di modelli e producendo una rappresentazione distorta dei fenomeni. Inoltre, fenomeni meno probabili ma rappresentativi della realtà possono essere esclusi dall’analisi a causa della natura statistica dei risultati.
La questione è molto rilevante, in quanto assume sempre maggiore importanza definire attentamente i parametri dell’IA generativa e la capacità del sistema di apprendere dai nuovi dati forniti.
Recentemente sono stati rilasciati diversi LLM che sono stati definiti “open source”, quali ad esempio Llama di Meta e Mixtral di Mistral, ma che in realtà sono più correttamente “open weights”. Infatti, un modello open source prevede che sia reso disponibile con il codice sorgente utilizzato per addestrarlo, mentre per un modello open weights sono disponibili all’uso e alla modifica i pesi utilizzati per l’addestramento, che rappresentano la modalità con cui la conoscenza è appresa dalla rete neurale sottostante. Quindi l’utilizzo di un modello open weights, senza il codice sorgente, i dettagli dell’architettura e la metodologia di addestramento, comporta una limitazione nel suo addestramento e nella personalizzazione per scopi specifici, mentre un modello open source, sebbene possa richiedere un impegno e risorse maggiori, offre la possibilità di essere adattato allineandolo alle reali esigenze. In questo contesto Apple ha rilasciato il suo LLM chiamato OpenELM con il proprio codice di addestramento e il codice di inferenza utilizzato che lo rende più adattabile alle strategie di utilizzo dell’IA.
Introdurre l’utilizzo di modelli LLM in un’organizzazione implica, quindi, la necessità di scegliere il giusto modello per l’obiettivo specifico definito e in base alle competenze necessarie per il suo adattamento, circoscrivendo puntualmente l’ambito di utilizzo e le modalità di addestramento, selezionando e strutturando opportunamente i dati in input applicando i più significativi processi di Data Quality.
Planetica con la sua esperienza pluriennale in ambito Data Governance, può supportare le organizzazioni nello sviluppo del proprio business definendo le linee guida per l’utilizzo dei modelli LLM, definendo i processi a garanzia della qualità dei dati utilizzati per l’addestramento ed interpretando i risultati ottenuti perché siano coerenti ed efficaci nel raggiungimento degli obiettivi definiti, limitando i rischi connessi ad una falsa rappresentazione dei fenomeni che si vogliono analizzare.