Dalla macchina di Turing all’AI generativa

Breve cronistoria dell’Intelligenza Artificiale.

Lucrezia Orlandini, PwC 30 Luglio 2024

argomenti trattati: Intelligenza artificiale.

L’Intelligenza Artificiale (AI) a oggi costituisce una delle più grandi frontiere della scienza e della tecnologia moderna permeando in modo sempre più concreto vari aspetti della vita umana e dell’economia. L’AI, da semplici algoritmi alla più recente AI generativa, rappresenta sistemi informatici in grado di svolgere compiti che normalmente richiederebbero l’intelligenza umana, comprendendo abilità come apprendimento, ragionamento, comprensione e generazione di linguaggio naturale, riconoscimento di pattern e di immagini.

I Fondamenti dell’AI

Le radici dell’Intelligenza Artificiale possono essere attribuite al XIX secolo con i primi tentativi di formalizzazione del ragionamento umano in algoritmi, attraverso la logica e la matematica, che sono le basi del processo computazionale. Nel XX secolo, figure come Ada Lovelace e Alan Turing gettarono le basi teoriche per l’AI. Lovelace, nel 1843, intuì il potenziale delle macchine di calcolo per compiti che non si limitavano alla manipolazione dei numeri, mentre Turing, nel 1950, scrisse un articolo intitolato “Computing machinery and intelligence”, in cui proponeva quello che sarebbe divenuto noto come test di Turing: esperimento che valuta la capacità di una macchina di esibire comportamenti intelligenti pari o indistinguibili da quelli di un umano.

L’Età dell’Entusiasmo: Fondamenti e Sogni Negli Anni ‘50 e ‘60

Tale lavoro destò subito molto interesse nella comunità scientifica permettendo così di richiamare forti investimenti e, anche per questo motivo, gli anni ‘50 e ‘60 hanno visto un’esplosione di interesse nell’AI. Uno dei successi significativi è stato il Logic Theorist, un programma sviluppato da Allen Newell e Herbert Simon nel 1956, progettato per eseguire il ragionamento automatico e descritto come “il primo programma di Intelligenza Artificiale”. Parallelamente, è emersa la necessità di linguaggi di programmazione dedicati all’AI, come Lisp, introdotto nello stesso periodo.

Nel 1958, ispirati dall’entusiasmo crescente e dagli investimenti in campo tecnologico, venne sviluppato il primo modello di Artificial Neural Network: un singolo neurone che riceve un set di variabili o caratteristiche e come input e genera un output binario. Questo innovativo algoritmo, ispirato ai neuroni biologici, fu denominato Perceptron e introdotto da Frank Resenblatt. Con esso, si compì un significativo passo avanti e ci si augurava di assistere presto a una nuova rivoluzione tecnologica basata sull’AI. Tuttavia, tale prospettiva non si concretizzò come previsto. Nonostante i risultati promettenti ottenuti nei primi test, il Perceptron non riuscì mai a risolvere con successo problemi di maggiore complessità. Le sue capacità si dimostrarono limitate e distanti dall’ideale di creare un’intelligenza artificiale avanzata e il campo dell’AI cominciò a subire un declino.

I Decenni di Sfide: ‘70 e ‘80

Durante gli anni ‘70 e ‘80, noti come “inverno dell’Intelligenza Artificiale” per la riduzione dei finanziamenti e le sfide incontrate, soprattutto nella traduzione automatica e nella gestione della complessità dei problemi, un piccolo ma tenace gruppo di ricercatori continuò ad alimentare lo sviluppo della ricerca nell’ambito dell’AI. Questi pionieri, tra cui spiccano nomi come Marvin Minsky, John McCarthy e Herbert Simon, non si lasciarono scoraggiare dalle difficoltà e continuarono a lavorare instancabilmente per sviluppare e raffinare le fondamenta teoriche dell’AI.

Il primo inverno dell’AI trovò fine con l’introduzione dei “Sistemi Esperti”, che furono sviluppati e adottati rapidamente da aziende concorrenti in tutto il mondo. I sistemi esperti, anche se promettenti, avevano ancora molte limitazioni. Non erano in grado di gestire la complessità dei problemi più ampi e non potevano affrontare situazioni ambigue o in continua evoluzione come farebbe un essere umano esperto nel campo. Questi sistemi erano basati su regole esplicite e richiedevano una conoscenza dettagliata e specifica del dominio, che doveva essere acquisita e implementata manualmente da esperti umani. Inoltre, la mancanza di capacità di apprendimento e adattamento limitava ulteriormente le loro prestazioni e la loro applicabilità in contesti dinamici.

Uno dei momenti cruciali di questo periodo fu l’introduzione dell’algoritmo di Backpropagation nel 1974. Questa innovativa soluzione, che sfrutta la retroazione dell’errore nei processi di apprendimento, permise alle reti neurali di apprendere in modo più efficiente e apportò un enorme contributo alla loro capacità di estrarre conoscenze dai dati permettendo l’applicazione di tali modelli, che era stata solo timidamente iniziata con il Perceptron negli anni ‘50, su larga scala.

Dagli anni ’90 all’evoluzione del “Deep Learning”

Negli anni ‘90, con l’avvento di Internet e l’esplosione dei dati digitali, si è assistito a una rinascita dell’AI: i sistemi basati sull’apprendimento automatico iniziarono a superare i limiti dei loro predecessori. In particolare, nel 1997, Deep Blue, il supercomputer di IBM, sconfisse il campione mondiale di scacchi, Garry Kasparov, dimostrando il potenziale delle macchine nell’affrontare compiti complessi sfruttando capacità analitiche e strategiche. Deep Blue non solo valutava miliardi di posizioni di gioco al secondo, ma ha anche dimostrato l’abilità di adattarsi e apprendere dalle mosse del suo avversario umano durante la partita. Questo successo ha avuto un impatto significativo sulla percezione dell’AI e ha contribuito ad alimentare la ricerca. Il vero punto di svolta avvenne quando alcuni ricercatori, come Geoffrey Hinton, Yann LeCun e Yoshua Bengio, noti anche ironicamente come “deep learning conspiracy” e “Canadian AI Mafia” per la loro stretta collaborazione presso il CIFAR a Toronto, iniziarono a sviluppare modelli di reti neurali più complessi e profondi. Da qui venne coniato il termine “deep learning”. Tuttavia, quest’ultimo non decollò fino agli anni 2000, quando vennero resi disponibili, insieme a grandi quantità di dati, anche risorse di calcolo potenti come le GPU, necessari per il corretto funzionamento delle reti neurali a più livelli.

Furono inoltre introdotti nuovi algoritmi più evoluti, tra cui spiccano le Convolutional Neural Network (CNN) nel 1980 e le Recurrent Neural Network (RNN) nel 1982, che fornirono soluzioni avanzate per problemi specifici e su cui, fino ad allora, non si era stati in grado di ottenere risultati soddisfacenti. In particolare, le CNN sono particolarmente efficaci nel trattare dati strutturati in modo gerarchico, come le immagini, grazie alla loro capacità di rilevare pattern locali e gerarchici attraverso strati di convoluzione, pooling e completamente connessi. L’uso di CNN ha portato a risultati eccezionali nel riconoscimento di immagini, come dimostrato dalla vittoria nel 2012 del team di Hinton nell’ImageNet Challenge, che segnò un cambiamento significativo nel campo della computer vision. Le RNN, invece, sono progettate per gestire dati sequenziali, come il linguaggio naturale o il flusso temporale di dati. La caratteristica distintiva di tali reti è la loro capacità di mantenere una memoria a lungo termine delle informazioni precedenti attraverso cicli di feedback, consentendo loro di catturare le dipendenze temporali nei dati. Ciò le rende particolarmente adatte per una vasta gamma di compiti, tra cui la traduzione automatica, la generazione di testo, l’analisi temporale dei dati, il riconoscimento di pattern e la previsione sequenziale.

Come ulteriore step il lavoro di Hinton e del suo team nel 2006, introdusse il concetto di “deep belief networks” e il metodo di apprendimento supervisionato chiamato “greedy layer-wise pretraining” che coinvolge l’addestramento graduale e non supervisionato degli strati nascosti seguito da un fine-tuning supervisionato dell’intera rete. Questo approccio rese possibile l’addestramento efficiente delle reti neurali profonde, risolvendo il problema dell’inizializzazione dei pesi delle ANN, complicato dalla grande quantità di parametri e dalla complessità dell’ottimizzazione. Questa portò a una rapida crescita dell’uso del deep learning in numerosi settori, tra cui medicina, finanza, automazione industriale e veicoli autonomi, per citare solo alcuni esempi.

Come conseguenza di queste innovazioni, AlphaGo progettato da Google, nel 2016 sconfigge Fan Hui, un campione europeo di Go, un gioco da tavolo tradizionale cinese noto per la sua complessità strategica, diventando il primo programma di AI a battere un giocatore professionista in una partita completa.

L’avvento dei Transformers

Nei primi anni 2000 i modelli di AI per il linguaggio naturale si basavano principalmente su reti neurali ricorrenti (RNN) e sulle loro varianti più avanzate come le LSTM (Long Short-Term Memory), le quali, sebbene efficaci, presentavano problemi significativi nel gestire sequenze lunghe e nella parallelizzazione della fase di training. Il punto di svolta avvenne con la pubblicazione del paper “Attention is All You Need” di Vaswani et al. (2017), team di ricercatori di Google, i quali introdussero i Transformers: un’architettura radicalmente diversa basata interamente sul meccanismo di attenzione. Questo approccio ha eliminato la necessità di elaborare i dati in sequenza, permettendo al modello di analizzare l’intera frase contemporaneamente e migliorando drasticamente la capacità di gestione delle dipendenze a lungo termine. Il meccanismo di attenzione permette inoltre di pesare l’importanza di ogni parola in una frase rispetto alle altre. Questo è realizzato attraverso tre principali componenti: Query, Key e Value, che vengono utilizzate per calcolare un punteggio di attenzione per ogni parola.

Dal punto di vista architetturale i Transformers sono composti da encoder e decoder, ciascuno formato da più strati di attenzione e feed-forward. Gli encoder elaborano l’input, generando rappresentazioni che catturano il significato contestuale delle parole, mentre i decoder utilizzano queste rappresentazioni per generare l’output, parola per parola. La parallelizzazione, altro concetto chiave dei Transformers, conferisce loro una comprensione più globale e quindi più accurata dei testi e, inoltre, la possibilità di essere addestrati su set di dati estremamente ampi e costruiti con un numero di parametri significativamente maggiore rispetto alle architetture precedenti, li rende algoritmi più potenti e generalizzabili. Infatti, una caratteristica distintiva dei modelli basati su Transformers di oggi è la loro scala.

L’introduzione dei Transformers ha influenzato notevolmente diverse aree dell’Intelligenza Artificiale, superando il solo trattamento del linguaggio naturale. Oltre a essere efficaci in quest’ultimo (soprattutto in compiti di traduzione automatica, sintesi e comprensione del testo), infatti, i Transformers hanno trovato applicazioni di successo anche nella visione artificiale, nella biologia computazionale, inclusa la capacità di progettare proteine e acidi nucleici personalizzati che non sono mai esistiti in natura e nell’automazione industriale. Tra i modelli più noti basati su questa architettura ci sono BERT (Bidirectional Encoder Representations from Transformers), GPT (Generative Pre-trained Transformer) e T5 (Text-To-Text Transfer Transformer). BERT ha rivoluzionato il campo del Natural Language Understanding (NLU) grazie alla sua capacità di comprendere il contesto bidirezionale del linguaggio, rendendolo estremamente efficace in compiti come la comprensione del testo e il riconoscimento delle entità.

D’altra parte, i modelli GPT, con la loro capacità di generare testo coerente e contestualmente rilevante, hanno portato grande innovazione nel campo del Natural Language Generation (NLG). Modelli come GPT-3, LLama3, Gemini, e il più recente GPT-4o, sono in grado di produrre testi che sembrano scritti da esseri umani, aprendo nuove possibilità in settori che vanno dalla scrittura creativa alla customer service automation. T5 invece è un modello sviluppato da Google che tratta tutti i problemi di NLP come problemi di traduzione da testo a testo, migliorando la versatilità e l’efficienza.

L’adozione dei Transfomers non si è limitata solo al testo. Modelli come Midjourney e Stable Diffusion dimostrano come questa architettura possa essere applicata anche alla generazione di immagini, creando opere visive straordinarie e complesse a partire da semplici descrizioni testuali. Queste innovazioni non solo hanno ampliato gli orizzonti delle applicazioni dell’AI, ma hanno anche catalizzato un’ondata di entusiasmo e investimenti nel settore, spingendo lo studio e lo sviluppo a nuovi livelli. Anche la ricerca più avanzata sulla robotica e sui veicoli autonomi oggi si basa sui Transformers. Infatti, il lavoro più recente di Google sulla robotica è denominato RT-2, dove la T indica appunto la presenza dei Transformers.

L’esplosione della GENAI e dei LLM

L’esplosione dell’AI generativa (GENAI), a cui si stanno interessando i principali leader nel settore del Tech, può essere ricondotta all’introduzione reti neurali profonde, in particolare ai modelli generativi come le reti generative avversarie (GAN) e ai Transformers. Le GAN consistono in due reti neurali che competono tra loro: una generatrice e una discriminatrice. La rete generatrice crea nuovi dati, mentre la rete discriminatrice cerca di distinguere tra dati reali e generati. Questo processo iterativo migliora continuamente la qualità dei dati generati. Ogni grande modello e prodotto di AI di rilievo, come ChatGPT, GPT-4, LLama3, Midjourney, Stable Diffusion, GitHub Copilot, deve il suo successo a queste architetture.

Per AI generativa o Intelligenza Artificiale Generativa si intende una classe di algoritmi di intelligenza artificiale per la creazione di nuovi contenuti, come testo, immagini, musica, audio e video. A differenza dei sistemi di AI tradizionali, che sono generalmente programmati per risolvere problemi specifici, la GENAI ha la capacità di creare nuovi dati che non sono mai stati visti prima. Inoltre, con una fase di allenamento minima aggiuntiva, quelli che sono considerati ‘modelli base’ possono essere adattati per casi d’uso mirati con pochissimi dati di esempio.

I Large Language Models (LLM) sono una specifica implementazione di GENAI focalizzata sul linguaggio naturale. Questi modelli sono addestrati su enormi dataset di testo e sono in grado di comprendere, generare e tradurre linguaggio umano con un alto grado di precisione. L’addestramento di questi modelli richiede enormi quantità di dati e risorse computazionali, spesso realizzato su supercomputer. ChatGPT, per esempio, ha raggiunto 1 milione di utenti in soli 5 giorni dal lancio e ha raggiunto 100 milioni di utenti in soli due mesi. Questo successo ha democratizzato l’Intelligenza Artificiale come mai prima d’ora, distinguendo la Generative AI da tutte le altre forme di AI precedenti grazie alla sua immediata accessibilità.

Le applicazioni pratiche di LLM e GENAI sono molteplice e variegate. Tra queste, i LLM rivestono un ruolo fondamentale nell’assistenza clienti tramite chatbot avanzati, consentendo un’interazione naturale ed efficace con i clienti, riducendo il lavoro umano e migliorando l’esperienza complessiva. Allo stesso modo, sono ampiamente utilizzati nella generazione di contenuti di qualità, dall’informazione sui social media alla produzione di articoli di notizie, e nel campo della traduzione automatica, fornendo traduzioni più accurate e contestualmente pertinenti. Anche il mondo della programmazione è impattato; infatti modelli come Codex generano codice di programmazione da descrizioni in linguaggio naturale, semplificando il lavoro degli sviluppatori e accelerando il processo di sviluppo software. Infine, nel settore sanitario, i LLM giocano un ruolo cruciale nell’analisi di dati medici, nel supporto alle diagnosi e alla ricerca, nella comunicazione tra medici e pazienti e nella scoperta e miglioramento delle terapie, contribuendo così all’innovazione e all’efficacia dei servizi sanitari.

AI e Etica

Il deep learning ha rivoluzionato il campo dell’AI, consentendo a macchine di apprendere direttamente dai dati con una minima supervisione umana. Questo ha portato a enormi avanzamenti, ma solleva anche importanti questioni etiche e sociali. Se da un lato queste tecnologie offrono enormi benefici, dall’altro pongono sfide significative che devono essere affrontate per garantire un uso responsabile e benefico.

Uno dei problemi principali associati all’AI è il bias. Poiché i modelli di AI, inclusi i LLM, sono addestrati su grandi quantità di dati, possono assimilare e replicare i bias presenti nei dati di addestramento. Questo può portare a risultati discriminatori o ingiusti in applicazioni sensibili come l’assunzione del personale, la giustizia penale, l’erogazione di prestiti e altre decisioni critiche che influenzano la vita delle persone. Per esempio, un sistema di assunzione automatizzato potrebbe privilegiare candidati di un certo genere o provenienza etnica se i dati di addestramento riflettono pregiudizi storici. L’uso di AI comporta anche rischi per la privacy e la sicurezza. I modelli possono essere utilizzati per generare contenuti falsi, come notizie o email di phishing, creando potenziali minacce per la sicurezza informatica e la fiducia pubblica. Inoltre, l’accesso ai dati personali utilizzati per addestrare questi modelli solleva preoccupazioni sulla privacy degli utenti. In scenari estremi, tecnologie di riconoscimento facciale e sorveglianza basate su AI potrebbero essere utilizzate per monitorare e controllare le popolazioni in modi invasivi, compromettendo diritti e libertà fondamentali. L’automazione portata dall’AI potrebbe avere un impatto significativo sul mercato del lavoro. Mentre alcune professioni potrebbero beneficiare di queste tecnologie, altre potrebbero essere sostituite o ridotte. Ad esempio, l’automazione di compiti ripetitivi e basati sui dati potrebbe portare alla riduzione del numero di posti di lavoro in settori come la produzione, il trasporto e i servizi di assistenza clienti. È importante considerare come mitigare questi impatti attraverso politiche di riqualificazione e supporto ai lavoratori, promuovendo la creazione di nuovi posti di lavoro che emergono dalle nuove tecnologie.

La rapida evoluzione dell’AI pone sfide anche a livello legale e regolamentare. È necessario sviluppare normative che bilancino l’innovazione con la protezione dei diritti degli individui e della società. In questo contesto, l’Artificial Intelligence Act (AI Act) dell’Unione Europea rappresenta un importante passo avanti, proponendo un quadro normativo che mira a garantire l’uso sicuro e trasparente dell’AI, promuovendo al contempo l’innovazione. Questo include la regolamentazione dell’uso dei dati, la protezione contro l’uso improprio delle tecnologie e la promozione della trasparenza e della responsabilità. Un’altra questione critica è l’autonomia delle decisioni prese dall’AI e la responsabilità per tali decisioni. Man mano che i sistemi di AI diventano più autonomi diventa cruciale stabilire chi è responsabile per le azioni e le decisioni di queste macchine. Inoltre, l’uso crescente di AI nei media e nell’intrattenimento potrebbe cambiare la natura della creatività e dell’arte, con implicazioni per artisti e creativi.

L’AI del Futuro: sfide e opportunità

L’Intelligenza Artificiale (AI) ha fatto enormi progressi negli ultimi decenni, evolvendosi da sistemi semplici a modelli complessi capaci di apprendere e adattarsi. In sintesi, questa evoluzione ha portato al formarsi di tre principali categorie: AI assistita, AI aumentata e AI autonoma.

• L’AI assistita supporta gli esseri umani in compiti specifici senza prendere decisioni autonomamente. Questi sistemi, come Siri, Alexa, Google Assistant eseguono attività ripetitive, analizzano dati e forniscono raccomandazioni basate su algoritmi predefiniti, ma richiedono l’intervento umano per compiti complessi o decisioni finali.

• L’AI aumentata va oltre, migliorando significativamente le capacità umane. Lavora in sinergia con gli esseri umani, imparando continuamente dalle interazioni con gli umani e l’ambiente. Ad esempio, gli strumenti di diagnosi medica basati su AI possono analizzare grandi quantità di dati clinici per identificare pattern che i medici potrebbero non notare, suggerendo diagnosi o trattamenti con maggiore precisione, pur lasciando la decisione finale agli esseri umani.

• L’AI autonoma rappresenta il livello più avanzato, con la capacità di prendere decisioni e agire indipendentemente dagli esseri umani. Esempi emblematici sono i veicoli autonomi, che possono navigare strade cittadine, riconoscere segnali di traffico e rispondere a situazioni impreviste in tempo reale, richiedendo tecnologie avanzate di apprendimento automatico e intelligenza situazionale per operare in modo sicuro ed efficiente.

Nel prossimo futuro, ci si aspetta che l’Intelligenza Artificiale (AI) faccia notevoli progressi in diversi campi, inclusi i modelli di linguaggio avanzati e la robotica, tenendo sempre in considerazione le limitazioni computazionali. Nel primo caso ci si aspetta un significativo miglioramento delle prestazioni e della comprensione. Questi modelli saranno in grado di comprendere meglio il contesto delle conversazioni, riducendo ambiguità e fraintendimenti, e fornendo risposte più accurate e pertinenti grazie ai miglioramenti nei dataset e negli algoritmi di addestramento. Inoltre, si prevede che modelli come GPT-5 integrino la multimodalità, elaborando e generando contenuti non solo testuali, ma anche visivi e audio, permettendo interazioni più ricche e complesse già iniziate con GPT-4-o. Anche l’efficienza di questi modelli sarà migliorata, con tecniche di ottimizzazione che ridurranno i costi computazionali e renderanno l’AI più accessibile. Importanti sforzi saranno dedicati anche alla sicurezza e al controllo etico, con l’obiettivo di mitigare i bias e prevenire l’uso improprio delle tecnologie.

Nel campo della robotica si prevede un’avanzata autonomia dei sistemi, con robot capaci di navigare in ambienti complessi e manipolare oggetti con precisione crescente grazie ai progressi in visione artificiale e apprendimento automatico. I robot saranno in grado di interagire in modo naturale con l’ambiente grazie all’integrazione di sensori avanzati. La collaborazione uomo-robot diventerà sempre più comune, con cobot (robot collaborativi) progettati per lavorare assieme agli esseri umani in settori come manifattura, sanità e servizi, migliorando la sicurezza e l’efficienza nei luoghi di lavoro. Interfacce intuitive permetteranno agli utenti di interagire con i robot in modo semplice e naturale attraverso comandi vocali o gestuali. La robotica vedrà anche applicazioni specializzate, come la robotica medica, che porterà a strumenti chirurgici più precisi, dispositivi di assistenza e l’agricoltura automatizzata. Parallelamente, la ricerca e sviluppo nell’Intelligenza Artificiale generale (AGI) continuerà, sviluppando un’AI capace di comprendere, apprendere e applicare conoscenze in modo simile agli esseri umani. L’integrazione di conoscenze da diverse discipline scientifiche, ingegneristiche e umanistiche sarà cruciale per il progresso verso l’AGI. Un aspetto fondamentale sarà lo sviluppo di normative globali per garantire l’uso etico e sicuro delle tecnologie avanzate. La collaborazione tra governi, aziende private e organizzazioni non governative sarà essenziale per affrontare le sfide etiche e sociali poste dall’AI.

In conclusione, i progressi dell’Intelligenza Artificiale e nella robotica nei prossimi anni porteranno a innovazioni che contribuiranno alla trasformazione di vari settori, migliorando l’efficienza e creando nuove opportunità. Tuttavia, sarà fondamentale affrontare le sfide etiche, sociali e regolamentari per garantire che questi sviluppi siano utilizzati in modo critico e a supporto dell’umanità.

Intelligenza artificiale