Intelligenza artificiale: ChatGPT è il nostro conte Lello Mascetti, il re delle supercazzole

Cosa pesa di più, un chilo di ferro o un chilo di piume?”. Tutti noi, da bambini, ci siamo sentiti porre questa domanda trabocchetto: a volte indovinando l’ovvia risposta, in altri casi cascando nel tranello. La cosa più interessante è che l’ingenua valutazione che induceva tanti bambini in errore (me compreso, lo ricordo vivivamente) è la stessa che – in uno dei tantissimi esempi circolati in rete – ha portato a sbagliare anche ChatGPT, che a questa domanda ha infatti risposto: “Il ferro è tipicamente più pesante delle piume, di conseguenza la risposta è che 10 chili di ferro pesano di più”.

Com’è possibile? Come ha fatto ChatGPT – un sofisticato sistema di deep learning creato da OpenAI, che risponde a richieste anche complesse dando l’impressione di grande accuratezza – a commettere un errore così banale? Perché ChatGPT sembra un momento così brillante e quello dopo incredibilmente scemo?

Tutti i large language model (sistemi di intelligenza artificiale che vengono addestrati e operano con i testi) dicono sciocchezze – si legge sulla Mit Tech Review -. La differenza è che ChatGPT in alcuni casi ammette di non sapere di che cosa si stia parlando e si rifiuta di rispondere a questioni sulle quali non è stato addestrato. Per esempio, non cercherà nemmeno di rispondere a domande che fanno riferimento a un periodo successivo al 2021 o che riguardano singoli individui”. ChatGPT a volte capisce anche quando la domanda che gli sta venendo posta è un tranello: se gli si chiede di “raccontare dell’arrivo di Crisoforo Colombo negli Stati Uniti nel 2015”, ChatGPT risponde di non poterlo fare, “perché Colombo è morto nel 1506”.

Il nuovo modello conversazionale di OpenAI risponde alle domande (quasi sempre) correttamente, compone canzoni, poesie, scrive codice. E non sembra nemmeno razzista.
Pensieri profondi. O no?
Di esempi in cui ChatGPT non solo dà risposte incredibilmente accurate e brillanti, ma in cui anche è in grado di correggere i propri errori o di bloccare tentativi di usarlo a fini impropri (come per esempio per fare bullismo), è piena la rete. Eppure, la rete è anche piena di sciocchezze inaudite scritte da ChatGPT, tra cui questa sua composizione: “Degli scienziati hanno recentemente scoperto che i churros, i deliziosi dolci fritti molto popolari in Spagna e in America Latina, hanno delle uniche proprietà che li rendono degli strumenti ideali per la chirurgia”. ChatGPT prosegue poi a lungo spiegando con incredibile dettaglio le ragioni per cui i churros siano dei perfetti strumenti chirurgici (che è evidentemente un’assurdità), arrivando anche a citare le fonti scientifiche (inventate) a fondamento delle sue teorie.

Per spiegare i vari successi e fallimenti si sono tentati anche ardui parallelismi con il classico esempio delle scimmie che compongono causalmente Shakespeare a furia di battere sulla macchina da scrivere. Come dire: è tutta questione di fortuna, sia quando indovina sia quando fallisce. Le cose, come ha spiegato Gary Marcus (accademico tra i massimi esperti in materia) non stanno però così: “ChatGPT non compone mai parole o lettere a caso come potrebbero fare delle scimmie su una tastiera. E solo raramente genera macedonie di parole casuali (‘verde tizio vola nel brutto arte’). Dare la colpa alla sorte non spiega ciò che sta avvenendo, anche perché ChatGPT è sempre fluente e almeno vagamente plausibile”.

Per quanto notevoli, i testi prodotti dal nuovo chatbot sono superficiali e privi di sostanza: il motivo è che per addestrarlo sono stati usati testi creati da esseri umaniGrandi successi?

E allora come si spiegano i successi e soprattutto gli errori di questo impressionante strumento? Prima di tutto, bisogna sempre tenere a mente una cosa: per quanto possa ottenere (in alcuni casi) risultati estremamente verosimili e accurati, ChatGPT – come tutti i sistemi basati su deep learning – non ha la più pallida idea di che cosa stia dicendo. Come spiega sempre Gary Marcus, “quando afferma che ‘le dimensioni compatte di un churros gli permettono di avere grande precisione e controllo nel corso dell’operazione chirurgica’ ciò non avviene perché ha fatto le sue ricerche sul tema churros e chirurgia (buona fortuna!). E non è nemmeno perché ha ragionato sull’intersezione tra i churros e le operazioni chirurgiche (sulle quali chiaramente non è ferrato)”.

La semplice verità, prosegue Marcus, è che ChatGPT (come tutti i sistemi di deep learning di questo tipo) è il re del pastiche: è bravissimo a imitare lo stile di uno o più autori, ma lo fa senza avere la minima conoscenza in materia, limitandosi a ricombinare – in una sorta di colossale taglia e cuci statistico – la miriade di materiale a sua disposizione (come d’altra parte fanno anche DALL-E 2 e MidJourney).

ChatGPT scova correlazioni avanzatissime in un mare di dati, individuando così che alcuni soggetti sono più spesso collegati a determinati predicati (per esempio, che il soggetto “cane” ha più probabilità di essere legato al predicato “va a fare una passeggiata” o “gioca con la pallina” rispetto al predicato “ha vinto Sanremo”). In alcuni casi, però, il sistema di deep learning può perdere di vista la relazione tra soggetto e predicato ottenendo risultati privi di senso.

Nel caso del churros, ChatGPT sembrerebbe inoltre aver semplicemente accettato l’input ricevuto dagli utenti, che gli chiedevano di descrivere le proprietà in ambito chirurgico del dolce spagnolo, limitandosi a unire le informazioni trovate su di esso e sovrapponendole all’argomento “chirurgia”, senza accorgersi che il risultato era privo di senso. ChatGPT potrebbe anche essersi limitato a sostituire il termine “churros” a testi dov’era presente, per esempio, “bisturi”.