Il mio Percorso Scientifico nel Mondo delle Tecnologie del Linguaggio
Il mio Percorso Scientifico nel Mondo delle Tecnologie del Linguaggio
Il linguaggio è la cosa più naturale del mondo — finché non si cerca di insegnarlo a una macchina.
Parliamo senza pensarci, passando con disinvoltura dall'ascolto alla lettura, dalla comprensione alla traduzione, colmando lacune, tollerando ambiguità e facendoci capire attraverso accenti, dialetti e contesti diversi. Per un computer, ognuna di queste operazioni è un rompicapo di complessità straordinaria. Eppure, nel corso degli ultimi trent'anni, le macchine sono passate dal riconoscere a fatica una frase parlata al tradurre conversazioni in tempo reale, doppiare film e generare testo fluente in decine di lingue. Ho avuto la fortuna di lavorare alla frontiera di questa trasformazione — dai suoi giorni incerti agli albori, ai tempi dei modelli linguistici di grandi dimensioni — e questa pagina racconta quella storia.
Il mio percorso è iniziato nei primi anni Novanta, quando sono entrato all'IRST (Istituto per la Ricerca Scientifica e Tecnologica) di Trento — poi diventato FBK (Fondazione Bruno Kessler) — in un momento entusiasmante in cui l'istituto stava crescendo e il campo delle tecnologie del linguaggio era ancora tutto da esplorare. Ho avuto la fortuna di entrare in un ambiente stimolante, dove la curiosità era incoraggiata e la cultura del fare ricerca che conta — rigorosa ma sempre connessa al mondo reale — ha plasmato il mio modo di pensare fin dall'inizio. Nel corso della mia carriera ho avuto la fortuna di assistere al verificarsi della "magia" più volte: quei rari momenti in cui una nuova idea funziona all'improvviso, in cui una tecnologia supera una soglia e il mondo appare diverso dall'altra parte. Guardando indietro, sento di aver talvolta intuito la direzione delle cose anni prima che si manifestassero — non per una particolare capacità di previsione, ma restando vicino ai problemi difficili e prestando attenzione a ciò che la scienza stava silenziosamente indicando.
Nel tempo il mio ruolo si è evoluto da ricercatore individuale a responsabile della ricerca — costruendo e guidando team, definendo agende scientifiche, tenendo sempre un occhio sui problemi ad alto impatto reale. Questo approccio è continuato quando mi sono trasferito in Silicon Valley per entrare in Amazon Web Services, dove per sei anni ho guidato il team scientifico di traduzione automatica e — in quello che si sarebbe rivelato uno di quei momenti di anticipare il futuro — un progetto di ricerca visionario sul doppiaggio automatico, allora una frontiera quasi inesplorata. Mi sono poi trasferito a Madrid, dove ora sovrintendo agli sforzi scientifici nell'ambito dell'intelligenza artificiale multimodale e multilingue per Amazon Stores Europe. Guardando indietro, ciò che è rimasto costante attraverso tre decenni e tre paesi è la convinzione che la migliore ricerca avvenga al confine tra la curiosità scientifica profonda e il genuino bisogno umano. Gli strumenti e i benchmark sviluppati dai nostri team sono stati utilizzati da ricercatori e ingegneri in tutto il mondo, e hanno aiutato aziende di ogni dimensione — dalle startup alle grandi imprese — a costruire prodotti e servizi che altrimenti non avrebbero potuto creare. Le domande che ci ponevamo nei laboratori italiani hanno trovato risposta in tecnologie che milioni di persone usano ogni giorno.
Quando ho iniziato la mia carriera di ricerca, l'idea di parlare a un computer era ancora in gran parte fantascienza. Non esistevano assistenti vocali, né software di dettatura degni di questo nome, né sistemi in grado di comprendere in modo affidabile il parlato naturale in condizioni reali. La sfida fondamentale era ingannevolmente semplice da enunciare: dato un flusso sonoro, come fa una macchina a capire quali parole sono state pronunciate?
La risposta, si è scoperto, era statistica. Invece di programmare regole per ogni possibile pronuncia o struttura sintattica, si costruisce un modello linguistico — una descrizione matematica di quali parole e sequenze di parole sono più o meno probabili in un dato contesto — e lo si combina con un modello acustico che mappa i suoni in fonemi e parole. I due lavorano insieme: il segnale acustico restringe i candidati e il modello linguistico sceglie l'interpretazione più plausibile. Ottenere questa combinazione in modo corretto, efficiente e robusto era il problema centrale del campo.
Il mio lavoro iniziale si è concentrato sul rendere i modelli linguistici più intelligenti e veloci. Lavorando all'interno di una ricca comunità scientifica internazionale che stava collettivamente definendo il campo, ho contribuito con innovazioni ai problemi fondamentali di stima e adattamento — adattare un modello generico a un dominio specifico senza ripartire da zero. Si tratta di un problema che suona tecnico ma ha conseguenze pratiche immediate: un sistema addestrato su testi giornalistici avrà grandi difficoltà quando un medico inizia a dettare un referto radiologico. Le idee sull'adattamento dei modelli linguistici sviluppate in quegli anni si sono rivelate fondamentali; versioni di esse sono ancora al lavoro nei sistemi di intelligenza artificiale moderni.
A proposito di referti radiologici: una delle applicazioni più significative su cui ho lavorato in questo periodo è stata A.Re.S. (Automatic Reporting System), un sistema che permetteva ai radiologi di dettare referti medici a mani libere direttamente al computer. Era un'idea genuinamente rivoluzionaria per l'epoca. I medici erano scettici, la tecnologia era fragile e il vocabolario dell'imaging medico è altamente specializzato. Eppure il sistema funzionò abbastanza bene da dare vita a una società spin-off dedicata, che ha distribuito con successo sistemi di dettatura negli ospedali italiani — una delle prime validazioni reali del fatto che la tecnologia vocale potesse far risparmiare tempo prezioso ai professionisti in ambienti esigenti. Nello stesso periodo abbiamo esplorato il tele-controllo di robot — l'uso di comandi vocali per guidare un robot a distanza — un'altra applicazione che ci ha costretto a costruire sistemi non solo accurati in laboratorio, ma robusti in condizioni reali.
Questi esperimenti nel campo medico e della robotica erano i primi segnali di una tendenza molto più ampia: l'idea che le interfacce vocali potessero e dovessero essere integrate in strumenti professionali in ogni settore. Oggi sembra ovvio. A metà degli anni Novanta richiedeva vera immaginazione.
Un progetto più ampio e prolungato è stato la trascrizione automatica dei telegiornali italiani. Insieme ai colleghi dell'IRST, ho contribuito a costruire sistemi in grado di ascoltare le notizie radiofoniche e televisive e produrre una trascrizione scritta in tempo quasi reale. La tecnologia ha trovato il suo primo grande impiego presso la RAI, la radiotelevisione pubblica italiana, dove è stata utilizzata per alimentare gli archivi nazionali e regionali — un esempio precoce e significativo del riconoscimento vocale operante su scala nazionale. Nel tempo, questo lavoro ha dato vita a un'altra società spin-off specializzata in servizi di trascrizione audio e monitoraggio dei media, un settore che è cresciuto enormemente con l'esplosione del volume di contenuti parlati nel mondo.
L'ultimo filone di questo periodo ha portato il problema in una direzione diversa: non solo comprendere il parlato, ma aiutare le persone a trovare contenuti vocali attraverso le barriere linguistiche. In una serie di studi sul recupero di informazioni multilingue — condotti in parte attraverso le campagne di valutazione internazionali CLEF — ci siamo chiesti: può un utente cercare in un archivio parlato in inglese e trovare documenti rilevanti in italiano, o viceversa? La risposta era sì, con la giusta combinazione di tecniche di traduzione e recupero. È stato un primo assaggio delle sfide multilingui che avrebbero dominato la fase successiva della mia carriera.
All'inizio degli anni Duemila, il panorama stava cambiando rapidamente. Il riconoscimento vocale stava maturando e si apriva una nuova frontiera: non solo comprendere il linguaggio, ma tradurlo.
All'inizio degli anni Duemila era in corso una silenziosa rivoluzione nelle tecnologie del linguaggio. Per decenni, la traduzione automatica era stata dominata da approcci basati su regole: i linguisti codificavano pazientemente la grammatica, il vocabolario e i modi di dire di una coppia di lingue in un insieme di regole artigianali, e la macchina le seguiva. I risultati erano spesso artificiosi, fragili e costosi da costruire. Poi arrivò un'idea radicalmente diversa, le cui radici risalgono al lavoro fondamentale dei ricercatori IBM alla fine degli anni Ottanta e all'inizio degli anni Novanta: invece di programmare le regole, perché non impararle automaticamente dai dati? Si fornisce al sistema milioni di coppie di frasi tradotte, lo si lascia scoprire i modelli statisticamente, ed esso troverà strutture che nessun linguista avrebbe pensato di scrivere. Ci vollero anni perché la comunità più ampia abbracciasse pienamente questa visione, ma a metà degli anni Duemila la traduzione automatica statistica stava trasformando il campo.
Mi sono buttato in questo nuovo paradigma con un team di ricercatori di talento, e si è rivelato uno dei periodi più produttivi della mia carriera. I problemi erano difficili, la comunità era vivace e competitiva, e le applicazioni erano evidenti: il mondo aveva un disperato bisogno di modi migliori per spostare informazioni attraverso le barriere linguistiche.
I nostri contributi hanno toccato molte delle sfide fondamentali. Una riguardava come gestire il fatto che le lingue ordinano le parole diversamente — il tedesco, ad esempio, tende a spingere i verbi alla fine della frase in modi che rendono assurda una traduzione parola per parola. Abbiamo sviluppato modi più intelligenti per i sistemi di traduzione di riordinare parole e frasi, un problema ingannevolmente complicato con un grande impatto sulla qualità della traduzione. Un altro riguardava l'efficienza: i modelli di traduzione sono enormi, e renderli abbastanza veloci e compatti da essere utili in pratica ha richiesto innovazioni nel modo in cui la conoscenza linguistica veniva memorizzata e recuperata.
Due strumenti open-source che abbiamo costruito in questo periodo hanno avuto un impatto importante sul campo. IRSTLM, un toolkit per la costruzione e la gestione dei grandi modelli linguistici statistici al cuore di qualsiasi sistema di traduzione, è stato adottato da gruppi di ricerca e aziende in tutto il mondo. MOSES, co-sviluppato con un consorzio internazionale di gruppi di ricerca leader, è diventato la piattaforma open-source standard per la traduzione automatica statistica per quasi un decennio — lo strumento che innumerevoli ricercatori e ingegneri hanno usato per costruire, testare e distribuire sistemi di traduzione. Per un periodo, se facevi traduzione automatica, quasi certamente usavi MOSES. Vedere un software diventare l'infrastruttura comune di un'intera comunità scientifica è una di quelle esperienze profondamente soddisfacenti che rendono la ricerca degna di essere vissuta.
Insieme a questi contributi tecnici, ho investito molto in qualcosa che è facile sottovalutare: la valutazione. La scienza avanza più rapidamente quando la comunità concorda su come misurare i progressi, e nella traduzione del linguaggio parlato quel consenso mancava. Insieme ai colleghi, ho contribuito a istituire e poi guidare la campagna di valutazione IWSLT — una competizione internazionale annuale sulla traduzione del linguaggio parlato che utilizzava i talk TED come banco di prova comune, rendendo possibile il confronto equo tra i sistemi di team di tutto il mondo. Il dataset WIT3 di talk trascritti e tradotti che abbiamo costruito per supportare IWSLT è diventato, e rimane, una delle risorse più utilizzate nel campo. Gestire una campagna di valutazione condivisa sembra un lavoro organizzativo, ma è anche una forma di leadership scientifica: si sta plasmando le domande che la comunità pone e l'aspetto del progresso.
Un terzo filone era forse il più direttamente connesso all'impatto umano: la traduzione assistita da computer e la questione di come la traduzione automatica potesse rendere i traduttori professionisti più veloci e migliori, piuttosto che semplicemente sostituirli. La traduzione è una professione qualificata e cognitivamente impegnativa, e il rapporto tra traduttori umani e strumenti di traduzione automatica è sottile. Abbiamo condotto studi accurati misurando quanto la traduzione automatica aiutasse effettivamente — in quali condizioni, per quali coppie di lingue, per quali tipi di testo — e sviluppato metodi affinché i sistemi si adattassero continuamente alle correzioni di un traduttore, migliorando ad ogni modifica. Questo lavoro è confluito in MateCat, una piattaforma di traduzione professionale open-source sviluppata in collaborazione con partner industriali, che ha portato queste idee nelle mani di traduttori reali che lavorano su documenti reali.
Quando le reti neurali hanno iniziato a rimodellare il campo intorno al 2016, l'era della traduzione statistica aveva lasciato un'eredità duratura: strumenti aperti usati da migliaia di persone, benchmark di valutazione che hanno strutturato un decennio di ricerca e una comprensione molto più chiara di ciò che serve — tecnicamente e umanamente — per attraversare la barriera linguistica su larga scala. Ma la transizione, quando è arrivata, è stata rapida e inesorabile — ancora più veloce del precedente passaggio dalla linguistica computazionale basata su regole agli approcci statistici guidati dai dati, che a sua volta era sembrato rivoluzionario. Nel giro di pochi anni, la traduzione automatica neurale aveva reso tecnicamente obsoleto gran parte di ciò che avevamo costruito, costringendoci a ripensare radicalmente i nostri approcci, i nostri strumenti e le nostre intuizioni su come le macchine imparano a tradurre. È stato nel contempo educativo ed entusiasmante e, come avrei imparato ad apprezzare, esattamente il tipo di perturbazione che mantiene viva la scienza.
L'arrivo della traduzione automatica neurale sembrava, per chi era nel campo come me, come se il terreno si stesse spostando sotto i piedi. Quasi dall'oggi al domani, i sistemi basati su reti neurali profonde hanno iniziato a produrre traduzioni drammaticamente più fluenti e naturali di quanto gli approcci statistici avessero mai raggiunto. La comunità di ricerca si è affrettata a capire cosa stesse succedendo, perché funzionasse così bene e — crucialmente — se la fluidità fosse la stessa cosa della qualità.
Quest'ultima domanda si è rivelata più importante di quanto sembrasse inizialmente. Gli output della traduzione neurale potevano leggersi magnificamente pur essendo sottilmente sbagliati: tradurre male i numeri, omettere clausole o non rispettare il significato di termini specialistici. Uno dei nostri primi contributi in questa nuova era è stato guardare attentamente e rigorosamente dove la traduzione neurale guadagnava effettivamente rispetto a quella statistica, e dove ancora mancava. Questo tipo di valutazione comparativa onesta è meno glamour della costruzione di nuovi sistemi, ma è essenziale: senza di essa, il campo rischia di essere sedotto dalle impressioni piuttosto che guidato dalle prove.
Forse l'illustrazione più vivida di quanto velocemente sia avvenuta questa transizione è stata ModernMT — un sistema di traduzione automatica adattiva in tempo reale che stavamo sviluppando basandoci su approcci statistici, che improvvisamente si è trovato di fronte a una scelta esistenziale: adattarsi o diventare irrilevante. Nel giro di poche settimane, il team ha effettuato una svolta totale, ricostruendo ModernMT dalle fondamenta sulla nascente architettura transformer neurale. Che abbia funzionato — che un team piccolo e determinato potesse assorbire un cambiamento di paradigma di quella portata in un lasso di tempo così compresso — è una testimonianza sia della qualità delle persone coinvolte sia della chiarezza del momento scientifico. ModernMT è poi diventato un progetto open-source e alla fine si è trasformato in una società startup — una che ho avuto il privilegio di guidare come CEO prima di entrare in Amazon. La sua adozione open-source, tuttavia, è stata più limitata di quanto sperassimo: la comunità della traduzione neurale è cresciuta con notevole velocità ma si è anche frammentata altrettanto rapidamente, con molte soluzioni concorrenti che emergevano in rapida successione, ciascuno con il proprio seguito.
In AWS, il focus era nettamente diverso: costruire sistemi di traduzione automatica neurale adattivi in grado di servire su larga scala le esigenze dei grandi clienti enterprise — aziende con elevati volumi di traduzione, requisiti di qualità rigorosi e la necessità di personalizzare i sistemi per i propri domini e terminologie. Questo significava investire nell'intero stack della tecnologia di traduzione neurale, dall'architettura del modello all'infrastruttura di servizio efficiente, sempre con un occhio all'affidabilità e alla scalabilità piuttosto che ai soli benchmark accademici.
Una delle sfide determinanti di questo periodo è stata la multilingualità. La traduzione automatica statistica era stata costruita in gran parte coppia di lingue per coppia di lingue, richiedendo sistemi separati e grandi quantità di dati per ogni combinazione. Gli approcci neurali hanno aperto una possibilità affascinante: un singolo modello addestrato su molte lingue simultaneamente, capace di tradurre tra coppie che non aveva mai visto esplicitamente, e di prestare la sua conoscenza delle lingue ricche per aiutare quelle povere. Abbiamo investito molto in questa direzione, sviluppando metodi per la traduzione automatica neurale multilingue, il trasferimento dell'apprendimento tra le lingue e l'adattamento a contesti con pochissime risorse — lingue parlate da milioni di persone ma con poco testo digitalizzato da cui imparare.
Un tema ricorrente in tutto questo periodo è stato il controllo: come si fa a fare in modo che un sistema di traduzione neurale faccia non solo ciò che ha imparato a fare in media, ma ciò di cui si ha specificamente bisogno in questo momento? Questo si è manifestato in diversi problemi concreti. I vincoli terminologici — garantire che un sistema traduca un termine tecnico nel modo richiesto da un cliente, piuttosto che nel modo in cui lo ha visto più spesso nei dati di addestramento — si sono rivelati sorprendentemente difficili per i modelli neurali. Abbiamo sviluppato metodi di addestramento che insegnano ai sistemi a rispettare le istruzioni terminologiche, una capacità con valore commerciale diretto nella traduzione legale, medica e tecnica. Il lavoro correlato ha riguardato la formalità e lo stile: come tradurre nel registro formale o informale appropriato per un dato contesto, o come modellare lo stile individuale di un traduttore umano. In AWS, queste domande hanno assunto una dimensione industriale aggiuntiva: come si fornisce tutto questo in modo affidabile, efficiente e alla scala richiesta dai grandi clienti enterprise che elaborano milioni di parole al giorno?
All'inizio degli anni Venti, la traduzione neurale era maturata da novità dirompente a fondamento indiscusso del campo. Ma anche mentre ne consolidavamo la comprensione, qualcosa di più grande stava muovendosi. Le stesse architetture neurali che avevano trasformato la traduzione automatica venivano scalate, addestrate su vastissime porzioni di internet, e si stavano trasformando in qualcosa di qualitativamente nuovo: modelli linguistici di grandi dimensioni capaci di tradurre, scrivere, ragionare e molto altro ancora. Ancora una volta, il terreno stava per spostarsi.
Con la maturazione della traduzione automatica neurale, è diventato sempre più chiaro — almeno per chi lavorava più a stretto contatto con la tecnologia — che l'architettura alla base di questi sistemi non era fondamentalmente diversa da quella che avrebbe poi alimentato i grandi modelli linguistici. Vale la pena soffermarsi su questo punto, perché è un fatto che spesso va perso nell'entusiasmo intorno all'intelligenza artificiale moderna: l'architettura Transformer, che oggi è alla base di praticamente ogni grande modello linguistico, è stata originariamente sviluppata per la traduzione automatica. La struttura encoder-decoder al suo cuore è stata progettata per risolvere il problema di mappare una sequenza di parole in una lingua a una sequenza in un'altra. Da quel punto di partenza, i ricercatori hanno iniziato ad applicare le stesse idee ad altri compiti linguistici — sintesi, risposta alle domande, analisi del sentimento — e gradualmente si sono resi conto che un singolo modello, addestrato su molti compiti simultaneamente, poteva imparare qualcosa di più generale di ognuno di essi. Questa convergenza verso l'apprendimento multi-task è stato il ponte concettuale che ha portato, passo dopo passo, ai grandi modelli linguistici che conosciamo oggi. La traduzione automatica non è un campo che è stato travolto dalla rivoluzione dell'intelligenza artificiale — è uno dei campi che l'ha avviata.
La differenza tra la traduzione neurale e i modelli linguistici di grandi dimensioni era una questione di portata piuttosto che di tipo: i sistemi di traduzione neurale erano addestrati a fare una cosa, la traduzione, mentre i grandi modelli linguistici sarebbero stati addestrati su dati molto più vasti per fare quasi tutto. Ma il meccanismo era lo stesso. E questo significava che i problemi con cui ci confrontavamo nella traduzione automatica — come condizionare l'output di un modello su esempi, come iniettare istruzioni sullo stile o la formalità, come fare in modo che un sistema si comporti diversamente in base al contesto fornito al momento dell'inferenza — erano in senso profondo gli stessi problemi che avrebbero poi definito l'arte del prompting dei grandi modelli linguistici. Stavamo, senza saperlo del tutto, inventando il prompt engineering nel laboratorio ristretto e rigoroso della traduzione automatica.
Con questa prospettiva in mente, le direzioni di ricerca che abbiamo perseguito in questo periodo acquistano un significato aggiuntivo. Una nuova domanda era venuta in primo piano: e se, invece di affidarsi esclusivamente a ciò che un modello aveva imparato durante l'addestramento, gli si potessero fornire esempi rilevanti al momento della traduzione? Questa idea, che la comunità aveva iniziato a esplorare con il nome di traduzione context-augmented o retrieval-augmented, è stata una a cui abbiamo contribuito attivamente. L'approccio era semplice in linea di principio: recuperare gli esempi più rilevanti da un database di traduzioni passate — le cosiddette corrispondenze fuzzy, frasi simili ma non identiche all'input — e fornirle al modello insieme al testo sorgente, lasciandogli attingere ad esse come guida aggiuntiva. I nostri contributi in questo spazio sono stati riconosciuti in un brevetto per la traduzione automatica aumentata da corrispondenze fuzzy. Ma al di là dei progressi tecnici specifici, ciò che mi colpisce in retrospettiva è quanto naturalmente questa linea di pensiero abbia anticipato ciò che la comunità dell'intelligenza artificiale avrebbe poi chiamato apprendimento in-context e retrieval-augmented generation (RAG) — concetti che sono diventati centrali nell'era dei grandi modelli linguistici.
Dalla traduzione arricchita dal contesto, è stato un passo naturale — sebbene tecnicamente ambizioso — porre una domanda molto più grande: e se si potesse tradurre non solo il testo, ma un'intera esperienza audiovisiva?
Quando si guarda un film doppiato o un documentario tradotto, si sta consumando il prodotto di un processo enormemente laborioso: traduttori umani, doppiatori, registi, ingegneri del suono, tutti che lavorano insieme per far sembrare naturale una performance in lingua straniera nella propria lingua. I movimenti delle labbra devono corrispondere approssimativamente alle parole. I tempi devono adattarsi al ritmo originale. La voce deve portare il giusto peso emotivo. Per decenni questo processo aveva resistito all'automazione, perché si trova all'intersezione di così tanti problemi difficili contemporaneamente.
In AWS, ho avuto l'opportunità — e la convinzione che fosse il momento giusto — di avviare un programma di ricerca visionario sul doppiaggio automatico. L'obiettivo era niente meno che costruire un sistema end-to-end capace di prendere un video in una lingua e produrne automaticamente una versione doppiata in un'altra. Questo significava risolvere una catena di problemi interconnessi che nessuno aveva ancora affrontato sistematicamente nel loro insieme.
Il primo era la traduzione automatica isometrica: insegnare a un modello di traduzione a produrre output di lunghezza approssimativamente giusta per corrispondere alla durata dell'utterance del parlante originale. Il secondo era l'allineamento prosodico: una volta ottenuta una traduzione della giusta lunghezza, è necessario che la voce sintetizzata la pronunci con un ritmo e una tempistica che corrispondano alla cadenza del parlante originale. Il terzo era la valutazione: come si misura se un video doppiato è buono? Abbiamo sviluppato PEAVS — una metrica di valutazione percettiva per la sincronia audio-visiva basata sui giudizi effettivi degli spettatori — per dare al campo un modo rigoroso di misurare i progressi.
Nel complesso, questo corpus di lavoro ha contribuito a stabilire il doppiaggio automatico come un campo scientifico riconosciuto con i propri problemi, benchmark e comunità. La visione che lo guida — che la barriera linguistica nei contenuti video possa un giorno essere superata automaticamente, rendendo i film, le lezioni e le storie del mondo accessibili a chiunque in qualsiasi lingua — rimane una delle applicazioni più affascinanti che riesca a immaginare per la tecnologia che ho trascorso la mia carriera a costruire.
Quando i grandi modelli linguistici sono irrotti nella coscienza pubblica, molte persone nel mondo tecnologico più ampio li hanno vissuti come qualcosa di completamente nuovo — un salto improvviso, apparentemente dal nulla. Chi aveva trascorso anni nella traduzione automatica e nell'elaborazione del linguaggio naturale li ha visti diversamente. Riconoscevamo l'architettura, gli obiettivi di addestramento, i pattern di prompting. Ciò che era cambiato era la scala, e con la scala era arrivato qualcosa che sembrava, se non proprio magia, almeno come il superamento di una soglia.
Per la comunità di ricerca, tuttavia, l'arrivo dei grandi modelli linguistici non è stato un momento per sedersi ad ammirare. Ha sollevato domande urgenti e scomode, e mi sono trovato attratto da diverse di esse.
La prima riguardava uno dei risultati empirici più sorprendenti degli ultimi anni: quanta parte del web multilingue è già tradotta automaticamente. Questa domanda è emersa direttamente dal nostro lavoro sullo sviluppo dei primi grandi modelli linguistici multilingui in AWS — uno sforzo volto a preparare la transizione dai sistemi di traduzione neurale dedicati alla traduzione basata su grandi modelli linguistici, e che ci ha costretto a guardare molto attentamente la qualità e la composizione dei dati di addestramento multilingui da cui tali modelli dipendono. Insieme ai colleghi, ci siamo proposti di misurare la prevalenza dei contenuti tradotti automaticamente sul web — e i risultati sono stati sorprendenti. Una proporzione scioccante dei contenuti web multilingui risulta essere tradotta automaticamente, spesso senza alcuna indicazione al lettore. Questo ha implicazioni profonde: se i dati utilizzati per addestrare i futuri sistemi di intelligenza artificiale sono essi stessi l'output di sistemi di intelligenza artificiale precedenti, il potenziale per errori composti e distorsioni autorinforzanti è reale e serio.
La seconda domanda riguardava la fiducia e l'affidabilità. I grandi modelli linguistici sono ora ampiamente utilizzati per recuperare e sintetizzare informazioni. Ma come si sa se la risposta che un modello fornisce è effettivamente basata sulle fonti da cui afferma di attingere, o se sta confabulando plausibilmente? Questo problema, noto come fedeltà nella generazione aumentata dal recupero, è diventato il focus di una nuova linea di lavoro. Abbiamo sviluppato MEMERAG, un benchmark multilingue per valutare quanto fedelmente i sistemi RAG rispondano alle domande in diverse lingue — uno strumento progettato per dare a ricercatori e ingegneri un modo rigoroso di misurare una proprietà facile da descrivere ma sorprendentemente difficile da quantificare.
Questi due filoni — qualità dei dati e affidabilità dell'output — possono sembrare preoccupazioni tecniche, ma indicano qualcosa di più grande. Man mano che i sistemi di intelligenza artificiale diventano più capaci e più ampiamente distribuiti, le domande che contano di più non sono solo "il sistema può farlo?" ma "possiamo fidarci di ciò che produce, e capiamo da dove l'ha imparato?" Queste sono domande che si trovano all'intersezione dell'apprendimento automatico, del recupero delle informazioni e di quella che potremmo broadly chiamare intelligenza artificiale responsabile.
Il mio trasferimento da AWS ad Amazon Stores è stato esso stesso una scelta deliberata, guidata dalla convinzione che stiamo vivendo uno dei momenti più entusiasmanti nella storia delle applicazioni dell'intelligenza artificiale — un momento in cui, accanto ai continui progressi nella tecnologia di base, è diventata possibile una straordinaria gamma di potenti applicazioni che semplicemente non erano alla portata prima. Dopo anni di sviluppo di strumenti e modelli fondamentali, mi sono sentito attratto dall'essere più vicino ai problemi dei clienti, per vedere l'intelligenza artificiale atterrare in modi che migliorano direttamente e tangibilmente la vita delle persone. Entrambi i lati di questa equazione — spingere la frontiera di ciò che l'intelligenza artificiale può fare, e trovare i modi migliori per utilizzarla — non sono mai stati più importanti o più interconnessi.
Questo senso di obbligo verso la prossima generazione ha radici profonde. Per vent'anni ho insegnato all'università, trasmettendo i fondamenti delle tecnologie del linguaggio e della parola a studenti che sarebbero poi andati a plasmare il campo essi stessi. Ho avuto il privilegio di supervisionare quindici dottorandi nel corso della mia carriera — ognuno un lungo e gratificante viaggio intellettuale, dalla prima domanda di ricerca alla tesi difesa. Molti di loro sono ora ricercatori e ingegneri in importanti aziende tecnologiche e università di tutto il mondo, lavorando su problemi che non esistevano quando hanno iniziato i loro dottorati. Vedere gli ex studenti prosperare, e occasionalmente trovare il loro lavoro citato in articoli che mi passano sulla scrivania, è una delle soddisfazioni più silenziose e durature di una vita nella scienza.
Sempre più spesso, questo significa anche guidare i nostri sforzi sull'intelligenza artificiale responsabile — garantendo che la tecnologia che costruiamo non sia solo capace ed efficiente, ma sicura, affidabile e sviluppata con una chiara consapevolezza del suo impatto più ampio sulle persone e sulla società. Dopo tre decenni a spingere i confini di ciò che le macchine possono fare con il linguaggio, trovo che la domanda più importante sia sempre stata la stessa: non solo possiamo costruire questo, ma dovremmo, e come ci assicuriamo che serva genuinamente le persone?
Trent'anni dopo, il campo non assomiglia per niente a ciò che immaginavo quando ho iniziato a lavorare sui modelli linguistici a Trento. Eppure le domande fondamentali sembrano notevolmente continue: come imparano le macchine a comprendere e generare il linguaggio umano? Come le rendiamo abbastanza affidabili da fidarsi? Come costruiamo strumenti che aiutino genuinamente le persone a comunicare attraverso le barriere del linguaggio e della cultura? Quelle domande valevano la pena di essere poste nel 1993. Valgono la pena di essere poste ora. E sospetto che varranno ancora la pena di essere poste — in forme che non possiamo ancora immaginare — per molto tempo a venire.