MarcelloFederico - Percorso Scientifico (in Italiano)

Il Mio Percorso Scientifico nel Mondo delle Tecnologie del Linguaggio

Premessa: Perché il Linguaggio è Difficile per le Macchine

Insegnare alle Macchine ad Ascoltare (1993–2003)

L'Ascesa della Traduzione Automatica Statistica (2004–2015)

La Rivoluzione Neurale: Traduzioni più Intelligenti e Fluenti (2016–2021)

Contesto più Ricco, Ambizioni più Grandi (2018–2023)

L'Era dei Grandi Modelli Linguistici: Nuove Domande alla Frontiera (2022–oggi)

Premessa: Perché il Linguaggio è Difficile per le Macchine

Il linguaggio è la cosa più naturale del mondo — finché non si cerca di insegnarlo a una macchina.

Parliamo senza pensarci, passando con disinvoltura dall'ascolto alla lettura, dalla comprensione alla traduzione, colmando lacune, tollerando ambiguità e facendoci capire attraverso accenti, dialetti e contesti diversi. Per un computer, ognuna di queste operazioni è un rompicapo di complessità straordinaria. Eppure, nel corso degli ultimi trent'anni, le macchine sono passate dal riconoscere a fatica una frase parlata al tradurre conversazioni in tempo reale, doppiare film e generare testo fluente in decine di lingue. Ho avuto la fortuna di lavorare alla frontiera di questa trasformazione — dai suoi giorni incerti agli albori, fino all'era dei grandi modelli linguistici — e questa pagina racconta quella storia.

Il mio percorso è iniziato nei primi anni Novanta, quando sono entrato all'IRST (Istituto per la Ricerca Scientifica e Tecnologica) di Trento — poi diventato FBK (Fondazione Bruno Kessler) — in un momento entusiasmante in cui l'istituto stava crescendo e il campo delle tecnologie del linguaggio era ancora tutto da esplorare. Ho avuto la fortuna di entrare in un ambiente stimolante, dove la curiosità era incoraggiata e la cultura del fare ricerca che conta — rigorosa ma sempre connessa al mondo reale — ha plasmato il mio modo di pensare fin dall'inizio. Nel corso della mia carriera ho avuto la fortuna di assistere al verificarsi della "magia" più volte: quei rari momenti in cui una nuova idea funziona all'improvviso, in cui una tecnologia supera una soglia e il mondo appare diverso dall'altra parte. Guardando indietro, sento di aver talvolta lavorato su problemi che si sono rivelati più importanti di quanto avessimo compreso all'epoca, e che i problemi che scegli sono di gran lunga più gratificanti delle soluzioni che sviluppi.

Nel tempo il mio ruolo si è evoluto da ricercatore individuale a responsabile della ricerca — costruendo e guidando team, definendo agende scientifiche, tenendo sempre un occhio sui problemi ad alto impatto reale. Questo approccio è continuato quando mi sono trasferito in Silicon Valley per entrare in Amazon Web Services, dove per sei anni ho guidato il team scientifico di traduzione automatica e — in quello che si sarebbe rivelato un primo, affascinante sguardo sulla direzione del campo — un progetto di ricerca sul doppiaggio automatico, allora una frontiera quasi inesplorata. Mi sono poi trasferito a Madrid, dove ora sovrintendo ai progetti scientifici nell'ambito dell'intelligenza artificiale multimodale e multilingue per Amazon Stores Europe. Guardando indietro, ciò che è rimasto costante attraverso tre decenni e tre paesi è la convinzione che la migliore ricerca avvenga al confine tra la curiosità scientifica profonda e il genuino bisogno umano. I software e i benchmark sviluppati dai nostri team sono stati utilizzati da ricercatori e ingegneri in tutto il mondo, e hanno aiutato aziende di ogni dimensione — dalle startup alle grandi imprese — a costruire prodotti e servizi che altrimenti non avrebbero potuto creare.

Insegnare alle Macchine ad Ascoltare (1993–2003)

Quando ho iniziato la mia carriera di ricerca, l'idea di parlare a un computer era ancora in gran parte fantascienza. Non esistevano assistenti vocali, né software di dettatura degni di questo nome, né sistemi in grado di comprendere in modo affidabile il parlato naturale in condizioni reali. La sfida fondamentale era ingannevolmente semplice da enunciare: dato un segnale sonoro, come fa una macchina a capire quali parole sono state pronunciate?

La risposta, si è scoperto, era statistica. Invece di programmare regole per ogni possibile pronuncia o struttura sintattica, si costruisce un modello linguistico — una descrizione matematica di quali parole e sequenze di parole sono più o meno probabili in un dato contesto — e lo si combina con un modello acustico che mappa i suoni in fonemi e parole. I due lavorano insieme: il modello acustico restringe i candidati e il modello linguistico sceglie l'interpretazione più plausibile. Ottenere questa combinazione in modo corretto, efficiente e robusto era il problema centrale del campo.

Il mio lavoro iniziale si è concentrato sul rendere i modelli linguistici più intelligenti e veloci. Lavorando all'interno di una ricca comunità scientifica internazionale che stava collettivamente definendo il campo, ho contribuito con innovazioni ai problemi fondamentali di stima e adattamento — adattare un modello generico a un dominio specifico senza ripartire da zero. Si tratta di un problema che suona tecnico ma ha conseguenze pratiche immediate: un sistema addestrato su testi giornalistici avrà grandi difficoltà quando un medico inizia a dettare un referto radiologico. Le idee sull'adattamento dei modelli linguistici sviluppate in quegli anni si sono rivelate altamente durature; versioni di esse sono rimaste in uso fino all'avvento dei modelli neurali.

A proposito di referti radiologici: una delle applicazioni più significative su cui ho lavorato in questo periodo è stata A.Re.S. (Automatic Reporting System), un sistema che permetteva ai radiologi di dettare referti medici in modo naturale, direttamente al computer. A metà degli anni Novanta era una sfida tecnologica complessa. I medici erano scettici, la tecnologia era fragile e il vocabolario della refertazione è altamente specializzato. Eppure il sistema funzionò così bene da dare vita a una società spin-off dedicata, che ha distribuito con successo sistemi di dettatura negli ospedali italiani — una delle prime validazioni reali del fatto che la tecnologia vocale potesse far risparmiare tempo prezioso ai professionisti in ambienti esigenti. Nello stesso periodo abbiamo esplorato il telecontrollo di robot — l'uso di comandi vocali per guidare una macchina a distanza — e l'inserimento dati vocale in tempo reale direttamente nei database. Queste applicazioni concrete ci hanno costretto a costruire sistemi non solo accurati in laboratorio, ma robusti in condizioni reali.

Questi primi esperimenti applicati erano i segnali di una tendenza molto più ampia: l'idea che le interfacce vocali potessero e dovessero essere integrate in strumenti professionali in ogni settore. Oggi sembra ovvio. A metà degli anni Novanta richiedeva una certa lungimiranza.

Un progetto più ampio e prolungato è stato la trascrizione automatica dei telegiornali italiani. Insieme ai colleghi dell'IRST, ho contribuito a costruire sistemi in grado di ascoltare le notizie radiofoniche e televisive e produrre una trascrizione scritta in tempo quasi reale. Questa sfida era complessa: i notiziari sono veloci, il vocabolario è ampio e in costante cambiamento, gli speaker hanno accenti diversi e le condizioni audio variano. La tecnologia ha trovato il suo primo grande impiego presso la RAI, la radiotelevisione pubblica italiana, dove è stata utilizzata per alimentare gli archivi nazionali e regionali — un esempio precoce e significativo del riconoscimento vocale operante su scala nazionale. Nel tempo, questo lavoro ha dato vita a un'altra società spin-off specializzata in servizi di trascrizione audio e monitoraggio dei media, un settore che è cresciuto enormemente con l'esplosione del volume di contenuti parlati nel mondo. L'esperienza ci ha offerto profonde lezioni su come scalare il riconoscimento vocale nella complessità del mondo reale.

L'ultimo filone di questo periodo ha portato il problema in una direzione diversa: non solo comprendere il parlato, ma rendere i contenuti vocali accessibili oltre ogni barriera linguistics. In una serie di studi sul recupero di informazioni multilingue — condotti in parte attraverso le campagne di valutazione internazionali CLEF — ci siamo chiesti: può un utente cercare in un archivio parlato in inglese e trovare documenti rilevanti in italiano, o viceversa? La risposta era sì, con la giusta combinazione di tecniche di traduzione e recupero. È stato un primo assaggio delle sfide multilingui che avrebbero dominato la fase successiva della mia carriera.

All'inizio degli anni Duemila, il panorama stava cambiando rapidamente. Il riconoscimento vocale stava maturando e si apriva una nuova frontiera: non solo comprendere il linguaggio, ma tradurlo.

L'Ascesa della Traduzione Automatica Statistica (2004–2015)

All'inizio degli anni Duemila era in corso una silenziosa rivoluzione nelle tecnologie del linguaggio. Per decennes, la traduzione automatica era stata dominata da approcci basati su regole: i linguisti codificavano pazientemente la grammatica, il vocabolario e i modi di dire di una coppia di lingue in un insieme di regole artigianali, e la macchina le seguiva. I risultati erano spesso artificiosi, fragili e costosi da costruire. Poi arrivò un'idea radicalmente diversa, le cui radici risalgono al lavoro fondamentale dei ricercatori IBM alla fine degli anni Ottanta e all'inizio degli anni Novanta: invece di programmare le regole, perché non impararle automaticamente dai dati? Si forniscono al sistema milioni di coppie di frasi tradotte, lo si lascia scoprire i modelli statisticamente, ed esso troverà strutture che nessun linguista avrebbe pensato di scrivere. Ci vollero anni perché la comunità più ampia abbracciasse pienamente questa visione, ma a metà degli anni Duemila la traduzione automatica statistica (SMT) stava trasformando il campo.

Mi sono buttato in questo nuovo paradigma con un team di ricercatori di talento, e si è rivelato uno dei periodi più produttivi della mia carriera. I problemi erano difficili, la comunità era vivace e competitiva, e le applicazioni erano evidenti: il mondo aveva un forte bisogno di modi efficienti per condividere informazioni superando le barriere linguistiche.

I nostri contributi hanno toccato molte delle sfide fondamentali. Una riguardava come gestire il fatto che le lingue ordinano le parole diversamente — il tedesco, ad esempio, tende a spingere i verbi alla fine della frase in modi che rendono assurda una traduzione parola per parola. Abbiamo sviluppato modi più intelligenti per i sistemi di traduzione di riordinare parole e frasi, un problema ingannevolmente complicato con un grande impatto sulla qualità della traduzione. Un altro riguardava l'efficienza: i modelli di traduzione sono enormi, e renderli abbastanza veloci e compatti da essere utili in pratica ha richiesto innovazioni nel modo in cui la conoscenza linguistica veniva memorizzata e recuperata.

Due strumenti open-source che abbiamo costruito in questo periodo hanno avuto un impatto importante sul campo. IRSTLM, un toolkit per la costruzione e la gestione dei modelli linguistici statistici al cuore di qualsiasi sistema di traduzione, è stato adottato da gruppi di ricerca e aziende in tutto il mondo. Moses, co-sviluppato con un consorzio internazionale di gruppi di ricerca leader, è diventato la piattaforma open-source standard per la traduzione automatica statistica per quasi un decennio — lo strumento che innumerevoli ricercatori e ingegneri hanno usato per costruire, testare e distribuire sistemi di traduzione. Per un periodo, Moses è diventato l'infrastruttura di riferimento per il settore, ampiamente adottata da ricercatori e aziende. Vedere un software diventare l'infrastruttura comune di un'intera comunità scientifica è una di quelle esperienze profondamente soddisfacenti che rendono la ricerca degna di essere vissuta.

Insieme a questi contributi tecnici, ho investito molto in qualcosa che è facile sottovalutare: la valutazione. La scienza avanza più rapidamente quando la comunità concorda su come misurare i progressi, e nella traduzione del linguaggio parlato quel consenso mancava. Insieme ai colleghi, ho contribuito a istituire e poi guidare la campagna di valutazione IWSLT — una competizione internazionale annuale sulla traduzione del linguaggio parlato che utilizzava i TED Talk come banco di prova comune, rendendo possibile il confronto equo tra i sistemi di team di tutto il mondo. Il dataset WIT3 di talk trascritti e tradotti che abbiamo costruito per supportare IWSLT fu per molto tempo una delle risorse più utilizzate nel campo. Gestire una campagna di valutazione condivisa sembra un lavoro organizzativo, ma è anche una forma di stewardship scientifica: si contribuisce a fornire un quadro di riferimento per le domande che la comunità si pone e per il modo in cui il progresso viene misurato.

Un terzo filone era forse il più direttamente connesso all'impatto umano: la traduzione assistita da computer e la questione di come la traduzione automatica potesse rendere i traduttori professionisti più veloci e migliori, piuttosto che semplicemente sostituirli. La traduzione è una professione qualificata e cognitivamente impegnativa, e il rapporto tra traduttori umani e strumenti di traduzione automatica è sottile. Abbiamo condotto studi accurati misurando quanto la traduzione automatica aiutasse effettivamente — in quali condizioni, per quali coppie di lingue, per quali tipi di testo — e sviluppato metodi affinché i sistemi si adattassero continuamente alle correzioni di un traduttore, migliorando ad ogni modifica. Questo lavoro è confluito in MateCat, una piattaforma di traduzione professionale open-source sviluppata in collaborazione con un partner industriale, che ha portato queste idee nelle mani di traduttori reali che lavorano su documenti reali.

Quando le reti neurali hanno iniziato a rimodellare il campo intorno al 2016, l'era della traduzione statistica aveva lasciato un'eredità duratura: strumenti open-source usati da migliaia di persone, benchmark di valutazione che hanno strutturato un decennio di ricerca e una comprensione molto più chiara di ciò che serve — tecnicamente e umanamente — per superare la barriera linguistica su larga scala. Ma la transizione, quando è arrivata, è stata rapida e inesorabile — ancora più veloce del precedente passaggio dalla linguistica computazionale basata su regole agli approcci statistici guidati dai dati, che a sua volta era sembrato rivoluzionario. Nel giro di pochi anni, la traduzione automatica neurale aveva reso tecnicamente obsoleto gran parte di ciò che avevamo costruito, costringendoci a ripensare radicalmente i nostri approcci, i nostri strumenti e le nostre intuizioni su come le macchine imparano a tradurre. È stato nel contempo educativo ed entusiasmante e, come avrei imparato ad apprezzare, esattamente il tipo di cambio di paradigma che mantiene viva la scienza.

La Rivoluzione Neurale: Traduzioni più Intelligenti e Fluenti (2016–2021)

L'arrivo della traduzione automatica neurale segnò, per chi era nel campo come me, la chiusura repentina di un'epoca. Quasi dall'oggi al domani, i sistemi basati su reti neurali profonde hanno iniziato a produrre traduzioni drammaticamente più fluenti e naturali di quanto gli approcci statistici avessero mai raggiunto. La comunità di ricerca si è affrettata a capire cosa stesse succedendo, perché funzionasse così bene e — crucialmente — se la fluidità fosse la stessa cosa della qualità.

Quest'ultima domanda si è rivelata più importante di quanto sembrasse inizialmente. Gli output della traduzione neurale potevano leggersi magnificamente pur essendo sottilmente sbagliati: tradurre male i numeri, omettere clausole o non rispettare il significato di termini specialistici. Uno dei nostri primi contributi in questa nuova era è stato guardare attentamente e rigorosamente dove la traduzione neurale guadagnava effettivamente rispetto a quella statistica, e dove ancora mancava. Questo tipo di valutazione comparativa onesta è meno glamour della costruzione di nuovi sistemi, ma è essenziale: senza di essa, il campo rischia di essere sedotto dalle impressioni piuttosto che guidato dalle prove.

Forse l'illustrazione più vivida di quanto velocemente sia avvenuta questa transizione è stata ModernMT — un sistema di traduzione automatica adattiva in tempo reale che stavamo sviluppando basandoci su approcci statistici, che improvvisamente si è trovato di fronte a una scelta esistenziale: adattarsi o diventare irrilevante. Nel giro di poche settimane, il team ha effettuato una svolta totale, ricostruendo ModernMT dalle fondamenta sulla nascente architettura transformer neurale. Che abbia funzionato — che un team piccolo e determinato potesse assorbire un cambiamento di paradigma di quella portata in un lasso di tempo così compresso — è una testimonianza sia della qualità delle persone coinvolte sia della chiarezza del momento scientifico. ModernMT è poi diventato un progetto open-source e alla fine si è trasformato in una società startup — una che ho avuto il privilegio di guidare come CEO prima di entrare in Amazon. La sua adozione open-source, tuttavia, è stata più limitata di quanto sperassimo: la comunità della traduzione neurale è cresciuta con notevole velocità ma si è anche frammentata altrettanto rapidamente, con molte soluzioni concorrenti che emergevano in rapida successione. È stata una lezione di umiltà su come una comunità scientifica dinamica possa essere, al contempo, un acceleratore e un vento contrario.

In AWS, il focus era nettamente diverso: costruire sistemi di traduzione automatica neurale adattivi in grado di servire su larga scala le esigenze dei grandi clienti enterprise — aziende con elevati volumi di traduzione, requisiti di qualità rigorosi e la necessità di personalizzare i sistemi per i propri domini e terminologie. Questo significava investire nell'intero stack della tecnologia di traduzione neurale, dall'architettura del modello all'infrastruttura di servizio efficiente, sempre con un occhio all'affidabilità e alla scalabilità piuttosto che ai soli benchmark accademici.

Una delle sfide determinanti di questo periodo è stata la multilingualità. La traduzione automatica statistica era stata costruita in gran parte coppia di lingue per coppia di lingue, richiedendo sistemi separati e grandi quantità di dati per ogni combinazione. Gli approcci neurali hanno aperto una possibilità affascinante: un singolo modello addestrato su molte lingue simultaneamente, capace di tradurre tra coppie che non aveva mai visto esplicitamente, e di prestare la sua conoscenza delle lingue ricche per aiutare quelle povere. Abbiamo investito molto in questa direzione, sviluppando metodi per la traduzione automatica neurale multilingue, il trasferimento dell'apprendimento tra le lingue e l'adattamento a lingue con risorse sbilanciate — come le lingue scandinave — che dispongono di dati in quantità inferiore rispetto a lingue più rappresentate sul web, ma che un servizio globale come AWS non poteva trascurare.

Un tema ricorrente in tutto questo periodo è stato il controllo: come si fa a fare in modo che un sistema di traduzione neurale non si limiti solo a ciò che ha imparato a fare in media, ma risponda a ciò di cui si ha specificamente bisogno in un dato momento? Questo si è manifestato in diversi problemi concreti. Uno dei più insidiosi era la gestione della terminologia — garantire che un sistema traduca un termine tecnico nel modo richiesto da un cliente, e non nel modo in cui lo ha incontrato più frequentemente nei dati di addestramento — un problema che i modelli neurali, inclini a parafrasare liberamente, faticavano a gestire. Abbiamo sviluppato metodi di addestramento che insegnano ai sistemi a respektare i vincoli terminologici imposti dal cliente, una capacità dal valore commerciale directo nella traduzione legale, medica e tecnica. Un filone parallelo ha riguardato la formalità e lo stile: come tradurre nel registro formale o informale appropriato al contesto, o come modellare lo stile idividuale di un traduttore umano. In AWS, queste domande hanno assunto una dimensione industriale aggiuntiva: come garantire tutto questo in modo affidabile, efficiente, alla scala di grandi clienti enterprise che elaborano milioni di parole al giorno?

Agli inizi degli anni 2020, la traduzione neurale era maturata da novità dirompente a fondamento indiscusso del campo. Ma anche mentre ne consolidavamo la comprensione, qualcosa di più grande stava muovendosi. Le stesse architetture neurali che avevano trasformato la traduzione automatica venivano scalate, addestrate su vastissime porzioni di internet, e si stavano trasformando in qualcosa di qualitativamente nuovo: grandi modelli linguistici capaci di tradurre, scrivere, ragionare e molto altro ancora. Ancora una volta, un nuovo cambio di paradigma si stava avvicinando.

Contesto più Ricco, Ambizioni più Grandi (2018–2023)

Con la maturazione della traduzione automatica neurale, è diventato sempre più evidente che l'architettura alla base di questi sistemi non era fondamentalmente diversa da quella che avrebbe poi alimentato i grandi modelli linguistici (LLM). Vale la pena soffermarsi su questo punto, perché è un fatto che spesso va perso nell'entusiasmo intorno all'intelligenza artificiale moderna: l'architettura Transformer, che oggi è alla base di praticamente ogni LLM, è stata originariamente sviluppata per la traduzione automatica. La struttura encoder-decoder al suo cuore è stata progettata per risolvere il problema di tradurre sequenze di parole da una lingua all'altra. Da quel punto di partenza, i ricercatori hanno iniziato ad applicare le stesse idee ad altri compiti linguistici — sintesi, risposta alle domande, analisi del sentimento — rendendosi gradualmente conto che un singolo modello, addestrato su molti compiti simultaneamente, poteva imparare qualcosa di più generale. Questa convergenza verso l'apprendimento multi-task è stata il ponte concettuale che ha portato, passo dopo passo, ai grandi modelli linguistici che conosciamo oggi. La traduzione automatica non è un campo che è stato travolto dalla rivoluzione dell'intelligenza artificiale — è uno dei campi che l'ha generata.

La differenza tra la traduzione neurale e i grandi modelli linguistici era di portata, non di natura: i sistemi di traduzione neurale erano addestrati a fare una cosa sola, tradurre, mentre gli LLM sarebbero stati addestrati su dati molto più vasti per fare quasi tutto. Ma il meccanismo era lo stesso. E questo significava che i problemi con cui ci confrontavamo nella traduzione automatica — come condizionare l'output di un modello su esempi, come incorporare istruzioni sullo stile o la formalità, come fare in modo che un sistema si comporti diversamente in base al contesto fornito al momento dell'inferenza — erano in fondo gli stessi problemi che avrebbero poi definito l'arte del prompting. Stavamo, senza saperlo del tutto, affrontando le basi del prompt engineering nel laboratorio circoscritto e rigoroso della traduzione automatica.

Con questa prospettiva in mente, le direzioni di ricerca che abbiamo perseguito in questo periodo acquistano un significato più profondo. Una nuova domanda era emersa: e se, invece di affidarsi esclusivamente a ciò che un modello aveva imparato durante l'addestramento, gli si potessero fornire esempi rilevanti al momento della traduzione? Questa idea, che la comunità aveva iniziato a esplorare con il nome di traduzione context-augmented o retrieval-augmented, è stata una a cui abbiamo contribuito attivamente. L'approccio era semplice in linea di principio: recuperare gli esempi più rilevanti da un database di traduzioni passate — le cosiddette corrispondenze fuzzy, frasi simili ma non identiche all'input — e fornirle al modello come guida aggiuntiva. I nostri contributi in questo spazio sono stati riconosciuti con un brevetto per la traduzione automatica aumentata da corrispondenze fuzzy. Ciò che mi colpisce in retrospettiva è come questa linea di ricerca convergesse naturalmente con idee che la comunità dell'intelligenza artificiale stava iniziando a esplorare su larga scala — ciò che sarebbe poi diventato noto come apprendimento in-context e retrieval-augmented generation (RAG). All'epoca i grandi modelli linguistici erano ancora lontani dall'essere competitivi nella traduzione automatica: lavoravamo su questi problemi fondamentali nel contesto concreto e rigoroso della traduzione, aprendo strade che il campo avrebbe poi percorso su scala molto più ampia.

Dalla traduzione arricchita dal contesto, è stato un passo naturale — sebbene tecnicamente ambizioso — porre una domanda molto più grande: e se si potesse tradurre non solo il testo, ma un'intera esperienza audiovisiva?

Quando si guarda un film doppiato o un documentario tradotto, si sta fruendo del risultato di un processo enormemente laborioso: traduttori, doppiatori, registi e ingegneri del suono che lavorano assieme per far sembrare naturale, nella propria lingua, una performance nata in un'altra. I movimenti delle labbra devono corrispondere approssimativamente alle parole. Il ritmo deve adattarsi alla cadenza originale. La voce deve portare il giusto peso emotivo. Per decenni questo processo aveva resistito all'automazione, perché si trova all'intersezione di molteplici problemi difficili da risolvere simultaneamente.

Fin dal mio arrivo in AWS ho avuto l'opportunità — e la convinzione che fosse il momento giusto — di avviare un programma di ricerca pionieristico sul doppiaggio automatico, in un'epoca in cui i grandi modelli linguistici erano ancora di là da venire. L'obiettivo era costruire un sistema end-to-end capace di prendere un video in una lingua e produrne automaticamente una versione doppiata in un'altra, progettato fin dall'inizio per consentire a traduttori e professionisti del doppiaggio di intervenire e correggere i risultati a ogni fase del processo — dalla traduzione alla sintesi vocale. Questo significava affrontare una catena di problemi interconnessi che nessuno aveva ancora aggredito sistematicamente nel loro insieme.

Il primo era la traduzione automatica isometrica: insegnare a un modello di traduzione a produrre output di lunghezza approssimativamente giusta per corrispondere alla durata della frase del parlante originale. Il secondo era l'allineamento prosodico: una volta ottenuta una traduzione della giusta lunghezza, occorre che la voce sintetizzata la pronunci con un ritmo e una tempistica che rispecchino la cadenza del parlante originale. Per questa componente collaboravamo strettamente con il team di sintesi vocale di Alexa, integrando competenze che raramente si trovano sotto lo stesso tetto — e che in questo progetto erano invece profondamente complementari e vitali per i nostri progressi. Il terzo era la valutazione: come si misura se un video doppiato è buono? Abbiamo sviluppato PEAVS — una metrica di valutazione percettiva per la sincronia audio-visiva basata sui giudizi di spettatori reali — uno strumento di portata generale che si è rivelato particolarmente utile per valutare la qualità dei video doppiati.

Nel complesso, questo insieme di lavori ha contribuito a consolidare il doppiaggio automatico come un'area di ricerca riconosciuta. La visione che lo anima — che le barriere linguistiche nei contenuti video possano un giorno essere superate automaticamente, rendendo film, lezioni e storie accessibili a chiunque in qualsiasi lingua — rimane una delle applicazioni più affascinanti su cui ho lavorato.

L'Era dei Grandi Modelli Linguistici: Nuove Domande alla Frontiera (2022–oggi)

Ciò che era cambiato era la scala, e con la scala era arrivato qualcosa che sembrava, per la prima volta nella mia carriera, vera magia. Devo ammettere che ciò che questi modelli hanno saputo risolvere ha stupito chiunque lavorasse nel settore, me compreso. Avevo assistito al tramonto della linguistica computazionale basata su regole, alla rivoluzione statistica, all'avvento del neurale — ma questo è stato, senza dubbio, il cambio di paradigma più profondo e dirompente a cui abbia mai assistito.

Per la comunità di ricerca, tuttavia, l'arrivo dei grandi modelli linguistici non è stato un momento per sedersi ad ammirare. Ha sollevato domande urgenti e scomode, e mi sono trovato attratto da diverse di esse.

La prima riguardava uno dei risultati empirici più sorprendenti degli ultimi anni: quanta parte del web multilingue sia già tradotta automaticamente. Questa domanda è emersa direttamente dal nostro lavoro sullo sviluppo dei primi LLM multilingui in AWS — uno sforzo volto a preparare la transizione dai sistemi di traduzione neurale dedicati alla traduzione basata su grandi modelli linguistici, che ci ha spinto a guardare con attenzione alla qualità e alla composizione dei dati di addestramento. Insieme ai colleghi, abbiamo misurato la prevalenza di contenuti tradotti automaticamente sul web — e i risultati sono stati sorprendenti. Una quota significativa dei contenuti web multilingui risulta essere tradotta automaticamente, spesso senza alcuna indicazione al lettore. Le implicazioni sono profonde: se i dati utilizzati per addestrare i futuri sistemi di intelligenza artificiale sono essi stessi l'output di sistemi precedenti, il rischio di errori composti e distorsioni autorinforzanti è reale e concreto. È uno dei cicli di feedback più significativi nell'IA moderna, con cui il settore sta appena iniziando a fare i conti.

La seconda domanda riguardava la fiducia e l'affidabilità. I grandi modelli linguistici sono oggi ampiamente utilizzati per recuperare e sintetizzare informazioni — rispondendo a domande, riassumendo documenti e aiutando le persone a orientarsi in temi complessi. Ma come si fa a sapere se la risposta che un modello fornisce è effettivamente basata sulle fonti da cui afferma di attingere, o se sta confabulando in modo plausibile? Questo problema, noto come fedeltà nella generazione aumentata dal recupero (RAG), è diventato il fulcro di una nuova linea di ricerca. Abbiamo sviluppato MEMERAG, un benchmark multilingue per valutare quanto fedelmente i sistemi RAG rispondano alle domande in diverse lingue — uno strumento pensato per dare a ricercatori e ingegneri un modo rigoroso di misurare una proprietà facile da descrivere ma sorprendentemente difficile da quantificare. In parallelo, abbiamo esplorato la possibilità di addestrare i modelli a valutare da soli la propria fedeltà tra le lingue, sviluppando sistemi di valutazione che imparano a stimare la propria affidabilità senza richiedere costose annotazioni umane per ogni singolo idioma.

Questi due filoni — qualità dei dati e affidabilità dell'output — possono sembrare preoccupazioni tecniche, ma indicano qualcosa di più grande. Man mano che i sistemi di intelligenza artificiale diventano più capaci e più ampiamente diffusi, le domande che contano di più non sono solo "il sistema può farlo?" ma "possiamo fidarci di ciò che produce, e sappiamo da dove l'ha imparato?". Queste sono domande che si collocano all'intersezione dell'apprendimento automatico, del recupero delle informazioni e di quella che potremmo definire, in senso lato, intelligenza artificiale responsabile. Sono anche estensioni naturali di temi che hanno attraversato la mia ricerca fin dall'inizio: il rigore della valutazione, l'affidabilità nel mondo reale e lo scarto tra output apparentemente impressionanti e sistemi concretamente affidabili.

Il mio passaggio da AWS ad Amazon Stores è stato una scelta deliberata, guidata dalla convinzione che stiamo vivendo uno dei momenti più entusiasmanti nella storia delle applicazioni dell'intelligenza artificiale — un momento in cui, accanto ai continui progressi nella tecnologia di base, è diventata possibile una gamma straordinaria di applicazioni che fino a poco tempo fa erano semplicemente fuori portata. Dopo anni dedicati allo sviluppo di strumenti e modelli fondamentali, mi sono sentito attratto dalla possibilità di stare più vicino ai problemi concreti dei clienti, e di vedere l'intelligenza artificiale tradursi in miglioramenti diretti e tangibili nella vita delle persone. Entrambe le dimensioni — spingere la frontiera di ciò che l'intelligenza artificiale può fare, e trovare i modi migliori per metterla al servizio delle persone — non sono mai state più importanti o più complementari. La sfida di far funzionare le informazioni sui prodotti, le interfacce per i clienti e le esperienze di acquisto in modo fluido tra decine di lingue e culture diverse — alla scala e con la qualità che gli utenti si aspettano — è uno dei problemi di IA multilingue più complessi esistenti, e uno di quelli in cui la distanza tra una buona idea e l'impatto reale può essere incredibilmente breve.

Man mano che la mia carriera si è evoluta, è cambiato anche il mio rapporto con la ricerca stessa. Se un tempo misuravo il mio contributo in paper e sistemi sviluppati, ora mi trovo focalizzato sul quadro generale: creare le condizioni affinché la scienza possa esprimersi al meglio, fare da mentore alla prossima generazione di ricercatori e aiutare persone di talento a dare il massimo. Questo senso di responsabilità verso il futuro ha radici profonde. Per vent'anni ho insegnato all'università, trasmettendo le fondamenta delle tecnologie della voce e del linguaggio a studenti che avrebbero poi contribuito a plasmare il settore. Ho avuto il privilegio di seguire quindici dottorandi nel corso della mia carriera — ognuno un lungo e arricchente viaggio intellettuale, dalla prima domanda di ricerca alla tesi discussa. Molti di loro sono oggi ricercatori e ingegneri in importanti aziende tecnologiche e università in tutto il mondo, impegnati su problemi che nemmeno esistevano quando hanno iniziato il dottorato. Vedere gli ex studenti crescere e, di tanto in tanto, incrociare i loro lavori citati nei paper che passano sulla mia scrivania, è una delle soddisfazioni più silenziose e durature di una vita dedicata alla scienza.

Questo impegno si traduce sempre più nella guida dei nostri sforzi per un'IA responsabile — garantendo che la tecnologia che costruiamo sia non solo capace ed efficiente, ma sicura, trasparente e sviluppata con una chiara consapevolezza del suo impatto sulla società. Dopo tre decenni passati a spostare i confini di ciò che le macchine possono fare con il linguaggio, trovo che la domanda fondamentale sia rimasta sempre la stessa: non solo se possiamo costruire una tecnologia, ma se sia giusto farlo, e come possiamo assicurarci che sia davvero al servizio delle persone, inclusi i futuri sistemi agentici chiamati ad agire per nostro conto.

Trent'anni dopo, questo campo non somiglia affatto a quello che immaginavo quando ho iniziato a lavorare sui primi modelli linguistici a Trento. Eppure, le domande di fondo mantengono una continuità straordinaria: come fanno le macchine a imparare, comprendere e generare il linguaggio umano? Come possiamo renderle abbastanza affidabili da potercene fidare? Come possiamo costruire sistemi capaci di servire autenticamente le persone in tutte le lingue e culture? Erano domande che valeva la pena porsi nel 1993. Vale la pena porsele oggi. E ho il forte sospetto che continuerà a valere la pena porsele — in forme che oggi non possiamo nemmeno immaginare — ancora per molto tempo a venire.

Google Sites

Report abuse