
22 Ottobre 2020
Da ormai diversi anni il mondo della traduzione automatizzata è cambiato notevolmente, ma il nuovo modello realizzato da Facebook si prepara a rivoluzionarlo: andiamo con ordine e cerchiamo di capire il perché e il motivo per cui questo settore è molto più interessante di ciò che si possa pensare.
La sempre più ampia presenza di algoritmi di Machine Learning ha gradualmente contribuito ad aumentare la qualità dei testi tradotti automaticamente da strumenti come il noto Google Translate (ma è solo la punta dell'iceberg di un campo incredibilmente più vasto), dal momento che l'allenamento delle reti neurali ha permesso agli algoritmi di essere sempre più capaci di estrapolare il contesto in cui si trovano le parole, in modo da assegnare il giusto significato alla traduzione.
Nel settore della traduzione, dedurre il contesto di un discorso, una frase o un dialogo è fondamentale, al fine di essere certi di poter riportare in maniera corretta lo stesso concetto nel target language (la lingua verso cui si traduce) e il fatto che le macchine stiano diventando sempre più capaci a farlo può rappresentare, nei prossimi anni, una vera sfida per il lavoro del traduttore (anche se campi come la poesia, i testi musicali e la letteratura restano ancora impossibili da decifrare per gli algoritmi).
Tutto ciò però è valido solo nel momento in cui l'inglese rappresenta il source language (la lingua d'origine) o il target language, visto che la maggior parte dei sistemi ML è costruita proprio attorno alla necessità di tradurre una/da una qualsiasi lingua in/verso l'inglese. Le cose cambiano profondamente quando si vuole trasformare un testo giapponese in italiano, ad esempio.
La linguistica ci insegne che ogni parola (termine utilizzato per semplificare) è composta da tre elementi: un significato (il concetto mentale), un significante (la parte fisica della parola, il modo in cui è scritta/pronunciata) e il referente (ciò di cui si sta parlando). Il processo di traduzione consiste nel trovare un significante (nella lingua verso cui si traduce) che condivida un significato abbastanza simile per lo stesso referente. Non è certo un compito facile, in quanto per ogni lingua esistono concetti e sfumature note soltanto ai parlanti nativi, quindi effettuare una traduzione corretta non è affatto scontato.
Questo è valido nel momento in cui si prova a passare da una lingua A ad una lingua B, ma immaginate cosa può succedere se questo scenario diventa A > A1 > B, dove A e B sono sempre le nostre lingue source e target, mentre A1 svolge il compito di intermediario universale. A ricoprire il ruolo di A1 - nel campo della traduzione automatizzate - è sempre e solo l'inglese, in quanto si tratta del minimo comune denominatore di tutti gli algoritmi di traduzione: tutto passa da e per l'inglese.
Ciò significa che tutti i problemi menzionati sino a poco fa vengono ulteriormente moltiplicati nel momento in cui si sceglie di effettuare una traduzione da e verso due lingue che non siano l'inglese. Tutti gli algoritmi principali, infatti, traducono prima il testo dalla lingua originale all'inglese, per poi tradurlo nuovamente verso quella desiderata. Motivo per cui uno tsumetai può diventare prima cold/cool e, successivamente, trasformarsi sia in freddo che in fico. Il doppio passaggio indebolisce il contesto e rende le traduzioni automatizzate imprevedibili e poco affidabili (anche se ultimamente è sempre meno frequente): ecco che entra in gioco il nuovo modello di Facebook.
Il motivo per cui questo articolo si apre parlando di rivoluzione risiede nel fatto che il modello di Facebook ci prospetta uno scenario molto interessante, ovvero quello in cui non sarà più necessario affidarsi ad algoritmi basati sullo schema A > A1 > B, dal momento che rende possibile la traduzione diretta da lingua A a lingua B, eliminando completamente il bisogno di usare l'inglese come intermediario.
Il modello di Facebook, chiamato M2M-100 - si basa sempre sull'utilizzo dell'intelligenza artificiale ed è al momento in grado di operare con qualsiasi coppia pescata da un catalogo da ben 100 lingue. Al momento non è ancora stato applicato ad alcun prodotto commerciale, ma l'azienda ha deciso di renderlo open source, quindi è già possibile visionare il progetto su GitHub, consultando il link in Fonte.
M2M-100 è stato realizzato partendo da un database contenente oltre 7,5 miliardi di frasi scritte nelle 100 lingue selezionate, tutte pescate dal web e da fonti pubblicamente accessibili a chiunque. L'azienda ribadisce questo concetto in modo da far capire che non si tratta di un modello sviluppato attraverso l'analisi dei contenuti delle sue piattaforme, quindi sfruttando i dati dei propri utenti.
Successivamente sono stati creati 14 gruppi basati su elementi come la vicinanza geografica, le similitudini culturali e quelle linguistiche, al fine di catalogare e inserire in ognuno di essi tutte le lingue e le frasi scelte. Questa prima fase di selezione ha permesso di mettere in relazione tra loro le lingue con più punti in comune, in modo da facilitare il processo che è stato descritto in precedenza.
Ovviamente questa classificazione non esclude che - ad esempio - una delle lingue del gruppo 1 abbia elementi in comune con alcune del gruppo 5, tutt'altro. Queste eccezioni hanno permesso di mettere in correlazione tra di loro tutte quelle scelte, creando dei veri e propri ponti linguistici in grado di avvicinare tutti e 14 i gruppi. Il lavoro di allenamento del modello di traduzione è partito proprio da questo punto: M2M-100 è stato letteralmente foraggiato con le 7,5 miliardi di frasi selezionate, le quali hanno dato origine a 2.200 diverse direzioni di traduzione, ovvero passaggi da una lingua all'altra.
Tutto ciò ha permesso di creare il primo modello funzionante di MMT (Multilingual Machine Translation), attraverso cui è possibile mettere in atto ciò che è stato descritto poco sopra, ovvero un sistema di traduzione che non abbia più una lingua predefinita rispetto a cui tutte le altre vengono confrontate, ma che sia invece universale e in grado di trattarle tutte allo stesso modo, garantendo che il famoso passaggio da A a B non sia sporcato da uno intermedio. In questo senso si tratta di una vera e propria rivoluzione per il settore.
Recensione Motorola Razr 40 Ultra: due smartphone nel taschino
MSI: i notebook per produttività e creator al Computex 2023 | VIDEO
Netflix: tutti i film e le serie TV in arrivo a giugno 2023
Confronto smartphone fascia media 2023: il vincitore che non ti aspetti | Video
Commenti
mi riferivo al fatto che Trump fa 2 pesi 2 misure per ogni cosa... vedi "nessuno deve avere rapporti commerciali con società cinesi" poi scopri che ha conto corrente in Cina per evadere le tasse americane.
E' comprensibile, l'america non è mai stata invasa dai turchi, l'europa si.
è nutella che compra dai turchi, non i turchi che obbligano la italianissima Nutella a usarli
Se prende le frasi da facebook fa in automatico la traduzione sbagliata con errori tipici degli analfabeti che non sanno dove mettere h e apostrofi. Già immagino anche i punti esclamativi e i puntini di sospensione ogni 3 parole
sarà vecchio il 3 novembre si spera
Ma non su Firefox, giusto?
umorismo molto stantio
aggiornamento... Trump ha detto che essendo azienda turca non c'è problema
Maledetti turchi! Dopo aver rovinato la nutella con le loro nocciole si sono messi pure a venderci al miglior offerente!
Ormai quando Facebook sviluppa una nuova soluzione software non posso fare a meno di vedervi dietro i soliti scopi di profilazione
ecco perche' ogni tanto nelle traduzioni escono certe castronerie senza senso: passano prima dall'inglese che notoriamente e' povero di sfumature linguistiche.
OT: nessuno parla dell'estensione NanoDefender che da poco è identificata come malware dopo essere stata acquisita da un'azienda turca che vende i dati degli utenti?