
Tecnologia 10 Mag
Meta ha in attivo più progetti legati al segmento dell'intelligenza artificiale generativa e al contrario di quanto fatto da Microsoft, OpenAI e Google stessa con il suo Bard, ha abbracciato un modello open source per spingere maggiormente sugli sviluppi grazie alla partecipazione di team esterni.
Tra i progetti in essere c'è quello relativo a un modello di linguaggio AI che nulla a che vedere con ChatGPT o i chatbot in generale. Il progetto si chiama Massively Multilingual Speech (MMS) e attraverso diversi modelli è in grado di riconoscere oltre 4.000 lingue parlate e di produrre il parlato tramite sintesi vocale in oltre 1.100 lingue.
Qual è il suo scopo? Meta afferma che molte delle lingue del mondo rischiano di scomparire, perciò l'obiettivo è rendere più facile l'accesso alle informazioni linguistiche affidandosi a degli LLM che possano aiutare a preservare questo immenso patrimonio. Proprio per la natura open source sopra descritta, Meta ha così commentato riguardo gli sviluppi in corso.
"Oggi condividiamo pubblicamente i nostri modelli e il nostro codice in modo che altri membri della comunità di ricerca possano basarsi sul nostro lavoro. Attraverso di esso, speriamo di dare un piccolo contributo per preservare l'incredibile diversità linguistica del mondo".
Sappiamo che i modelli di riconoscimento e di sintesi vocale sono particolarmente adatti alla collaborazione con realtà esterne, poiché per diventare precisi necessitano di migliaia di ore di addestramento audio, fondamentali per l'apprendimento automatico poiché consentono agli algoritmi di classificare e "comprendere" correttamente i dati. Un aspetto curioso della raccolta dati riguarda le fonti utilizzate da Meta, la quale ha attinto a registrazioni audio di testi religiosi tradotti come spiega bene in un commento relativo al progetto.
"Ci siamo rivolti a testi religiosi, come la Bibbia, che sono stati tradotti in molte lingue diverse e le cui traduzioni sono state ampiamente studiate per la ricerca sulla traduzione linguistica basata su testo. Queste traduzioni hanno registrazioni audio pubblicamente disponibili di persone che leggono questi testi in diverse lingue".
Grazie a questa semplice soluzione il modello si è arricchito di una buona quantità di registrazioni, raggiungendo la comprensione di circa 4.000 lingue. Dopo questo particolare approccio nell'addestramento del modello, Meta ha operato per rendere i dati più utilizzabili affidandosi a wav2vec 2.0, il modello di apprendimento dell'azienda che può eseguire il training su dati non etichettati. La combinazione con le fonti di dati convenzionali, come quelle religiose, ha portato a quanto pare a ottimi risultati.
Meta avverte che i suoi nuovi modelli non sono ancora perfetti e andranno addestrati ulteriormente, perciò l'apporto da parte di team esterni di rivelerà fondamentale per il miglioramento della tecnologia.
Galaxy S23 Ultra: come ottenere il massimo grazie ai software di Samsung | Video
SONY ZV-1 II: abbiamo provato la nuova Vlog Camera. Ne vale la pena?
Prime Video: tutti i film e le serie TV in arrivo a giugno 2023
Hisense Europe in Slovenia: dove nascono prodotti e tecnologie per tutto il mondo
Commenti
Grazie al Cielo!
Carichi il tutto su un robot, una mano di vernice dorata e...
mi puzza!!!
https://media0.giphy.com/me...