
26 Novembre 2021
16 Settembre 2021 3
L'intelligenza artificiale (AI) è sempre più protagonista anche nel mercato audio-video. Gli ambiti in cui l'AI è già utilizzata con successo sono numerosi: un esempio concreto lo ritroviamo nell'elaborazione delle immagini svolta da ormai tutti i televisori più sofisticati. I vantaggi sono del resto concreti come abbiamo spiegato nell'approfondimento sull'uso dell'AI nei TV 8K Samsung.
Esistono anche altri scenari d'uso per l'intelligenza artificiale: uno di questi è l'encoding, cioè il processo di codifica dei video che poi vengono veicolati all'utente finale tramite le trasmissioni televisive o lo streaming. A spiegare i benefici dell'AI applicata alla più recenti tecnologie è stato Thierry Fautier, VP of Strategy presso Harmonic, una compagnia specializzata in soluzioni per aziende che producono, elaborano e distribuiscono contenuti video per la televisione e internet.
L'adozione dell'AI encondig avverrà in due fasi, la prima delle quali è già stata implementata da varie compagnie tra cui figura la stessa Harmonic. Si parla nello specifico di machine learning abbinato a codec come AVC, HEVC, AV1 e AVS3. La seconda fase si concentrerà invece su soluzioni di nuova generazione come VVC e AV2.
A seguire tutte le principali tematiche trattate, dalla situazione attuale agli sviluppi futuri:
Harmonic offre già una codifica assistita dall'AI che prende il nome di EyeQ Content-Aware Encoding (CAE). Alla base di questa soluzione vi sono algoritmi che impiegano il machine learning per adattare il processo al sistema visivo umano. Traducendolo in parole più semplici si può dire che si concentra l'ottimizzazione nei punti in cui lo sguardo dello spettatore si focalizza (è quello che fa anche Sony con il Cognitive Processor XR): EyeQ CAE analizza la qualità video in tempo reale e sfrutta tutte le capacità disponibili solo dove e quando risulta fondamentale preservare il massimo delle informazioni.
Fautier spiega che esistono già oltre 100 implementazioni dell'encoding CAE nel mondo con AVC e HEVC, quasi tutte pensate per le piattaforme OTT (Over-The-Top, cioè chi fornisce servizi via internet). Harmonic ha accumulato una notevole esperienza nel settore grazie a vari test condotti nel corso degli anni, come le sperimentazioni effettuate durante l'edizione 2019 del Roland Garros, con alcuni incontri trasmessi (non liberamente per chiunque) a risoluzione 8K con HEVC. Il risparmio in termini di banda può raggiungere il 40-50% con una qualità del tutto comparabile all'encoding senza AI.
EyeQ è basato sugli attuali encoder e non necessita di ulteriore capacità di calcolo. Non è però l'unico approccio possibile: altre tecnologie basate sull'AI richiedono invece maggiori risorse che possono essere ripartite in due modi: il primo consiste semplicemente in una maggiore capacità di calcolo per GPU/CPU mentre il secondo si appoggia alle cosiddette Convoluted Neural Networks (CNN: in italiano reti neurali convoluzionali).
Il primo metodo richiede dunque un intervento da parte delle compagnie che eseguono la codifica: si tratta di aggiornare l'hardware per ottenere la capacità di calcolo necessaria. L'uso delle CNN, attualmente allo studio da parte di gruppi come MPEG (Moving Picture Experts Group), distribuisce in modo diverso il carico di lavoro demandandolo maggiormente al lato "client" per alleggerire il consumo di banda. Bilanciare questi aspetti è uno degli obiettivi per tutti i ricercatori: al momento non esiste ancora un approccio che si possa considerare definitivo.
Fautier ha poi specificato che il ricorso all'AI, sotto forma di machine learning o deep learning (qui spieghiamo la differenza), richiede sempre risorse importanti ed è pertanto fondamentale considerare ogni aspetto in fase di esecuzione della codifica. Per comprendere meglio questo passaggio viene fatto un esempio concreto: Netflix (come altri servizi) sfrutta l'AI per ricavare la migliore ottimizzazione possibile in termini di risoluzione legata al bitrate e arrivare così ad una codifica che tiene in considerazione tutte le combinazioni dei parametri più importanti.
Il risultato è molto accurato ma non si può applicare indiscriminatamente ad ogni tipo di streaming: non è infatti adatto alle dirette perché non si riuscirebbe a sostenere il carico di lavoro in tempo reale e questo è uno dei motivi per cui lo streaming di film e serie TV non andrebbe mai confrontato con lo sport e altri eventi dal vivo.
Fautier ha indicato anche tre aree principali su cui si sta indirizzando l'encoding assistito dall'intelligenza artificiale:
La codifica con risoluzione dinamica, denominata Dynamic Resolution Encoding (DRE), è un'estensione del sistema usato oggi dai servizi streaming. Chiunque li abbia utilizzati sa che esistono vari profili qualitativi associati a determinate richieste di banda: più la connessione è prestante più si sale di livello arrivando al massimo disponibile, cioè risoluzione più alta e/o maggior numero di fotogrammi (negli eventi sportivi solitamente). Lo stato dell'arte raggiunto nel corso degli anni viene normalmente definito "per-title encoding" ed è adottato da Netflix e altri fornitori.
La codifica viene effettuata bilanciando i requisiti di stoccaggio e di banda richiesta in modo da ottimizzare tutti i profili (rapportando risoluzione e bitrate). I contenuti vengono analizzati scena per scena e si esegue la codifica a tutte le risoluzioni supportate: solo a processo concluso si paragonano i risultati per determinare quale sia il già citato bilanciamento ottimale per ciascuno dei profili. La tecnologia DRE riesce a compiere tutte queste operazioni con un unico passaggio e risulta pertanto meno onerosa per quanto riguarda le risorse richieste, tanto da risultare adatta anche per gli eventi in diretta.
L'encoding con frame rate dinamico permette di eseguire la codifica col numero di fotogrammi necessario per un determinato contenuto. Per immagini tendenzialmente statiche possono risultare sufficienti 30 fotogrammi o anche valori inferiori mentre per lo sport è necessario andare oltre, facendo generalmente corrispondere l'encoding al frame rate con cui vengono effettuate le riprese. L'obiettivo del frame rate dinamico consiste nel ridurre la capacità di calcolo richiesta per l'encoding ed è una tecnica che i ricercatori hanno studiato per anni senza successo. Grazie all'intelligenza artificiale, che può analizzare la sorgente in tempo reale, si sono già visti risultati concreti, secondo Fautier.
Concludiamo con la stratificazione, un sistema molto interessante ed ingegnoso che ha già visto alcune implementazioni. In cosa consiste? Questo approccio prevede una codifica realizzata su più strati: lo strato di base può essere ad esempio a risoluzione Ultra HD con un livello aggiuntivo che contiene dei miglioramenti, ad esempio i dettagli extra per l'8K. I due strati si possono trasmettere usando la stessa tecnologia oppure ricorrendo a canali differenti. Per risparmiare banda si potrebbe mandare in onda una trasmissione TV in Ultra HD con lo strato aggiuntivo inviato tramite una connessione alla rete. Su un televisore Ultra HD verrebbe riprodotto solo lo strato principale mentre su un 8K si userebbero i dati del livello aggiuntivo per ricostruire il segnale alla massima definizione.
L'encoding stratificato si può già implementare oggi con HEVC scalabile o tramite VVC scalabile o basato su LCEVC. Nel caso di HEVC, adottato per le trasmissioni televisive nello standard ATSC (Advanced Television Systems Committe) 3.0 in Nord America, si può usare lo strato base in HD per i dispositivi mobili e il livello aggiuntivo per i televisori Ultra HD. Un altro esempio è la tecnologia ScaleNet di Samsung, un'applicazione delle reti neurali che si appoggia ad un'elaborazione in pre e post. In fase di codifica (il pre) l'AI applica un downscaling ai contenuti in 8K in modo da distribuirli sotto forma di video in Ultra HD. Nel flusso video vengono inseriti dei metadati (il livello aggiuntivo) che i TV possono usare per ricostruire l'originale segnale a risoluzione 8K (in post).
Tutte le soluzioni riportate sono naturalmente soggette a cambiamenti e a rapide evoluzioni: le applicazioni dell'intelligenza artificiale nel campo dell'encoding sono ancora in via di sviluppo e potenzialmente soggette ad una standardizzazione per mano dei consorzi che operano in questi campi. Sicuramente lo sdoganamento di streaming e trasmissioni televisive a più alta risoluzione, cioè Ultra HD e 8K, ne trarrà grande beneficio: disporre di strumenti utili per risparmiare la maggior quantità di banda possibile è l'unico modo per assicurarsi il supporto di emittenti e gestori dei servizi.
Commenti
si hai ragione anche tu l'assenza di commenti potrebbe essere vista come scarso interesse da parte nostra dalla redazione e così disincentivare quello che, come in questo caso, è un buon articolo a favore di articoli che invece meritano molto meno ma sono ben più commentati anche se spesso in OT diciamo...
è un buon articolo ci sono tecnologie interessanti, non è detto che si debba avviare una discussione su tutto.
Anzi, forse è meglio così.
Peccato non ci siano commenti, alla fine è un argomento che ci riguarda tutti...
Chi più, chi meno ovviamente...