Scienza e Tecnologia

VALL-E può imitare la voce di chiunque in soli 3 secondi

La conversazione attorno alle intelligenze artificiali generative si intensifica sempre di più anche grazie alla nascita di tecnologie come VALL-E. Il team di ricercatori Microsoft ha annunciato il suo nuovo modello di sintesi vocale, dal nome ispirato al robottino Wall-E del film Disney Pixar del 2008. Questa volta non si tratta di un robot spazzino, bensì di qualcosa di ancora più spiazzante: un’IA definita “modello di linguaggio codec neurale” il cui compito è quello di replicare la voce di una persona. La cosa shoccante è che gli basta un campione audio di soli tre secondi per ottenere l’effetto desiderato.

Microsoft spiazza tutti e presenta VALL-E, l’IA che può replicare la vostra voce in pochi secondi

Quello di cui è in grado Microsoft VALL-E è sintetizzare la voce di una persona, conservandone sia il tono emotivo che l’acustica della registrazione utilizzata come campione; se per esempio si utilizza la registrazione di una telefonata, il risultato sarà una voce con lo stesso effetto telefonico. Ciò è possibile grazie alla tecnologia EnCodec di Meta, che anziché manipolare forme d’onda già esistenti ne genera di nuove analizzando la voce della persona e suddividendola in “token” e utilizzando i suoi dati di addestramento per il risultato finale. Microsoft afferma di aver addestrato le capacità di VALL-E utilizzando la libreria audio LibriLight di Meta, contenente oltre 60.000 ore di estratti da audiolibri inglesi.

Come prevedibile, Microsoft non ha ancora reso open source il software dietro a VALL-E: il rischio è che qualcuno ne abusi per creare deepfake nocivi a persone e società. Per evitare che ciò accada, la compagnia afferma di star lavorando a uno strumento software per verificare se l’audio sia stato creato o meno con la sua IA. Rischi a parte, l’idea di Microsoft è quella di utilizzare VALL-E per la creazione di app per sintesi ed editing vocale in alta qualità; per un videomaker come me, avere uno strumento che mi permetta di correggere un errore vocale in un video in pochi secondi sarebbe una manna dal cielo. Senza contare la creazione di contenuti audio assieme ad altre IA generative come ChatGPT, in cui la stessa Microsoft sta investendo decine di miliardi.

⭐️ Scopri le migliori offerte online grazie al nostro canale Telegram esclusivo.
Michele Perrone

Appassionato dell'universo tecnologico, con una particolare inclinazione per le dinamiche di mercato e come queste si riflettono sul panorama socio/politico. Tecnologia a parte, ad appassionarmi è il mondo LEGO, cioè la destinazione di buona parte dei miei stipendi.

Recent Posts

Recensione HONOR MagicPad 4: produttività estrema in soli 450 grammi e 4.8mm

Il mercato dei tablet ha vissuto anni di stasi, con dispositivi spesso relegati al ruolo…

17 ore ago

Xiaomi: scarica l’ultima versione di tutte le app HyperOS | Download Marzo 2026

Ultimo aggiornamento: 2 marzo – Come ogni interfaccia proprietaria che si rispetti, anche HyperOS (e…

19 ore ago

Honor Blade è la batteria al silicio-carbonio sottile come una lama

La tecnologia delle batterie sta facendo passi da gigante: i produttori cinesi hanno spinto sull'acceleratore,…

19 ore ago

Xiaomi 17 e 17 Ultra: ecco quanti anni di vita avrà il tuo prossimo top di gamma

Il MWC di Barcellona ha segnato anche il debutto dei nuovi flagship del produttore cinese:…

20 ore ago

Per quanti anni il tuo Android riceverà aggiornamenti di sicurezza

Ultimo aggiornamento: 2 marzo – Con l'evoluzione costante della tecnologia e la crescente preoccupazione per…

20 ore ago

Quanti aggiornamenti Android riceverà il tuo Xiaomi, Redmi, POCO

Ultimo aggiornamento: 2 marzo – Avete uno smartphone o un tablet Xiaomi, Redmi o POCO…

21 ore ago