Meta anuncia ferramenta de IA capaz de gerar falas humanas e concorre com Apple e Microsoft
A Meta, antiga Facebook, revelou o desenvolvimento de uma ferramenta de inteligência artificial chamada Voicebox, capaz de gerar falas humanas. O sistema requer apenas 2 segundos de amostra de áudio para criar novas falas a partir de texto escrito. Mark Zuckerberg, CEO da empresa, compartilhou um clipe no Instagram no qual ele mesmo aparece falando em bom português, com direito a um sotaque carioca na palavra “todos”, tudo gerado pela IA.
Segundo a Meta, a tecnologia tem potenciais benefícios, como permitir que pessoas com deficiência visual ouçam mensagens de amigos e dar voz aos personagens não-jogáveis em videogames, conhecidos como NPCs. Além disso, o Voicebox poderia fornecer sons naturais para assistentes de voz.
Leia também: Google Lens agora identifica condições de pele e oferece diagnósticos visuais
A empresa não fez um anúncio oficial sobre a implementação do Voicebox no Instagram, WhatsApp ou Facebook até o momento. Parece que Zuckerberg está apenas demonstrando os avanços da empresa no campo da IA generativa, que é a área de foco atual, juntamente com o desenvolvimento de tecnologias de metaverso a longo prazo.
No entanto, a Meta não está sozinha nessa pesquisa e desenvolvimento de IA generativa para voz. O anúncio da Voicebox lembrou do Vall-E, sistema apresentado pela Microsoft em janeiro, que permite gerar novos arquivos de áudio a partir de áudios curtos gravados pela própria pessoa.
A Apple também entrou nessa área com o recurso Personal Voice, anunciado durante a WWDC 2023 na semana passada. Ele estará disponível no iOS 17 e, como parte dos esforços de acessibilidade, permitirá que os usuários leiam em voz alta um roteiro de frases para que o sistema do iPhone possa recriar a voz sintetizada da pessoa. No entanto, a tecnologia da Apple requer cerca de 15 minutos de gravação original para funcionar.