Ferramenta da Meta recria voz da pessoa em questão de segundos

Meta anuncia ferramenta de IA capaz de gerar falas humanas e concorre com Apple e Microsoft
TAG Notícias

Meta anuncia ferramenta de IA capaz de gerar falas humanas e concorre com Apple e Microsoft

A Meta, antiga Facebook, revelou o desenvolvimento de uma ferramenta de inteligência artificial chamada Voicebox, capaz de gerar falas humanas. O sistema requer apenas 2 segundos de amostra de áudio para criar novas falas a partir de texto escrito. Mark Zuckerberg, CEO da empresa, compartilhou um clipe no Instagram no qual ele mesmo aparece falando em bom português, com direito a um sotaque carioca na palavra “todos”, tudo gerado pela IA.

Segundo a Meta, a tecnologia tem potenciais benefícios, como permitir que pessoas com deficiência visual ouçam mensagens de amigos e dar voz aos personagens não-jogáveis em videogames, conhecidos como NPCs. Além disso, o Voicebox poderia fornecer sons naturais para assistentes de voz.

Leia também: Google Lens agora identifica condições de pele e oferece diagnósticos visuais

Outro destaque é a capacidade de edição de conteúdo. No exemplo apresentado, Mark Zuckerberg grava um áudio enquanto uma buzina é ouvida, mas a ferramenta é capaz de “limpar” esse ruído. Embora existam softwares semelhantes disponíveis atualmente, não há informações sobre como o recurso será incorporado aos aplicativos da Meta.

 

 

A empresa não fez um anúncio oficial sobre a implementação do Voicebox no Instagram, WhatsApp ou Facebook até o momento. Parece que Zuckerberg está apenas demonstrando os avanços da empresa no campo da IA generativa, que é a área de foco atual, juntamente com o desenvolvimento de tecnologias de metaverso a longo prazo.

No entanto, a Meta não está sozinha nessa pesquisa e desenvolvimento de IA generativa para voz. O anúncio da Voicebox lembrou do Vall-E, sistema apresentado pela Microsoft em janeiro, que permite gerar novos arquivos de áudio a partir de áudios curtos gravados pela própria pessoa.

A Apple também entrou nessa área com o recurso Personal Voice, anunciado durante a WWDC 2023 na semana passada. Ele estará disponível no iOS 17 e, como parte dos esforços de acessibilidade, permitirá que os usuários leiam em voz alta um roteiro de frases para que o sistema do iPhone possa recriar a voz sintetizada da pessoa. No entanto, a tecnologia da Apple requer cerca de 15 minutos de gravação original para funcionar.

Sarah Oliveira
Sarah Oliveira

Uma amante das palavras em uma jornada incessante de descoberta. Originária de São Paulo, encontro nas nuances da linguagem minha paixão. Com formação em Comunicação, tenho o prazer de guiar você pelos intrincados caminhos das notícias, oferecendo uma perspectiva única sobre o que acontece no Brasil e no mundo.

Artigos: 2058