Nueva herramienta de Microsoft simula la voz humana al escucharla solo tres segundos
Ingenieros de Microsoft desarrollaron VALL-E, una nueva herramienta de inteligencia artificial (IA), que puede simular la voz de una persona tras escucharla solo 3 segundos. La aplicación se basa en una tecnología de compresión de audio denominada “EnCodec”, que ha sido desarrollada por Meta (calificada en Rusia como organización extremista), informaron sus autores en una publicación pendiente de revisión por pares.
Microsoft aprovechó la tecnología EnCodec como una forma de hacer que la síntesis de texto a voz (TTS, por sus siglas en inglés) suene realista, basándose en una muestra de fuente muy limitada. Durante la etapa de entrenamiento de la IA emplearon 60 000 horas de habla en inglés, lo que es cientos de veces más grande que los sistemas existentes.
Ventajas
Según sus creadores, VALL-E muestra capacidades de aprendizaje en contexto y se puede utilizar para sintetizar una voz personalizada de alta calidad con solo una grabación registrada de 3 segundos. Los resultados del experimento muestran que VALL-E supera significativamente a los sistemas TTS de cero disparos (no entrenados con la voz que simulan) de última generación, en términos de naturalidad del habla y similitud del hablante. Además, sostienen que VALL-E podría preservar la emoción del hablante y el entorno acústico en el mensaje de voz sintetizado a partir del texto.
Deficiencias
A pesar de sus notables logros, los investigadores de Microsoft llamaron la atención sobre algunos problemas de la herramienta. En particular, criticaron que algunas palabras pueden no ser claras, perderse o duplicarse en la síntesis del habla. Otro aspecto señalado fue que aún no puede cubrir la voz de todos, especialmente la de los hablantes con acento. También plantearon que la diversidad de estilos de habla no es suficiente, ya que LibriLight (la base de datos que emplearon para el entrenamiento) es un conjunto de datos de audiolibros, en el que la mayoría de las expresiones están en estilo de lectura.
Riesgos
Los ingenieros de Microsoft alertaron de que VALL-E podría sintetizar el habla que mantiene la identidad del hablante, lo que puede conllevar riesgos potenciales en el uso indebido del modelo. Un ejemplo de esto podría ser la falsificación de la identificación de voz o hacerse pasar por un hablante específico para producir un deepfake.
Los deepfake, o falsificaciones profundas, son archivos de video, imagen o voz creados mediante un programa de inteligencia artificial para suplantar de forma muy realista la imagen de los protagonistas de los contenidos por los de otras personas.
Vea además
(Con información de RT)
- Ciego de Ávila continúa imparable en la Serie Nacional de Béisbol
- Los Ángeles de la Noche en una nueva acción solidaria
- Devuelve EEUU a 61 inmigrantes irregulares por vía aérea
- Informan sobre receso laboral este viernes
- Resurge ola de violencia en Ecuador a semanas de expirar el estado de excepción
- ir aNoticias »
- Espías digitales: La amenaza silenciosa que muchas veces ignoramos
- Nuevo eclipse solar podrá ser visto en Cuba el próximo 8 de abril
- ETI: Líder en infraestructura y ciberseguridad para el sector biotecnológico y más allá
- Presidente del Instituto de Ingenieros Eléctricos y Electrónicos de EEUU habló sobre almacenamiento y memoria digital en Informática 2024
- SCIMaS: Un gestor de la ciencia y la innovación para las empresas (+ Video)
- ir aCiencia y Tecnología »
Cuando tenia 17 años y en adelante(ahora voy por los 86) comenzo mi predileccion por la narrativa de la nombrada "Ciencia Ficcion" y recuerdo un cuento corto donde este tema era desarrollado y no podia imaginar que viviria para conocer que ya es realldad y como en aquel cuento, la ppolicia de la narracion luchaba contra las falsas puebas sonicas que en la narracion uno de los personajes utilizaba.
Conclusion: hay riesgo real de "fake news" EN TODOS LOS ASPECTOS d e la VIDA cotidiana....y ese mundo no deseo pàra nada.
Ahora habrá que estar preparados porque esta nueva tecnología aumentará considerablemente las noticias falsas y la violación de los derechos de los ciudadanos.
Me imagino cuando surgio la aviacion o la tv, que todos los reacios a los cambios y el desarrollo empezarian a protestar
Y me pregunto, que desarrollo trae esto a un humano?, Ok, tengo una idea, teniendo la voz grabada de un familiar fallecido, puedo imitar un sin número de palabras, agregándole gpt-3 tendría esta persona en mi cabecera conversando conmigo o la opción 2, falsificar la voz de alguien y realizar un pedido por teléfono con esa grabación de un conocido suyo para un beneficio; estafa, engaño, broma, etc o abrir la puerta de mi casa con una llave de voz. Pro y contras, veremos. Creí que bastaba con la creación de skiner mediante GPT-3 , ahora Terminator podrá imitar también la voz.
Este sitio me encanta.