Imprimir
Inicio »Noticias, Ciencia y Tecnología  »

Nueva herramienta de Microsoft simula la voz humana al escucharla solo tres segundos

| 5 |

VALL-E puede conservar el tono emocional del hablante original e incluso simular su entorno acústico.

Ingenieros de Microsoft desarrollaron VALL-E, una nueva herramienta de inteligencia artificial (IA), que puede simular la voz de una persona tras escucharla solo 3 segundos. La aplicación se basa en una tecnología de compresión de audio denominada “EnCodec”, que ha sido desarrollada por Meta (calificada en Rusia como organización extremista), informaron sus autores en una publicación pendiente de revisión por pares.

Microsoft aprovechó la tecnología EnCodec como una forma de hacer que la síntesis de texto a voz (TTS, por sus siglas en inglés) suene realista, basándose en una muestra de fuente muy limitada. Durante la etapa de entrenamiento de la IA emplearon 60 000 horas de habla en inglés, lo que es cientos de veces más grande que los sistemas existentes.

Ventajas

Según sus creadores, VALL-E muestra capacidades de aprendizaje en contexto y se puede utilizar para sintetizar una voz personalizada de alta calidad con solo una grabación registrada de 3 segundos. Los resultados del experimento muestran que VALL-E supera significativamente a los sistemas TTS de cero disparos (no entrenados con la voz que simulan) de última generación, en términos de naturalidad del habla y similitud del hablante. Además, sostienen que VALL-E podría preservar la emoción del hablante y el entorno acústico en el mensaje de voz sintetizado a partir del texto.

Deficiencias

A pesar de sus notables logros, los investigadores de Microsoft llamaron la atención sobre algunos problemas de la herramienta. En particular, criticaron que algunas palabras pueden no ser claras, perderse o duplicarse en la síntesis del habla. Otro aspecto señalado fue que aún no puede cubrir la voz de todos, especialmente la de los hablantes con acento. También plantearon que la diversidad de estilos de habla no es suficiente, ya que LibriLight (la base de datos que emplearon para el entrenamiento) es un conjunto de datos de audiolibros, en el que la mayoría de las expresiones están en estilo de lectura.

Riesgos

Los ingenieros de Microsoft alertaron de que VALL-E podría sintetizar el habla que mantiene la identidad del hablante, lo que puede conllevar riesgos potenciales en el uso indebido del modelo. Un ejemplo de esto podría ser la falsificación de la identificación de voz o hacerse pasar por un hablante específico para producir un deepfake.

Los deepfake, o falsificaciones profundas, son archivos de video, imagen o voz creados mediante un programa de inteligencia artificial para suplantar de forma muy realista la imagen de los protagonistas de los contenidos por los de otras personas.

Vea además

Ingeniero de Google es suspendido por la compañía tras asegurar que un sistema de inteligencia artifical tiene conciencia

(Con información de RT)

Se han publicado 5 comentarios



Este sitio se reserva el derecho de la publicación de los comentarios. No se harán visibles aquellos que sean denigrantes, ofensivos, difamatorios, que estén fuera de contexto o atenten contra la dignidad de una persona o grupo social. Recomendamos brevedad en sus planteamientos.

  • guillermo ramirez dijo:

    Cuando tenia 17 años y en adelante(ahora voy por los 86) comenzo mi predileccion por la narrativa de la nombrada "Ciencia Ficcion" y recuerdo un cuento corto donde este tema era desarrollado y no podia imaginar que viviria para conocer que ya es realldad y como en aquel cuento, la ppolicia de la narracion luchaba contra las falsas puebas sonicas que en la narracion uno de los personajes utilizaba.
    Conclusion: hay riesgo real de "fake news" EN TODOS LOS ASPECTOS d e la VIDA cotidiana....y ese mundo no deseo pàra nada.

  • José dijo:

    Ahora habrá que estar preparados porque esta nueva tecnología aumentará considerablemente las noticias falsas y la violación de los derechos de los ciudadanos.

  • juan dijo:

    Me imagino cuando surgio la aviacion o la tv, que todos los reacios a los cambios y el desarrollo empezarian a protestar

  • Matrix dijo:

    Y me pregunto, que desarrollo trae esto a un humano?, Ok, tengo una idea, teniendo la voz grabada de un familiar fallecido, puedo imitar un sin número de palabras, agregándole gpt-3 tendría esta persona en mi cabecera conversando conmigo o la opción 2, falsificar la voz de alguien y realizar un pedido por teléfono con esa grabación de un conocido suyo para un beneficio; estafa, engaño, broma, etc o abrir la puerta de mi casa con una llave de voz. Pro y contras, veremos. Creí que bastaba con la creación de skiner mediante GPT-3 , ahora Terminator podrá imitar también la voz.

  • Lázaro Daniel dijo:

    Este sitio me encanta.

Se han publicado 5 comentarios



Este sitio se reserva el derecho de la publicación de los comentarios. No se harán visibles aquellos que sean denigrantes, ofensivos, difamatorios, que estén fuera de contexto o atenten contra la dignidad de una persona o grupo social. Recomendamos brevedad en sus planteamientos.

Vea también