in

Las conversaciones con su computadora pueden volverse más realistas

GettyImages 1272759502 9116f1d787414d9894d499264fe2ab90
  • Meta está utilizando IA para crear programas que puedan expresar emociones en el habla.
  • El equipo de inteligencia artificial de la compañía dijo que ha logrado avances en el modelado de vocalizaciones expresivas, como risas, bostezos, llantos y «charlas espontáneas» en tiempo real.
  • La IA también se está utilizando para impulsar mejoras en el reconocimiento de voz.

Luis Álvarez / Getty Images



Es posible que pronto pueda tener una conversación más natural con su computadora, gracias al poder de la inteligencia artificial (IA).


Meta dijo que ha logrado un progreso significativo en su esfuerzo por crear sistemas de voz generados por IA más realistas. El equipo de inteligencia artificial de la compañía dijo que ha logrado avances en la capacidad de modelar vocalizaciones expresivas, como risas, bostezos y llantos, además de «charlas espontáneas» en tiempo real.


«En cualquier conversación dada, las personas intercambian una gran cantidad de señales no verbales, como entonaciones, expresiones emocionales, pausas, acentos, ritmos, todos los cuales son importantes para las interacciones humanas», escribió el equipo en una publicación de blog reciente. «Pero los sistemas de inteligencia artificial actuales no logran capturar estas señales ricas y expresivas porque aprenden solo del texto escrito, que captura lo que decimos pero no cómo lo decimos».



Discurso más inteligente

En la publicación del blog, el equipo de Meta AI dijo que están trabajando para superar las limitaciones de los sistemas tradicionales de IA que no pueden comprender las señales no verbales del habla, como entonaciones, expresiones emocionales, pausas, acentos y ritmos. Los sistemas se frenan porque solo pueden aprender del texto escrito.


Pero el trabajo de Meta difiere de los esfuerzos anteriores porque sus modelos de IA pueden usar modelos de procesamiento de lenguaje natural para capturar la naturaleza completa del lenguaje hablado. Los investigadores de Meta dicen que los nuevos modelos pueden permitir que los sistemas de IA transmitan el sentimiento que quieren transmitir, como el aburrimiento o la ironía.



«En un futuro próximo, nos centraremos en la aplicación de técnicas sin texto para crear aplicaciones posteriores útiles sin necesidad de etiquetas de texto que consumen muchos recursos o sistemas automáticos de reconocimiento de voz (ASR), como la respuesta a preguntas (p. ej., «¿Cómo está el tiempo?»), «, escribió el equipo en la publicación del blog. «Creemos que la prosodia en el habla puede ayudar a analizar mejor una oración, lo que a su vez facilita la comprensión de la intención y mejora el rendimiento de la respuesta a las preguntas».



La inteligencia artificial potencia la comprensión

No solo las computadoras están mejorando en la comunicación de significado, sino que la IA también se está utilizando para impulsar mejoras en el reconocimiento de voz.


Los científicos informáticos han estado trabajando en el reconocimiento de voz por computadora desde al menos 1952, cuando tres investigadores de Bell Labs crearon un sistema que podía reconocer dígitos numéricos únicos, dijo el director de tecnología de AI Dynamics, Ryan Monsurate, en un correo electrónico a Lifewire. En la década de 1990, los sistemas de reconocimiento de voz estaban disponibles comercialmente, pero aún tenían una tasa de error lo suficientemente alta como para desalentar el uso fuera de dominios de aplicaciones muy específicos, como la atención médica.


«Ahora que los modelos de aprendizaje profundo han permitido que los modelos de conjunto (como los de Microsoft) alcancen un rendimiento sobrehumano en el reconocimiento de voz, tenemos la tecnología para permitir la comunicación verbal independiente del hablante con las computadoras a escala», dijo Monsurate. «La próxima etapa incluirá reducir el costo para que todos los que usen Siri o los asistentes de inteligencia artificial de Google tengan acceso a este nivel de reconocimiento de voz».


Óscar Wong / Getty Images



La IA es útil para el reconocimiento de voz porque puede mejorar con el tiempo a través del aprendizaje, dijo a Lifewire Ariel Utnik, director de ingresos y gerente general de la compañía de voz de IA Verbit.ai, en una entrevista por correo electrónico. Por ejemplo, Verbit afirma que su tecnología de IA interna detecta y filtra el ruido de fondo y los ecos, y transcribe a los hablantes independientemente del acento para generar transcripciones y subtítulos detallados y profesionales de video y audio en vivo y grabados.


Pero Utnik dijo que la mayoría de las plataformas de reconocimiento de voz actuales tienen solo un 75-80% de precisión.


«La IA nunca reemplazará por completo a los humanos, ya que la revisión personal de los transcriptores, correctores y editores es necesaria para garantizar una transcripción final de alta calidad y máxima precisión», agregó.


También se podría usar un mejor reconocimiento de voz para prevenir piratas informáticos, dijo en un correo electrónico Sanjay Gupta, vicepresidente global de productos y desarrollo corporativo de la empresa de reconocimiento de voz Mitek Systems. La investigación indica que dentro de dos años, el 20 por ciento de todos los ataques exitosos de adquisición de cuentas usarán aumento de voz sintético, agregó.


«Esto significa que a medida que la tecnología de falsificación profunda se vuelve más sofisticada, necesitamos crear simultáneamente una seguridad avanzada que pueda combatir estas tácticas junto con las falsificaciones profundas de imágenes y videos», dijo Gupta. «Combatir la suplantación de voz requiere tecnología de detección de vida, capaz de distinguir entre una voz en vivo y una versión grabada, sintética o generada por computadora de una voz».


Corrección 04/05/2022: Se corrigió la ortografía del nombre de Ryan Monsurate en el párrafo 9.

What do you think?

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

GettyImages 1185193215 eca44fe85ece4267a8b6020fbef71741

Google reemplaza FLoC con nueva API de temas

dreamstime m 88274817

La mejor aplicación para controlar tu sueño.