Generación audiovisual Introducción La generación audiovisual es una combinación potente de la tecnología de generación de voz y la generación de imágenes. Con avances recientes en inteligencia artificial, especialmente en aprendizaje profu…
Sistemas conversacionales multimodales Introducción Los sistemas conversacionales multimodales (SCMM) son una evolución natural de los sistemas conversacionales basados en texto, incorporando múltiples formas de interacción como voz, imágen…
ASR: Voz a texto Introducción La transcripción automática de habla (ASR, por sus siglas en inglés) es una tecnología crucial en la transformación digital y en la inteligencia artificial. Su importancia radica en su capacidad para convertir …