Investigación ASR

Acerca del Proyecto

VozCL nace como parte de una investigación académica para evaluar y mejorar sistemas de reconocimiento automático del habla (ASR) en español chileno.

Contexto de la Investigación

Este proyecto forma parte del Proyecto de Título (ICI6541) de Ingeniería Civil Informática en la Pontificia Universidad Católica de Valparaíso, desarrollado por Sebastián Jeria y Benjamín Robles, bajo la guía de los profesores Emanuel Vega y Christoffer Löffler.

El reconocimiento automático del habla en español chileno enfrenta desafíos únicos derivados de su variabilidad dialectal y las condiciones acústicas adversas en escenarios reales. Esta investigación busca establecer un marco experimental replicable para evaluar modelos ASR bajo estas condiciones.

Objetivos de la Investigación

Objetivo General

Evaluar la capacidad de los modelos ASR wav2vec2 y Whisper para realizar reconocimiento de voz robusto en español chileno, cuantificando su desempeño bajo condiciones ideales y perturbaciones acústicas controladas.

Objetivos Específicos

  • Evaluar precisión en condiciones ideales usando WER y CER
  • Determinar robustez frente a perturbaciones acústicas controladas
  • Evaluar efectividad del fine-tuning adaptativo sobre wav2vec2
  • Comparar equilibrio entre precisión, robustez y eficiencia computacional
  • Proponer criterios reproducibles para evaluar robustez de modelos ASR

Modelos Evaluados

Whisper

Modelo de gran escala de OpenAI, entrenado con 680k horas de datos multilingües. Ofrece la mejor precisión y robustez, pero con alto costo computacional.

base: 74M paramslarge: 1.5B params

wav2vec2

Modelo auto-supervisado adaptable mediante fine-tuning. Representa el enfoque de adaptabilidad eficiente con menor costo computacional.

XLSR-53 multilingüe

Resultados Principales

Precisión en condiciones ideales

whisper-large:3.62% WER
wav2vec2-large:9.50% WER
whisper-base:15.76% WER

Eficiencia computacional

wav2vec2-large mostró ser el más eficiente con RTF 0.04 y 2.52 GB VRAM, procesando 4.15 audios/s — ideal para dispositivos de bajo recurso.

Conclusión clave: No existe un modelo universalmente óptimo. La selección depende del equilibrio entre calidad, robustez y costo operacional según el caso de uso.

¿Por qué Importan tus Grabaciones?

Los modelos ASR actuales fueron entrenados principalmente con español neutro o peninsular. El español chileno presenta características únicas:

  • Aspiración de la “s” — “los niños” → “loh niñoh”
  • Voseo chileno — “voh sabí” en lugar de “tú sabes”
  • Modismos y expresiones locales — “al tiro”, “cachái”, “po”
  • Velocidad y entonación característica

Al grabar en ambientes reales con ruido (calle, transporte, hogar), ayudas a crear un dataset que refleja condiciones cotidianas — no solo estudios de grabación perfectos.

Fase 3 del proyecto: Se utilizarán estas grabaciones para adaptar wav2vec2 mediante fine-tuning, buscando mejorar su precisión y robustez específicamente para español chileno sin aumentar costos computacionales.

Cronología del Proyecto

Fase 1: Fundamentación (Ago-Sep 2025)

Diseño metodológico y revisión del estado del arte

Fase 2: Evaluación Experimental (Oct-Nov 2025)

Implementación y análisis de modelos baseline con perturbaciones sintéticas

Fase 3: Adaptación y Validación (Mar-Jul 2026)

Recolección de corpus real, fine-tuning de wav2vec2 y evaluación final

Compromiso con la Ciencia Abierta

Esta investigación seguirá principios de ciencia abierta. El corpus resultante, el código de evaluación y los modelos entrenados serán liberados públicamente para impulsar futuras investigaciones en ASR para español chileno y otras variantes latinoamericanas.