Requerimientos

Uno de los aspectos que subraya el equipo de desarrollo con respecto a los requerimientos para el óptimo funcionamiento de los modelos, tiene que ver con la infraestructura; en efecto, es necesario que la máquina donde se ejecute el modelo tenga buenos recursos en cuanto a procesamiento.

Para el uso del modelo, si bien es recomendable un servidor con GPU, no es totalmente necesario; para el entrenamiento del modelo, sí es necesario contar con GPU con el fin de que el entrenamiento no demande una gran cantidad de tiempo (más adelante se retoma de nuevo este punto).

Limitaciones y alcances

Metodología de entrenamiento

El modelo ASR sigue la metodología Machine Learning

El Machine Learning es un método de análisis de datos que automatiza la construcción de modelos analíticos. Es una rama de la inteligencia artificial basada en la idea de que los sistemas pueden aprender de datos, identificar patrones y tomar decisiones con mínima intervención humana.

¿Qué es Machine Learning?

La estrategia de entrenamiento del modelo ASR se describe en los siguientes pasos:

  1. Se monta toda la infraestructura o stack tecnológico. Para el entrenamiento es necesario contar con un servidor GPU (Unidad de Procesamiento Gráfico), con el fin de que el proceso de entrenamiento sea óptimo. Este aspecto puede ser una limitante, ya que de no contar con este tipo de infraestructura para el entrenamiento del modelo, se puede consumir mucho tiempo.

  2. Se solicitan entrevistas ya transcritas y etiquetadas, que son los datos con los cuales se va a entrenar el modelo (es necesario que sean entrevistas transcritas, en tanto la transcripción es la que permite medir los resultados del modelo).

  3. Se realiza el alistamiento de datos (preprocesamiento de audios) y todo el proceso de entrenamiento, tal como se establece en el siguiente archivo:

Una vez terminado el proceso de entrenamiento se verifican los resultados arrojados por el modelo, comparando el texto producido con las transcripciones reales. Si las métricas arrojan un resultado satisfactorio, se puede cerrar el modelo; de lo contrario, es necesario revisar las estrategias de entrenamiento y el ajuste de los datos.

Todas las librerías y los pasos necesarios para crear el modelo se encuentran en:

gitlab.com/comisiondelaverdad/sim-asr

Tecnologías usadas:

  • El desarrollo del modelo se basa en la librería de uso libre Mozilla DeepSpeech ASR Model: DeepSpeech GPU Training; versión 0.8.0

  • Python > = 3.6

  • Se apoya en Bash, para correr los comandos

  • La base de datos dentro de la cual se usa el modelo se encuentra en MongoDB

Posibilidades de mejora

Última actualización