Idiosincrasia del proyecto
El equipo de ingenieros que tuvo a cargo el entrenamiento de modelos, coincide en que el valor agregado de ambos proyectos es su especialización en temas de conflicto armado; en efecto, ambos modelos han sido entrenados usando los datos acopiados por la Comisión en todo su proceso de escucha. Es decir, no es posible encontrar actualmente modelos de reconocimiento de voz o de detección de entidades en función del conflicto, y mucho menos entrenados con base en un corpus de datos significativo: las entrevistas transcritas y etiquetadas por la Comisión de la Verdad. Este hecho implica que ambos proyectos, basados en inteligencia artificial, se conviertan en herramientas útiles para organizaciones e instituciones que estén alineados en temas de conflicto y esclarecimiento. Asimismo, y adicional a estas organizaciones, el equipo subraya que tanto el modelo ASR como el modelo NER, pueden ser muy útiles para entornos académicos (semilleros, grupos de investigación, etc.) que busquen automatizar procesos documentales a fin de optimizar y agilizar proyectos de investigación social.
Adicional a este aporte, el equipo resalta que ambos modelos, con las limitaciones normales que presenta todo proyecto de Machine Learning, son desarrollos personalizados que logran una adaptación significativa al dialecto colombiano, el cual es complejo por su variación de acentos dada la diversidad regional nacional. En este sentido, y de acuerdo con el equipo, se puede concluir que los modelos son una buena herramienta, y tienen un vasto repertorio de datos usados para su entrenamiento:
Me parece que es una buena herramienta por los datos. Más allá que sea un modelo que detecte entidades, el plus de esos modelos es con qué datos están entrenados. En este caso está entrenado con las bases de datos de entrevistas transcritas y etiquetadas que existen en la Comisión de la Verdad. Acá lo más importante son los datos: si tenemos esos datos, que no podemos entregar, sí podemos entrenar un modelo y llevarlo hasta el punto máximo de entrenamiento, para que después otras entrevistas del mismo tipo puedan ser etiquetadas de manera mucho más eficiente usando la experiencia y lo que se hizo en la Comisión...
El éxito de estos modelos se presenta en la medida en que permiten automatizar una serie de procesos que demandan tiempo y recursos humanos y económicos. Es decir, cuando una organización se enfrenta a un universo importante de archivos documentales, se hace necesario y urgente contar con herramientas digitales que potencien la labor de catalogación y edición de metadatos; en otras palabras, poder ampliar la labor de catalogación a partir de tecnologías de Machine Learning que permitan realizar filtros y búsquedas más allá de los metadatos, convierte estos modelos en un aliado potente para la optimización de labores de archivo, documentación e investigación. De allí que estos modelos puedan ser considerados una buena herramienta.
No es solo buscar palabras o taggear o ponerle metadatos, sino que automáticamente te dice: está nombrando tales personas, tales lugares, en tales fechas... desde el punto de vista de archivo, es muy vasto, porque no solo sirve para entrevistas, sino para cualquier documento, cualquier noticia, cualquier tweet... y empezar a ver relaciones entre todo eso, de manera más fácil y automática...
De esta manera, y de acuerdo con el grupo de ingenieros, es una herramienta que puede potenciar el periodismo de investigación, ayudar a entidades como la Jurisdicción Especial para la Paz (JEP) para automatizar testimonios, brindar apoyo a centros de memoria comunitarios que quieran sistematizar sus archivos, y, tal vez mucho más importante, potenciar procesos de veeduría ciudadana.
De los desarrollos que hizo la Comisión, estos pueden ser los de más cobertura, los que más se pueden trabajar, porque pueden utilizarse en diferentes contextos. Por ejemplo, el buscador sí está abierto a posibilidades, pero vendría a ser un trabajo adicional. Estos modelos pueden aplicarse un poco más allá; es decir, es más fácil que cualquier organización los inserten a sus flujos de trabajo. En lo que sí hay que subrayar y hacer énfasis en que la clave de esto es que se pueda seguir entrenando...
Última actualización