Origen y contexto

lm-evaluation-harness-es es un fork del proyecto de código abierto EleutherAI/lm-evaluation-harness, desarrollado y mantenido por el Centro de Excelencia en Inteligencia Artificial (CEIA) de la Universidad Federal de Goiás (UFG), bajo la dirección del investigador Eduardo Garcia. El proyecto surgió de la necesidad de adaptar una infraestructura consolidada de evaluación de modelos lingüísticos al contexto lusófono, abarcando tanto el portugués de Brasil como el de Portugal.

Disponible bajo licencia MIT, el repositorio está alojado en la plataforma GitHub y forma parte del ecosistema Open Portuguese LLM Leaderboard, sirviendo de base técnica para la comparación sistemática de grandes modelos lingüísticos (LLMs) en portugués.

Tareas y dominios cubiertos

La suite reúne un conjunto diverso de tareas de evaluación, cubriendo múltiples dominios relevantes para el procesamiento del lenguaje natural en portugués. Las tareas disponibles son

ASSIN2 RTE - reconocimiento de implicaturas textuales
ASSIN2 STS - similitud semántica entre frases
BLUEX - comprensión de lectura basada en los exámenes de acceso brasileños
ENEM - preguntas del Examen Nacional de Enseñanza Media
FaQuAD-NLI - inferencia en lenguaje natural a partir de preguntas frecuentes
HateBR - detección de discursos de odio en portugués brasileño
Hate Speech - identificación de contenido ofensivo
TweetSentBR - análisis de sentimiento de mensajes de Twitter en portugués
OAB Exams - preguntas del examen del Colegio de Abogados de Brasil, que cubren el ámbito jurídico

Esta variedad permite evaluar modelos en escenarios que van desde tareas lingüísticas fundamentales hasta aplicaciones especializadas, como el razonamiento jurídico y la moderación de contenidos.

Aplicaciones y casos de uso

El principal uso de lm-evaluation-harness-es es la evaluación estandarizada y reproducible de LLM en portugués. Los investigadores y desarrolladores pueden utilizar la suite para comparar el rendimiento de diferentes modelos en condiciones controladas, identificar los puntos fuertes y las limitaciones en dominios específicos y orientar las decisiones sobre el ajuste o la selección de modelos para aplicaciones en portugués.

Al formar parte del Open Portuguese LLM Leaderboard, los resultados obtenidos con el arnés pueden presentarse y compararse públicamente, promoviendo la transparencia y la colaboración en la comunidad de investigación lusófona en inteligencia artificial.

Relevancia para la comunidad lusófona

La existencia de puntos de referencia específicos para el portugués se considera importante para el desarrollo equitativo de las tecnologías lingüísticas, dado que las suites de evaluación más utilizadas se centran en el inglés. Al adaptar y ampliar lm-evaluation-harness con tareas relevantes desde el punto de vista cultural y lingüístico -como las preguntas de los exámenes ENEM y OAB-, el proyecto contribuye a la evaluación de modelos que reflejan con mayor fidelidad los desafíos reales a los que se enfrentan los usuarios y los sistemas en los contextos brasileño y portugués. La adopción de la licencia MIT facilita la reutilización y la contribución por parte de terceros, tanto en el mundo académico como en la industria.

lm-evaluation-harness-pt

Categorías

Temas

Origen y contexto

Tareas y dominios cubiertos

Aplicaciones y casos de uso

Relevancia para la comunidad lusófona