lm-evaluation-harness-pt

Suite de evaluación MIT
Português

Temas

generative ainlp

lm-evaluation-harness-es es una suite de evaluación de modelos lingüísticos para portugués, desarrollada por el Centro de Excelencia en Inteligencia Artificial (CEIA) de la Universidad Federal de Goiás (UFG).

Es un fork del proyecto EleutherAI/lm-evaluation-harness, adaptado para incluir tareas específicas en brasileño y portugués, cubriendo dominios como análisis de sentimiento, inferencia textual, comprensión de lectura, detección de discursos de odio, similitud semántica y exámenes legales.

Entre las tareas disponibles se encuentran ASSIN2, BLUEX, ENEM, FaQuAD-NLI, HateBR y OAB Exams.

El benchmark está asociado al Open Portuguese LLM Leaderboard y sirve de base para la evaluación comparativa de grandes modelos lingüísticos en el contexto lusófono, y está disponible bajo licencia MIT.

Origen y contexto

lm-evaluation-harness-es es un fork del proyecto de código abierto EleutherAI/lm-evaluation-harness, desarrollado y mantenido por el Centro de Excelencia en Inteligencia Artificial (CEIA) de la Universidad Federal de Goiás (UFG), bajo la dirección del investigador Eduardo Garcia. El proyecto surgió de la necesidad de adaptar una infraestructura consolidada de evaluación de modelos lingüísticos al contexto lusófono, abarcando tanto el portugués de Brasil como el de Portugal.

Disponible bajo licencia MIT, el repositorio está alojado en la plataforma GitHub y forma parte del ecosistema Open Portuguese LLM Leaderboard, sirviendo de base técnica para la comparación sistemática de grandes modelos lingüísticos (LLMs) en portugués.

Tareas y dominios cubiertos

La suite reúne un conjunto diverso de tareas de evaluación, cubriendo múltiples dominios relevantes para el procesamiento del lenguaje natural en portugués. Las tareas disponibles son

  • ASSIN2 RTE - reconocimiento de implicaturas textuales
  • ASSIN2 STS - similitud semántica entre frases
  • BLUEX - comprensión de lectura basada en los exámenes de acceso brasileños
  • ENEM - preguntas del Examen Nacional de Enseñanza Media
  • FaQuAD-NLI - inferencia en lenguaje natural a partir de preguntas frecuentes
  • HateBR - detección de discursos de odio en portugués brasileño
  • Hate Speech - identificación de contenido ofensivo
  • TweetSentBR - análisis de sentimiento de mensajes de Twitter en portugués
  • OAB Exams - preguntas del examen del Colegio de Abogados de Brasil, que cubren el ámbito jurídico

Esta variedad permite evaluar modelos en escenarios que van desde tareas lingüísticas fundamentales hasta aplicaciones especializadas, como el razonamiento jurídico y la moderación de contenidos.

Aplicaciones y casos de uso

El principal uso de lm-evaluation-harness-es es la evaluación estandarizada y reproducible de LLM en portugués. Los investigadores y desarrolladores pueden utilizar la suite para comparar el rendimiento de diferentes modelos en condiciones controladas, identificar los puntos fuertes y las limitaciones en dominios específicos y orientar las decisiones sobre el ajuste o la selección de modelos para aplicaciones en portugués.

Al formar parte del Open Portuguese LLM Leaderboard, los resultados obtenidos con el arnés pueden presentarse y compararse públicamente, promoviendo la transparencia y la colaboración en la comunidad de investigación lusófona en inteligencia artificial.

Relevancia para la comunidad lusófona

La existencia de puntos de referencia específicos para el portugués se considera importante para el desarrollo equitativo de las tecnologías lingüísticas, dado que las suites de evaluación más utilizadas se centran en el inglés. Al adaptar y ampliar lm-evaluation-harness con tareas relevantes desde el punto de vista cultural y lingüístico -como las preguntas de los exámenes ENEM y OAB-, el proyecto contribuye a la evaluación de modelos que reflejan con mayor fidelidad los desafíos reales a los que se enfrentan los usuarios y los sistemas en los contextos brasileño y portugués. La adopción de la licencia MIT facilita la reutilización y la contribución por parte de terceros, tanto en el mundo académico como en la industria.

Informe