पार्श्वभूमी आणि उगम

lm-evaluation-harness-pt हे व्यापकपणे वापरल्या जाणाऱ्या EleutherAI lm-evaluation-harness फ्रेमवर्कचे एक फोर्क आहे. पोर्तुगीज भाषेत मोठ्या भाषा मॉडेल्स (LLMs) चे प्रमाणित मूल्यमापन करण्याची गरज पूर्ण करण्यासाठी यामध्ये बदल करण्यात आले आहेत. हे प्रकल्प eduagarcia यांनी ब्राझीलमधील फेडरल युनिव्हर्सिटी ऑफ गोयास (UFG) च्या सेंटर ऑफ एक्सलन्स इन AI (CEIA) येथे विकसित केले. हा प्रकल्प MIT परवान्याअंतर्गत प्रसिद्ध करण्यात आला असून GitHub वर होस्ट केलेला आहे.

मूळ EleutherAI harness इंग्रजी भाषेतील विविध प्रकारच्या कार्यांवर भाषा मॉडेल्सचे मूल्यमापन करण्यासाठी एकसंध इंटरफेस प्रदान करते. या फोर्कने त्या पायाभूत सुविधांचा विस्तार करून पोर्तुगीज भाषेतील बेंचमार्क्सना समर्थन दिले आहे—यामध्ये ब्राझिलियन आणि युरोपियन पोर्तुगीज दोन्ही संदर्भांचा समावेश आहे—आणि प्रमाणित बहुभाषिक मूल्यमापन साधनांमधील एक पोकळी भरून काढली आहे.

समाविष्ट कार्ये आणि क्षेत्रे

या संचामध्ये प्रस्थापित पोर्तुगीज-भाषेतील NLP डेटासेट्स आणि मूल्यमापन संचांमधून घेतलेल्या विविध कार्यांचा समावेश आहे. ही कार्ये अनेक क्षेत्रे आणि पोर्तुगीज भाषिकांसाठी संबंधित भाषिक घटनांचा समावेश करतात:

ASSIN2 RTE आणि STS — ASSIN2 डेटासेटवर आधारित नैसर्गिक भाषा अनुमान (natural language inference) आणि अर्थपूर्ण मजकूर साम्य (semantic textual similarity) कार्ये.
BLUEX — ब्राझिलियन विद्यापीठ प्रवेश परीक्षांमधून घेतलेला वाचन समज (reading comprehension) बेंचमार्क.
ENEM — ब्राझीलच्या राष्ट्रीय उच्च माध्यमिक परीक्षेवर आधारित कार्ये; यात सर्वसाधारण तर्कशक्ती आणि ज्ञानाचा समावेश आहे.
FaQuAD-NLI — पोर्तुगीज प्रश्नोत्तर संसाधनातून घेतलेला नैसर्गिक भाषा अनुमान डेटासेट.
HatEBR आणि Hate Speech — पोर्तुगीज भाषेतील सोशल मीडिया सामग्रीला लक्ष्य करणारी द्वेषपूर्ण भाषण (hate speech) शोधण्याची कार्ये.
TweetSentBR — ब्राझिलियन पोर्तुगीज ट्वीट्सवर आधारित भावना विश्लेषण (sentiment analysis) कार्य.
OAB Exams — ब्राझिलियन बार असोसिएशन (OAB) च्या प्रवेश परीक्षांमधून घेतलेली कायदेशीर तर्कशक्ती (legal reasoning) कार्ये.

एकत्रितपणे, ही कार्ये सर्वसाधारण ज्ञान, कायदेशीर तर्कशक्ती, भावना विश्लेषण, नैसर्गिक भाषा अनुमान, वाचन समज, द्वेषपूर्ण भाषण शोधणे आणि अर्थपूर्ण साम्य अशा क्षेत्रांचा समावेश करतात.

पोर्तुगीज LLM परिसंस्थेमधील भूमिका

lm-evaluation-harness-pt हे Open Portuguese LLM Leaderboard साठीचे मूल्यमापन बॅकएंड म्हणून काम करते. हे एक सार्वजनिक लीडरबोर्ड आहे जे पोर्तुगीज-भाषेतील बेंचमार्क्सवर भाषा मॉडेल्सची कामगिरी ट्रॅक करते आणि तुलना करते. या एकत्रीकरणामुळे संशोधक आणि विकसक प्रमाणित मूल्यमापनासाठी मॉडेल्स सबमिट करू शकतात आणि प्रत्येक सबमिशनमध्ये सातत्याने निकालांची तुलना करू शकतात.

सामान्य मूल्यमापन फ्रेमवर्क उपलब्ध करून देऊन, हा संच पोर्तुगीज-भाषेतील LLM विकासाच्या वेगवेगळ्या प्रयत्नांमध्ये निकालांची पुनरुत्पादकता (reproducibility) आणि तुलना करण्यायोग्यता (comparability) समर्थित करतो. पोर्तुगीज भाषिक प्रदेशांमधील भाषिक वैविध्य लक्षात घेऊन, तो ब्राझिलियन आणि युरोपियन पोर्तुगीज दोन्हीला संबोधित करतो.

तांत्रिक रचना आणि वापर

EleutherAI harness च्या फोर्क म्हणून, lm-evaluation-harness-pt हा मूळ फ्रेमवर्कच्या मुख्य रचना तत्त्वांचा वारसा घेतो—यामध्ये विविध प्रकारच्या मॉडेल आर्किटेक्चरना समर्थन आणि मॉड्युलर टास्क डिफिनिशन प्रणालीचा समावेश आहे. अपस्ट्रीम harness शी परिचित असलेले वापरकर्ते कमीतकमी बदलांसह पोर्तुगीज-भाषेतील कार्यांसाठी त्यांचे वर्कफ्लो अनुकूल करू शकतात.

हा फ्रेमवर्क प्रामुख्याने पोर्तुगीज-भाषेतील अनुप्रयोगांसाठी LLM विकसित करणाऱ्या किंवा त्यांचे बेंचमार्किंग करणाऱ्या संशोधक आणि व्यावसायिकांसाठी उद्दिष्टित आहे. MIT परवान्याअंतर्गत त्याचे मुक्त-स्रोत स्वरूप अमर्यादित वापर, बदल आणि पुनर्वितरणास परवानगी देते, ज्यामुळे शैक्षणिक तसेच उपयोजित संशोधनाच्या संदर्भांमध्ये त्याचा अवलंब सुलभ होतो.

lm-evaluation-harness-pt

वर्ग

थीम्स

पार्श्वभूमी आणि उगम

समाविष्ट कार्ये आणि क्षेत्रे

पोर्तुगीज LLM परिसंस्थेमधील भूमिका

तांत्रिक रचना आणि वापर