Tucano
ግቤት
ውጤት
ገጽታዎች
Tucano በብራዚል የተዘጋጀ የክፍት-ክብደት የትራንስፎርመር ቋንቋ ሞዴሎች ቤተሰብ ሲሆን በፖርቱጋልኛ ቋንቋ ጽሑፍ ብቻ ላይ ተሰልጥኗል። ሞዴሎቹ በግምት 200 ቢሊዮን የተባዛ የተወገዱ የፖርቱጋልኛ ቃላት ያሉት GigaVerbo በተባለ ዳታሴት ላይ ቅድመ-ስልጠና ተደርገው ሲሆን ከ160 ሚሊዮን እስከ 2.4 ቢሊዮን ፓራሜተሮች ድረስ ባሉ አራት መጠኖች ይገኛሉ።
የተሻሻሉ ስሪቶች የመመሪያ ተከታታይነትን እና የምርጫ ተመቻችቶ የተዘጋጁ ስሪቶችን ያካትታሉ፣ እንዲሁም ተዛማጅ ባለብዙ-ሞዳል ተዋጽኦዎች በViTucano ስም ተለቀቁ። Tucano በፖርቱጋልኛ ቋንቋ ላይ በተፈጥሮ ቋንቋ ሂደት (NLP) ተግባራት የሚሰሩ ምርምር ሰራተኞችና ገንቢዎች ለመጠቀም የታሰበ ነው፤ ይህ ቋንቋ በታላቅ ልኬት የቋንቋ ሞዴል ልማት ውስጥ ታሪካዊ ሁኔታ በቂ ያልተወከለ ነበር።
ፕሮጀክቱ በ2025 በPatterns መጽሔት ውስጥ በታተመ ጽሑፍ ተመዝግቦ ይታያል እና በApache 2.0 ፈቃድ ስር ተለቋል፤ ክብደቶችና ኮድ በGitHub ላይ በግልጽ ይገኛሉ። የሞዴል ተከታታይ በአሁኑ ጊዜ ተዘግቷል።
ዳራ እና ልማት
Tucano በብራዚል የተዘጋጀው በተለይ በፖርቱጋልኛ ጽሑፍ ላይ የተሰለጠኑ ትልቅ ልኬት የቋንቋ ሞዴሎች እጥረትን ለመፍታት የተደረገ የተለየ ጥረት ነው። ብዙ ታዋቂ የቋንቋ ሞዴሎች በአብዛኛው በእንግሊዝኛ ቋንቋ የጽሑፍ ስብስቦች ላይ የሚሰለጥኑ ቢሆንም፣ ፖርቱጋልኛ—በብራዚል፣ ፖርቱጋል እና በሌሎች አገራት ውስጥ ከ250 ሚሊዮን በላይ ሰዎች የሚናገሩት—በመሠረታዊ ሞዴል ምርምር ውስጥ ታሪካዊ ሁኔታ ያነሰ ትኩረት እንደተሰጠው ነው። የTucano ፕሮጀክት ይህን ክፍተት ለመዝጋት የተዘጋጀ ሲሆን፣ ትልቅ እና ከፍተኛ ጥራት ያለው የፖርቱጋልኛ ዳታ ስብስብ በመጠቀም ከመሠረቱ ጀምሮ ትራንስፎርመር ተኮር ሞዴሎችን መገንባት ነበር።
ሞዴሎቹ በGigaVerbo ላይ ቅድመ-ስልጠና ተደርገዋል፤ ይህ ወደ 200 ቢሊዮን የሚጠጉ የተደጋገሙ የተቀነሱ የፖርቱጋልኛ ቃላት ያካተተ ስብስብ ሲሆን በልኬት ላይ ጠንካራ የቋንቋ ሞዴል ስልጠና ለመደገፍ ተዘጋጅቷል። ፕሮጀክቱ በጽሑፉ Tucano: Advancing Neural Text Generation for Portuguese ላይ ተመዝግቧል፤ በ2025 በPatterns መጽሔት ውስጥ የታተመ ሲሆን፣ ሁሉም ክብደቶች እና የስልጠና ኮድ በGitHub ላይ በApache 2.0 ፈቃድ ስር በሕዝብ ይገኛሉ።
የሞዴል ዝርያዎች እና የተጣራ ስልጠና ስሪቶች
የTucano ቤተሰብ አራት የመሠረት ሞዴል መጠኖችን ይዟል፣ ይህም ተመራማሪዎች እና ገንቢዎች በስሌት ገደባቸው እና በተግባር ፍላጎታቸው መሠረት ተገቢ ሞዴል እንዲመርጡ ያስችላቸዋል፦
- Tucano-160m – 160 ሚሊዮን ፓራሜተሮች
- Tucano-630m – 630 ሚሊዮን ፓራሜተሮች
- Tucano-1b1 – በግምት 1.1 ቢሊዮን ፓራሜተሮች
- Tucano-2b4 – በግምት 2.4 ቢሊዮን ፓራሜተሮች
ከመሠረታዊ ቅድመ-ስልጠና ሞዴሎች በተጨማሪ ፕሮጀክቱ በርካታ የተጣራ ስልጠና ተዋጽኦዎችን አዘጋጅቷል። Tucano-SFT እና Tucano-DPO በተለይ የተቆጣጠረ ስልጠና (supervised fine-tuning) እና የቀጥታ የምርጫ ክብደት ማመቻቸት (direct preference optimization) የሚያመለክቱ ስሪቶች ሲሆኑ፣ Tucano-2b4-Instruct ደግሞ የትልቁ መሠረታዊ ሞዴል የመመሪያ ተከታይ ስሪት ነው። እነዚህ የተጣራ ስልጠና ስሪቶች የመሠረት ሞዴሎቹን ጠቃሚነት ወደ ውይይት እና ወደ ተኮር ተግባር መተግበሪያዎች ያስፋፋሉ።
ተዛማጅ ባለብዙ ሞዳሊቲ ሞዴሎች፣ ViTucano-1b5-v1 እና ViTucano-2b8-v1፣ በViTucano ስም ስርም ተለቀቁ፣ ይህም የቀጣይ ሥራ የሚያመለክት ነው፤ በፖርቱጋልኛ ጽሑፍ መረዳት አጠገብ የምስላዊ ሞዳሊቲዎችን የሚያካትት ሥራ።
የመጠቀም ጉዳዮች እና የታሰበ ተመልካች
Tucano በዋናነት በፖርቱጋልኛ ቋንቋ ውስጥ በተፈጥሮ ቋንቋ ሂደት (natural language processing) ተግባራት ላይ የሚሠሩ ተመራማሪዎች እና ገንቢዎች ያለመ ነው። ሊጠቀሙባቸው የሚችሉ የጥቅም ጉዳዮች የጽሑፍ መፍጠር፣ የቋንቋ ሞዴል መመዘኛ መለኪያዎች (benchmarks)፣ ለልዩ የፖርቱጋልኛ መተግበሪያዎች የተጣራ ስልጠና (fine-tuning) እና በተገደበ ሀብት ቋንቋ ሁኔታዎች ውስጥ የሞዴሉ ባህሪ ለመመርመር የምርምር መሠረታዊ መነሻ (research baseline) ናቸው። በተለያዩ የሞዴል መጠኖች መኖር ከትንሽ ሃርድዌር ጋር በትምህርታዊ ሙከራ እስከ በበለጠ ሃብት የሚፈልግ ተግባራዊ ምርምር ድረስ የተለያዩ የመመደብ ሁኔታዎችን ይደግፋል።
ሞዴሎቹ በክፍት ክብደቶች ያለው ተፈቃድ ያለው Apache 2.0 ፈቃድ ስር ስለተለቀቁ፣ በነጻ ሊጠቀሙ፣ ሊሻሻሉ እና ሊያስተላልፉ ይችላሉ፤ ይህም የባለቤት ሞዴል API መዳረሻ የሌላቸውን ጨምሮ ሰፊ ማህበረሰብ እንዲያገኙ ያደርጋል።
የአሁኑ ሁኔታ
የTucano ሞዴል ተከታታይ አሁን ተዘግቷል (archived)፣ ማለትም ንቁ ልማት መጨረሻ ላይ ደርሷል። ክብደቶቹ፣ ኮዱ እና ተያያዥ ሰነዶቹ ለማጣቀሻ እና በምርምር ማህበረሰቡ ለቀጣይ ጥቅም በፕሮጀክቱ የGitHub ማከማቻ በኩል በሕዝብ ይገኛሉ። በ2025 በPatterns ውስጥ የታተመው ግኝቶች ስለ ዘዴው፣ ስለ ስልጠና ዳታው እና ስለ ግምገማ ውጤቶቹ የሚያሳይ በpeer-reviewed መዝገብ ነው፣ ይህም የማስመርመር ተደጋጋሚነትን (reproducibility) እና ተጨማሪ ጥናትን ይደግፋል።