ට්‍රාන්ස්ෆෝමර් Apache 2.0 Yes
Português

ආදානය

text

ප්‍රතිදානය

text

ප්‍රවර්ග

තේමා

generative ainlpresearch

Tucano යනු බ්‍රසීලයේදී සංවර්ධනය කර ඇති, විවෘත-බර (open-weights) ට්‍රාන්ස්ෆෝමර් භාෂා ආකෘති පවුලකි. එය පෘතුගීසි භාෂා පෙළ මත පමණක් පුහුණු කර ඇත. මෙම ආකෘති GigaVerbo මත පෙර පුහුණු කර ඇති අතර, එය ආසන්න වශයෙන් බිලියන 200ක පමණ අනුපිටපත් ඉවත් කළ පෘතුගීසි ටෝකන ඇතුළත් දත්ත කට්ටලයකි. ආකෘති ප්‍රමාණ හතරකින් ලබාගත හැකි අතර, පරාමිතීන් මිලියන 160 සිට බිලියන 2.4 දක්වා පරාසයක පවතී.

සුළු-සුසර කළ (fine-tuned) අනුවාද අතර උපදෙස් අනුගමනය කරන ආකෘති සහ මනාපයන් අනුව ප්‍රශස්ත කළ අනුවාද ඇතුළත් වේ. ViTucano නාමය යටතේ සම්බන්ධිත බහුමාධ්‍ය (multimodal) ව්‍යුත්පන්නයන් ද නිකුත් කර ඇත. Tucano සැලසුම් කර ඇත්තේ පෘතුගීසි භාෂාවෙන් ස්වභාවික භාෂා සැකසුම් කාර්යයන් සඳහා කටයුතු කරන පර්යේෂකයන් සහ සංවර්ධකයන් ඉලක්ක කරගෙනය. ඉතිහාසගතව, විශාල පරිමාණ භාෂා ආකෘති සංවර්ධනයේදී පෘතුගීසි භාෂාවට අඩු නියෝජනයක් ලැබී තිබේ.

මෙම ව්‍යාපෘතිය 2025 දී Patterns සඟරාවේ ප්‍රකාශයට පත් කළ පත්‍රිකාවකින් ලේඛනගත කර ඇති අතර, එය Apache 2.0 බලපත්‍රය යටතේ නිකුත් කර ඇත. බර (weights) සහ කේතය GitHub හි මහජනතාවට ලබාගත හැක. ආකෘති මාලාව දැනට සංරක්ෂණය කර ඇත.

පසුබිම සහ සංවර්ධනය

පෘතුගීසි භාෂා පෙළ මත විශේෂයෙන් පුහුණු කර ඇති විශාල පරිමාණ භාෂා ආකෘතිවල හිඟය විසඳීම සඳහා කැපවූ උත්සාහයක් ලෙස Tucano බ්‍රසීලයේදී සංවර්ධනය කරන ලදී. බොහෝ ප්‍රමුඛ භාෂා ආකෘති ප්‍රධාන වශයෙන් ඉංග්‍රීසි භාෂා කෝපුස් මත පුහුණු කර තිබුණද, බ්‍රසීලය, පෘතුගාලය සහ අනෙකුත් රටවල් හරහා මිලියන 250කට අධික ජනතාවක් කතා කරන පෘතුගීසි භාෂාවට පදනම් ආකෘති පර්යේෂණයේදී ඓතිහාසිකව අඩු අවධානයක් ලැබී ඇත. Tucano ව්‍යාපෘතිය මෙම හිඩැස පියවා ගැනීමේ අරමුණින්, විශාල සහ උසස් තත්ත්වයේ පෘතුගීසි දත්ත කට්ටලයක් භාවිතා කරමින් මුල සිටම transformer-පාදක ආකෘති ගොඩනැගීමට උත්සාහ කළේය.

මෙම ආකෘති ආසන්න වශයෙන් ටෝකන බිලියන 200ක් පමණ වූ, පෘතිගීසි ටෝකනවලින් deduplicated කෝපුස් එකක් වන GigaVerbo මත පෙර-පුහුණු කරන ලදී. මෙම ව්‍යාපෘතිය 2025 වසරේ Patterns සඟරාවේ ප්‍රකාශයට පත් වූ Tucano: Advancing Neural Text Generation for Portuguese යන ලිපියෙන් ලේඛනගත කර ඇති අතර, Apache 2.0 බලපත්‍රය යටතේ සියලුම බර (weights) සහ පුහුණු කේතය GitHub හි මහජනතාවට ප්‍රසිද්ධ ලෙස ලබා ගත හැක.

ආකෘති වර්ග සහ Fine-Tuned අනුවාද

Tucano පවුල මූලික ආකෘති ප්‍රමාණ හතරක් පුරා විහිදේ; එමඟින් පර්යේෂකයන්ට සහ සංවර්ධකයන්ට තම ගණනය කිරීමේ සීමාවන්ට සහ කාර්ය අවශ්‍යතාවන්ට ගැළපෙන ආකෘතියක් තෝරා ගැනීමට හැක:

  • Tucano-160m – මිලියන 160ක් පරාමිති
  • Tucano-630m – මිලියන 630ක් පරාමිති
  • Tucano-1b1 – ආසන්න වශයෙන් බිලියන 1.1ක් පරාමිති
  • Tucano-2b4 – ආසන්න වශයෙන් බිලියන 2.4ක් පරාමිති

මූලික පෙර-පුහුණු ආකෘතිවලට අමතරව, ව්‍යාපෘතිය මඟින් fine-tuned ව්‍යුත්පන්න කිහිපයක් ද නිෂ්පාදනය කරන ලදී. Tucano-SFT සහ Tucano-DPO යනු පිළිවෙළින් supervised fine-tuning සහ direct preference optimization අනුවාද නියෝජනය කරන අතර, Tucano-2b4-Instruct යනු විශාලතම මූලික ආකෘතියේ instruction-following අනුවාදයකි. මෙම fine-tuned අනුවාද මඟින් මූලික ආකෘතිවල ප්‍රයෝජනය සංවාදමය සහ කාර්ය-නැඹුරු යෙදුම් වෙත දීර්ඝ කරයි.

ViTucano නාමය යටතේම සම්බන්ධ multimodal ආකෘති වන ViTucano-1b5-v1 සහ ViTucano-2b8-v1 ද නිකුත් කරන ලදී; එය පෘතුගීසි පෙළ අවබෝධය සමඟ දෘශ්‍ය මාධ්‍යයන් ඇතුළත් කරන පහළ-ධාරා කටයුතු (downstream work) යෝජනා කරයි.

භාවිත අවස්ථා සහ අපේක්ෂිත ප්‍රේක්ෂකයින්

Tucano ප්‍රධාන වශයෙන් පෘතුගීසි භාෂාවෙන් ස්වභාවික භාෂා සැකසුම් (natural language processing) කාර්යයන් මත වැඩ කරන පර්යේෂකයන්ට සහ සංවර්ධකයන්ට ඉලක්ක කර ඇත. හැකි භාවිත අවස්ථා අතරට පෙළ ජනනය (text generation), භාෂා ආකෘතිකරණ benchmarks, විශේෂිත පෘතුගීසි යෙදුම් සඳහා domain-specific fine-tuning, සහ අඩු සම්පත් භාෂා පරිසරයන්හි ආකෘති හැසිරීම අධ්‍යයනය කිරීම සඳහා පර්යේෂණ පදනමක් ලෙස භාවිතය ඇතුළත් වේ. බහු ආකෘති ප්‍රමාණ ලබාදීම මඟින් සීමිත දෘඩාංග මත අධ්‍යයන පරීක්ෂණවල සිට වඩා සම්පත්-අධික වූ යෙදුම්-නැඹුරු පර්යේෂණ දක්වා විවිධ යෙදවීම් අවස්ථා සඳහා සහාය වේ.

ආකෘති open weights සමඟ අවසරදායක Apache 2.0 බලපත්‍රය යටතේ නිකුත් කර ඇති බැවින්, ඒවා නිදහසේ භාවිතා කළ හැකි, වෙනස් කළ හැකි, සහ නැවත බෙදා හැරිය හැකි අතර, හිමිකාර (proprietary) ආකෘති API වෙත ප්‍රවේශයක් නොමැති අය ඇතුළු පුළුල් ප්‍රජාවකට ඒවා ප්‍රවේශ විය හැකි කරයි.

වත්මන් තත්ත්වය

Tucano ආකෘති මාලාව දැනට archived කර ඇත; එනම් සක්‍රීය සංවර්ධනය අවසන් වී ඇත. බර (weights), කේතය (code), සහ අදාළ ලේඛනගත කිරීම ව්‍යාපෘතියේ GitHub ගබඩාව හරහා පර්යේෂණ ප්‍රජාවට යොමු කිරීම සහ අඛණ්ඩ භාවිතය සඳහා මහජනතාවට ප්‍රසිද්ධ ලෙස ලබා ගත හැක. 2025 වසරේ Patterns හි සොයාගැනීම් ප්‍රකාශයට පත් කිරීම මඟින් ව්‍යාපෘතියට අදාළ ක්‍රමවේදය, පුහුණු දත්ත, සහ ඇගයීම් ප්‍රතිඵල පිළිබඳ peer-reviewed වාර්තාවක් සපයන අතර, නැවත නිර්මාණය කිරීම (reproducibility) සහ තවදුරටත් අධ්‍යයනය සඳහා සහාය වේ.

වාර්තාව