Tucano

පසුබිම සහ සංවර්ධනය

පෘතුගීසි භාෂා පෙළ මත විශේෂයෙන් පුහුණු කර ඇති විශාල පරිමාණ භාෂා ආකෘතිවල හිඟය විසඳීම සඳහා කැපවූ උත්සාහයක් ලෙස Tucano බ්‍රසීලයේදී සංවර්ධනය කරන ලදී. බොහෝ ප්‍රමුඛ භාෂා ආකෘති ප්‍රධාන වශයෙන් ඉංග්‍රීසි භාෂා කෝපුස් මත පුහුණු කර තිබුණද, බ්‍රසීලය, පෘතුගාලය සහ අනෙකුත් රටවල් හරහා මිලියන 250කට අධික ජනතාවක් කතා කරන පෘතුගීසි භාෂාවට පදනම් ආකෘති පර්යේෂණයේදී ඓතිහාසිකව අඩු අවධානයක් ලැබී ඇත. Tucano ව්‍යාපෘතිය මෙම හිඩැස පියවා ගැනීමේ අරමුණින්, විශාල සහ උසස් තත්ත්වයේ පෘතුගීසි දත්ත කට්ටලයක් භාවිතා කරමින් මුල සිටම transformer-පාදක ආකෘති ගොඩනැගීමට උත්සාහ කළේය.

මෙම ආකෘති ආසන්න වශයෙන් ටෝකන බිලියන 200ක් පමණ වූ, පෘතිගීසි ටෝකනවලින් deduplicated කෝපුස් එකක් වන GigaVerbo මත පෙර-පුහුණු කරන ලදී. මෙම ව්‍යාපෘතිය 2025 වසරේ Patterns සඟරාවේ ප්‍රකාශයට පත් වූ Tucano: Advancing Neural Text Generation for Portuguese යන ලිපියෙන් ලේඛනගත කර ඇති අතර, Apache 2.0 බලපත්‍රය යටතේ සියලුම බර (weights) සහ පුහුණු කේතය GitHub හි මහජනතාවට ප්‍රසිද්ධ ලෙස ලබා ගත හැක.

ආකෘති වර්ග සහ Fine-Tuned අනුවාද

Tucano පවුල මූලික ආකෘති ප්‍රමාණ හතරක් පුරා විහිදේ; එමඟින් පර්යේෂකයන්ට සහ සංවර්ධකයන්ට තම ගණනය කිරීමේ සීමාවන්ට සහ කාර්ය අවශ්‍යතාවන්ට ගැළපෙන ආකෘතියක් තෝරා ගැනීමට හැක:

Tucano-160m – මිලියන 160ක් පරාමිති
Tucano-630m – මිලියන 630ක් පරාමිති
Tucano-1b1 – ආසන්න වශයෙන් බිලියන 1.1ක් පරාමිති
Tucano-2b4 – ආසන්න වශයෙන් බිලියන 2.4ක් පරාමිති

මූලික පෙර-පුහුණු ආකෘතිවලට අමතරව, ව්‍යාපෘතිය මඟින් fine-tuned ව්‍යුත්පන්න කිහිපයක් ද නිෂ්පාදනය කරන ලදී. Tucano-SFT සහ Tucano-DPO යනු පිළිවෙළින් supervised fine-tuning සහ direct preference optimization අනුවාද නියෝජනය කරන අතර, Tucano-2b4-Instruct යනු විශාලතම මූලික ආකෘතියේ instruction-following අනුවාදයකි. මෙම fine-tuned අනුවාද මඟින් මූලික ආකෘතිවල ප්‍රයෝජනය සංවාදමය සහ කාර්ය-නැඹුරු යෙදුම් වෙත දීර්ඝ කරයි.

ViTucano නාමය යටතේම සම්බන්ධ multimodal ආකෘති වන ViTucano-1b5-v1 සහ ViTucano-2b8-v1 ද නිකුත් කරන ලදී; එය පෘතුගීසි පෙළ අවබෝධය සමඟ දෘශ්‍ය මාධ්‍යයන් ඇතුළත් කරන පහළ-ධාරා කටයුතු (downstream work) යෝජනා කරයි.

භාවිත අවස්ථා සහ අපේක්ෂිත ප්‍රේක්ෂකයින්

Tucano ප්‍රධාන වශයෙන් පෘතුගීසි භාෂාවෙන් ස්වභාවික භාෂා සැකසුම් (natural language processing) කාර්යයන් මත වැඩ කරන පර්යේෂකයන්ට සහ සංවර්ධකයන්ට ඉලක්ක කර ඇත. හැකි භාවිත අවස්ථා අතරට පෙළ ජනනය (text generation), භාෂා ආකෘතිකරණ benchmarks, විශේෂිත පෘතුගීසි යෙදුම් සඳහා domain-specific fine-tuning, සහ අඩු සම්පත් භාෂා පරිසරයන්හි ආකෘති හැසිරීම අධ්‍යයනය කිරීම සඳහා පර්යේෂණ පදනමක් ලෙස භාවිතය ඇතුළත් වේ. බහු ආකෘති ප්‍රමාණ ලබාදීම මඟින් සීමිත දෘඩාංග මත අධ්‍යයන පරීක්ෂණවල සිට වඩා සම්පත්-අධික වූ යෙදුම්-නැඹුරු පර්යේෂණ දක්වා විවිධ යෙදවීම් අවස්ථා සඳහා සහාය වේ.

ආකෘති open weights සමඟ අවසරදායක Apache 2.0 බලපත්‍රය යටතේ නිකුත් කර ඇති බැවින්, ඒවා නිදහසේ භාවිතා කළ හැකි, වෙනස් කළ හැකි, සහ නැවත බෙදා හැරිය හැකි අතර, හිමිකාර (proprietary) ආකෘති API වෙත ප්‍රවේශයක් නොමැති අය ඇතුළු පුළුල් ප්‍රජාවකට ඒවා ප්‍රවේශ විය හැකි කරයි.

වත්මන් තත්ත්වය

Tucano ආකෘති මාලාව දැනට archived කර ඇත; එනම් සක්‍රීය සංවර්ධනය අවසන් වී ඇත. බර (weights), කේතය (code), සහ අදාළ ලේඛනගත කිරීම ව්‍යාපෘතියේ GitHub ගබඩාව හරහා පර්යේෂණ ප්‍රජාවට යොමු කිරීම සහ අඛණ්ඩ භාවිතය සඳහා මහජනතාවට ප්‍රසිද්ධ ලෙස ලබා ගත හැක. 2025 වසරේ Patterns හි සොයාගැනීම් ප්‍රකාශයට පත් කිරීම මඟින් ව්‍යාපෘතියට අදාළ ක්‍රමවේදය, පුහුණු දත්ත, සහ ඇගයීම් ප්‍රතිඵල පිළිබඳ peer-reviewed වාර්තාවක් සපයන අතර, නැවත නිර්මාණය කිරීම (reproducibility) සහ තවදුරටත් අධ්‍යයනය සඳහා සහාය වේ.

ආදානය

ප්‍රතිදානය

ප්‍රවර්ග

තේමා

පසුබිම සහ සංවර්ධනය

ආකෘති වර්ග සහ Fine-Tuned අනුවාද

භාවිත අවස්ථා සහ අපේක්ෂිත ප්‍රේක්ෂකයින්

වත්මන් තත්ත්වය