Tucano

ផ្ទៃខាងក្រោយ និងការអភិវឌ្ឍ

Tucano ត្រូវបានបង្កើតឡើងនៅក្នុងប្រទេសប្រេស៊ីល ជាកិច្ចខិតខំប្រឹងប្រែងជាក់លាក់មួយ ដើម្បីដោះស្រាយកង្វះខាតនៃម៉ូដែលភាសាទំហំធំ ដែលត្រូវបានបណ្តុះបណ្តាលជាពិសេសលើអត្ថបទជាភាសាព័រទុយហ្គាល់។ ខណៈដែលម៉ូដែលភាសាដ៏លេចធ្លោជាច្រើន ត្រូវបានបណ្តុះបណ្តាលភាគច្រើនលើសំណុំទិន្នន័យភាសាអង់គ្លេស Portuguese—ដែលត្រូវបាននិយាយដោយមនុស្សជាង 250 លាននាក់នៅទូទាំងប្រទេសប្រេស៊ីល ព័រទុយហ្គាល់ និងប្រទេសផ្សេងៗ—ជាប្រវត្តិសាស្ត្រ ត្រូវបានយកចិត្តទុកដាក់តិចជាងក្នុងការស្រាវជ្រាវម៉ូដែលគ្រឹះ។ គម្រោង Tucano មានគោលបំណងបិទគម្លាតនេះ ដោយបង្កើតម៉ូដែលផ្អែកលើ transformer ពីដំបូង ដោយប្រើសំណុំទិន្នន័យភាសាព័រទុយហ្គាល់ទំហំធំ និងមានគុណភាពខ្ពស់។

ម៉ូដែលទាំងនេះត្រូវបានបណ្តុះបណ្តាលជាមុនលើ GigaVerbo ដែលជាសំណុំទិន្នន័យប្រហែល 200 ពាន់លានថូខិនភាសាព័រទុយហ្គាល់ ដែលបានកាត់បំបាត់ស្ទួន (deduplicated) ហើយត្រូវបានរៀបចំឡើង ដើម្បីគាំទ្រការធ្វើម៉ូដែលភាសាដោយរឹងមាំនៅកម្រិតធំ។ គម្រោងនេះត្រូវបានពិពណ៌នានៅក្នុងអត្ថបទ Tucano: Advancing Neural Text Generation for Portuguese ដែលបានបោះពុម្ពនៅក្នុងទស្សនាវដ្តី Patterns ក្នុងឆ្នាំ 2025 ហើយទម្ងន់ទាំងអស់ និងកូដបណ្តុះបណ្តាល អាចទទួលបានជាសាធារណៈនៅលើ GitHub ក្រោមអាជ្ញាប័ណ្ណ Apache 2.0។

ប្រភេទម៉ូដែល និងកំណែដែលបាន Fine-Tune

គ្រួសារ Tucano មានទំហំម៉ូដែលមូលដ្ឋានចំនួនបួន ដែលអនុញ្ញាតឲ្យអ្នកស្រាវជ្រាវ និងអ្នកអភិវឌ្ឍន៍ជ្រើសរើសម៉ូដែលដែលសមស្របនឹងកម្រិតធនធានគណនារបស់ពួកគេ និងតម្រូវការងាររបស់ភារកិច្ច៖

Tucano-160m – 160 លានប៉ារ៉ាម៉ែត្រ
Tucano-630m – 630 លានប៉ារ៉ាម៉ែត្រ
Tucano-1b1 – ប្រហែល 1.1 ពាន់លានប៉ារ៉ាម៉ែត្រ
Tucano-2b4 – ប្រហែល 2.4 ពាន់លានប៉ារ៉ាម៉ែត្រ

បន្ថែមពីលើម៉ូដែលមូលដ្ឋានដែលបានបណ្តុះបណ្តាលជាមុន គម្រោងនេះបានបង្កើតកំណែដែលបាន fine-tune ច្រើនប្រភេទផងដែរ។ Tucano-SFT និង Tucano-DPO តំណាងឲ្យការធ្វើ supervised fine-tuning និង variant សម្រាប់ direct preference optimization រៀងៗខ្លួន ខណៈដែល Tucano-2b4-Instruct គឺជាកំណែដែលធ្វើតាមការណែនាំ (instruction-following) នៃម៉ូដែលមូលដ្ឋានធំបំផុត។ កំណែដែលបាន fine-tune ទាំងនេះពង្រីកអត្ថប្រយោជន៍របស់ម៉ូដែលមូលដ្ឋានឆ្ពោះទៅកាន់កម្មវិធីដែលផ្តោតលើការសន្ទនា និងការងារតាមភារកិច្ច។

ម៉ូដែលពហុមធ្យម (multimodal) ដែលពាក់ព័ន្ធផងដែរ គឺ ViTucano-1b5-v1 និង ViTucano-2b8-v1 ត្រូវបានចេញផ្សាយក្រោមឈ្មោះ ViTucano ផងដែរ ដែលបង្ហាញពីការងារបន្តបន្ទាប់ ដែលរួមបញ្ចូល modality មើលឃើញ រួមជាមួយនឹងការយល់ដឹងអត្ថបទជាភាសាព័រទុយហ្គាល់។

ករណីប្រើប្រាស់ និងទស្សនិកជនគោលដៅ

Tucano ត្រូវបានកំណត់គោលជាចម្បងសម្រាប់អ្នកស្រាវជ្រាវ និងអ្នកអភិវឌ្ឍន៍ ដែលធ្វើការលើភារកិច្ចដំណើរការភាសាធម្មជាតិ (natural language processing) ជាភាសាព័រទុយហ្គាល់។ ករណីប្រើប្រាស់ដែលអាចមានរួមទាំងការបង្កើតអត្ថបទ (text generation) ការវាស់វែង (benchmarks) សម្រាប់ language modeling ការធ្វើ fine-tuning សម្រាប់កម្មវិធីភាសាព័រទុយហ្គាល់ដែលផ្តោតលើជំនាញជាក់លាក់ និងជាមូលដ្ឋានស្រាវជ្រាវ (research baseline) សម្រាប់ការសិក្សាអំពីឥរិយាបថរបស់ម៉ូដែលនៅក្នុងបរិបទភាសាដែលមានធនធានតិច។ ការអាចប្រើបាននូវម៉ូដែលទំហំច្រើនគាំទ្រការដាក់ឲ្យប្រើប្រាស់ក្នុងសេណារីយ៉ូផ្សេងៗ ចាប់ពីការពិសោធន៍ក្នុងបរិយាកាសសិក្សាដោយប្រើផ្នែករឹងមានកម្រិត រហូតដល់ការស្រាវជ្រាវដែលត្រូវការធនធានច្រើនជាងសម្រាប់ការអនុវត្ត។

ដោយសារម៉ូដែលត្រូវបានចេញផ្សាយក្រោមអាជ្ញាប័ណ្ណ Apache 2.0 ដែលអនុញ្ញាតច្រើន (permissive) ជាមួយនឹងទម្ងន់បើកចំហ (open weights) ពួកវាអាចប្រើប្រាស់បានដោយសេរី កែប្រែ និងចែកចាយឡើងវិញ ដោយធ្វើឲ្យអាចចូលដំណើរការបានសម្រាប់សហគមន៍ទូលំទូលាយ រួមទាំងអ្នកដែលមិនមានសិទ្ធិចូលប្រើ API ម៉ូដែលដែលជាកម្មសិទ្ធិ (proprietary model APIs)។

ស្ថានភាពបច្ចុប្បន្ន

ស៊េរីម៉ូដែល Tucano បច្ចុប្បន្នត្រូវបានដាក់បណ្ណសារ (archived) មានន័យថា ការអភិវឌ្ឍសកម្មបានបញ្ចប់ហើយ។ ទម្ងន់ កូដ និងឯកសារដែលពាក់ព័ន្ធ នៅតែអាចចូលប្រើបានជាសាធារណៈ តាមរយៈឃ្លាំង GitHub របស់គម្រោង សម្រាប់ឯកសារយោង និងការបន្តប្រើប្រាស់ដោយសហគមន៍ស្រាវជ្រាវ។ ការបោះពុម្ពផ្សាយលទ្ធផលនៅក្នុង Patterns ក្នុងឆ្នាំ 2025 ផ្តល់កំណត់ត្រាដែលបានពិនិត្យដោយអ្នកជំនាញ (peer-reviewed) អំពីវិធីសាស្ត្រ ទិន្នន័យបណ្តុះបណ្តាល និងលទ្ធផលវាយតម្លៃ ដែលពាក់ព័ន្ធនឹងគម្រោង ដើម្បីគាំទ្រភាពអាចធ្វើឡើងវិញបាន (reproducibility) និងការសិក្សាបន្ថែម។

បញ្ចូល

លទ្ធផល

ប្រភេទ

ស្បែក (Themes)

ផ្ទៃខាងក្រោយ និងការអភិវឌ្ឍ

ប្រភេទម៉ូដែល និងកំណែដែលបាន Fine-Tune

ករណីប្រើប្រាស់ និងទស្សនិកជនគោលដៅ

ស្ថានភាពបច្ចុប្បន្ន