Transformer Apache 2.0 Yes
Português

បញ្ចូល

text

លទ្ធផល

text

ប្រភេទ

ស្បែក (Themes)

generative ainlpresearch

Tucano គឺជាគ្រួសារនៃម៉ូដែលភាសា transformer ដែលមានទម្ងន់បើកចំហ (open-weights) ដែលត្រូវបានបង្កើតនៅប្រទេសប្រេស៊ីល និងបានបណ្តុះបណ្តាលតែប៉ុណ្ណោះលើអត្ថបទភាសាព័រទុយហ្គាល់។ ម៉ូដែលទាំងនេះត្រូវបានបណ្តុះបណ្តាលជាមុន (pre-trained) លើ GigaVerbo ដែលជាសំណុំទិន្នន័យមានប្រហែល 200 ពាន់លាន (200 billion) តូខិនភាសាព័រទុយហ្គាល់ដែលបានដកចម្លងចេញ (deduplicated) ហើយមានផ្តល់ជូនក្នុងទំហំចំនួនបួន ចាប់ពី 160 លាន ដល់ 2.4 ពាន់លាន ប៉ារ៉ាម៉ែត្រ។

វ៉ារ្យង់ដែលបានកែសម្រួល (fine-tuned) រួមមានកំណែដែលធ្វើតាមការណែនាំ និងកំណែដែលបានបង្កើនដោយផ្អែកលើចំណូលចិត្ត (preference-optimized) ហើយឯកសារប្រភេទពហុមធ្យមដែលពាក់ព័ន្ធត្រូវបានចេញផ្សាយក្រោមឈ្មោះ ViTucano។ Tucano មានគោលបំណងសម្រាប់អ្នកស្រាវជ្រាវ និងអ្នកអភិវឌ្ឍន៍ដែលធ្វើការលើកិច្ចការដំណើរការភាសាធម្មជាតិ (natural language processing) ជាភាសាព័រទុយហ្គាល់ ដែលជាភាសាមួយដែលត្រូវបានគេមិនសូវតំណាងនៅក្នុងការអភិវឌ្ឍម៉ូដែលភាសាទំហំធំ (large-scale language model development) ជាប្រវត្តិសាស្ត្រ។

គម្រោងនេះត្រូវបានរៀបរាប់នៅក្នុងអត្ថបទឆ្នាំ 2025 ដែលបានបោះពុម្ពក្នុងទស្សនាវដ្តី Patterns ហើយត្រូវបានចេញផ្សាយក្រោមអាជ្ញាប័ណ្ណ Apache 2.0 ដោយមានទម្ងន់ (weights) និងកូដអាចទាញយកបានជាសាធារណៈនៅលើ GitHub។ ស៊េរីម៉ូដែលនេះបច្ចុប្បន្នកំពុងត្រូវបានដាក់បណ្ណសារ (archived)។

ផ្ទៃខាងក្រោយ និងការអភិវឌ្ឍ

Tucano ត្រូវបានបង្កើតឡើងនៅក្នុងប្រទេសប្រេស៊ីល ជាកិច្ចខិតខំប្រឹងប្រែងជាក់លាក់មួយ ដើម្បីដោះស្រាយកង្វះខាតនៃម៉ូដែលភាសាទំហំធំ ដែលត្រូវបានបណ្តុះបណ្តាលជាពិសេសលើអត្ថបទជាភាសាព័រទុយហ្គាល់។ ខណៈដែលម៉ូដែលភាសាដ៏លេចធ្លោជាច្រើន ត្រូវបានបណ្តុះបណ្តាលភាគច្រើនលើសំណុំទិន្នន័យភាសាអង់គ្លេស Portuguese—ដែលត្រូវបាននិយាយដោយមនុស្សជាង 250 លាននាក់នៅទូទាំងប្រទេសប្រេស៊ីល ព័រទុយហ្គាល់ និងប្រទេសផ្សេងៗ—ជាប្រវត្តិសាស្ត្រ ត្រូវបានយកចិត្តទុកដាក់តិចជាងក្នុងការស្រាវជ្រាវម៉ូដែលគ្រឹះ។ គម្រោង Tucano មានគោលបំណងបិទគម្លាតនេះ ដោយបង្កើតម៉ូដែលផ្អែកលើ transformer ពីដំបូង ដោយប្រើសំណុំទិន្នន័យភាសាព័រទុយហ្គាល់ទំហំធំ និងមានគុណភាពខ្ពស់។

ម៉ូដែលទាំងនេះត្រូវបានបណ្តុះបណ្តាលជាមុនលើ GigaVerbo ដែលជាសំណុំទិន្នន័យប្រហែល 200 ពាន់លានថូខិនភាសាព័រទុយហ្គាល់ ដែលបានកាត់បំបាត់ស្ទួន (deduplicated) ហើយត្រូវបានរៀបចំឡើង ដើម្បីគាំទ្រការធ្វើម៉ូដែលភាសាដោយរឹងមាំនៅកម្រិតធំ។ គម្រោងនេះត្រូវបានពិពណ៌នានៅក្នុងអត្ថបទ Tucano: Advancing Neural Text Generation for Portuguese ដែលបានបោះពុម្ពនៅក្នុងទស្សនាវដ្តី Patterns ក្នុងឆ្នាំ 2025 ហើយទម្ងន់ទាំងអស់ និងកូដបណ្តុះបណ្តាល អាចទទួលបានជាសាធារណៈនៅលើ GitHub ក្រោមអាជ្ញាប័ណ្ណ Apache 2.0។

ប្រភេទម៉ូដែល និងកំណែដែលបាន Fine-Tune

គ្រួសារ Tucano មានទំហំម៉ូដែលមូលដ្ឋានចំនួនបួន ដែលអនុញ្ញាតឲ្យអ្នកស្រាវជ្រាវ និងអ្នកអភិវឌ្ឍន៍ជ្រើសរើសម៉ូដែលដែលសមស្របនឹងកម្រិតធនធានគណនារបស់ពួកគេ និងតម្រូវការងាររបស់ភារកិច្ច៖

  • Tucano-160m – 160 លានប៉ារ៉ាម៉ែត្រ
  • Tucano-630m – 630 លានប៉ារ៉ាម៉ែត្រ
  • Tucano-1b1 – ប្រហែល 1.1 ពាន់លានប៉ារ៉ាម៉ែត្រ
  • Tucano-2b4 – ប្រហែល 2.4 ពាន់លានប៉ារ៉ាម៉ែត្រ

បន្ថែមពីលើម៉ូដែលមូលដ្ឋានដែលបានបណ្តុះបណ្តាលជាមុន គម្រោងនេះបានបង្កើតកំណែដែលបាន fine-tune ច្រើនប្រភេទផងដែរ។ Tucano-SFT និង Tucano-DPO តំណាងឲ្យការធ្វើ supervised fine-tuning និង variant សម្រាប់ direct preference optimization រៀងៗខ្លួន ខណៈដែល Tucano-2b4-Instruct គឺជាកំណែដែលធ្វើតាមការណែនាំ (instruction-following) នៃម៉ូដែលមូលដ្ឋានធំបំផុត។ កំណែដែលបាន fine-tune ទាំងនេះពង្រីកអត្ថប្រយោជន៍របស់ម៉ូដែលមូលដ្ឋានឆ្ពោះទៅកាន់កម្មវិធីដែលផ្តោតលើការសន្ទនា និងការងារតាមភារកិច្ច។

ម៉ូដែលពហុមធ្យម (multimodal) ដែលពាក់ព័ន្ធផងដែរ គឺ ViTucano-1b5-v1 និង ViTucano-2b8-v1 ត្រូវបានចេញផ្សាយក្រោមឈ្មោះ ViTucano ផងដែរ ដែលបង្ហាញពីការងារបន្តបន្ទាប់ ដែលរួមបញ្ចូល modality មើលឃើញ រួមជាមួយនឹងការយល់ដឹងអត្ថបទជាភាសាព័រទុយហ្គាល់។

ករណីប្រើប្រាស់ និងទស្សនិកជនគោលដៅ

Tucano ត្រូវបានកំណត់គោលជាចម្បងសម្រាប់អ្នកស្រាវជ្រាវ និងអ្នកអភិវឌ្ឍន៍ ដែលធ្វើការលើភារកិច្ចដំណើរការភាសាធម្មជាតិ (natural language processing) ជាភាសាព័រទុយហ្គាល់។ ករណីប្រើប្រាស់ដែលអាចមានរួមទាំងការបង្កើតអត្ថបទ (text generation) ការវាស់វែង (benchmarks) សម្រាប់ language modeling ការធ្វើ fine-tuning សម្រាប់កម្មវិធីភាសាព័រទុយហ្គាល់ដែលផ្តោតលើជំនាញជាក់លាក់ និងជាមូលដ្ឋានស្រាវជ្រាវ (research baseline) សម្រាប់ការសិក្សាអំពីឥរិយាបថរបស់ម៉ូដែលនៅក្នុងបរិបទភាសាដែលមានធនធានតិច។ ការអាចប្រើបាននូវម៉ូដែលទំហំច្រើនគាំទ្រការដាក់ឲ្យប្រើប្រាស់ក្នុងសេណារីយ៉ូផ្សេងៗ ចាប់ពីការពិសោធន៍ក្នុងបរិយាកាសសិក្សាដោយប្រើផ្នែករឹងមានកម្រិត រហូតដល់ការស្រាវជ្រាវដែលត្រូវការធនធានច្រើនជាងសម្រាប់ការអនុវត្ត។

ដោយសារម៉ូដែលត្រូវបានចេញផ្សាយក្រោមអាជ្ញាប័ណ្ណ Apache 2.0 ដែលអនុញ្ញាតច្រើន (permissive) ជាមួយនឹងទម្ងន់បើកចំហ (open weights) ពួកវាអាចប្រើប្រាស់បានដោយសេរី កែប្រែ និងចែកចាយឡើងវិញ ដោយធ្វើឲ្យអាចចូលដំណើរការបានសម្រាប់សហគមន៍ទូលំទូលាយ រួមទាំងអ្នកដែលមិនមានសិទ្ធិចូលប្រើ API ម៉ូដែលដែលជាកម្មសិទ្ធិ (proprietary model APIs)។

ស្ថានភាពបច្ចុប្បន្ន

ស៊េរីម៉ូដែល Tucano បច្ចុប្បន្នត្រូវបានដាក់បណ្ណសារ (archived) មានន័យថា ការអភិវឌ្ឍសកម្មបានបញ្ចប់ហើយ។ ទម្ងន់ កូដ និងឯកសារដែលពាក់ព័ន្ធ នៅតែអាចចូលប្រើបានជាសាធារណៈ តាមរយៈឃ្លាំង GitHub របស់គម្រោង សម្រាប់ឯកសារយោង និងការបន្តប្រើប្រាស់ដោយសហគមន៍ស្រាវជ្រាវ។ ការបោះពុម្ពផ្សាយលទ្ធផលនៅក្នុង Patterns ក្នុងឆ្នាំ 2025 ផ្តល់កំណត់ត្រាដែលបានពិនិត្យដោយអ្នកជំនាញ (peer-reviewed) អំពីវិធីសាស្ត្រ ទិន្នន័យបណ្តុះបណ្តាល និងលទ្ធផលវាយតម្លៃ ដែលពាក់ព័ន្ធនឹងគម្រោង ដើម្បីគាំទ្រភាពអាចធ្វើឡើងវិញបាន (reproducibility) និងការសិក្សាបន្ថែម។

របាយការណ៍