Tucano

ფონი და განვითარება

Tucano შემუშავებული იქნა ბრაზილიაში, როგორც მიზანმიმართული მცდელობა, რათა აღმოფხვრილიყო დიდი მასშტაბის ენობრივი მოდელების დეფიციტი, რომლებიც სპეციალურად პორტუგალიურ ტექსტზე არიან გაწვრთნილი. მიუხედავად იმისა, რომ მრავალი გამორჩეული ენობრივი მოდელი ძირითადად ინგლისურენოვან კორპუსებზე იწვრთნება, პორტუგალიურს—რომელსაც 250 მილიონზე მეტი ადამიანი საუბრობს ბრაზილიაში, პორტუგალიასა და სხვა ქვეყნებში—ისტორიულად ნაკლები ყურადღება ექცეოდა ფუნდამენტური მოდელების კვლევაში. Tucano-ს პროექტმა მიზნად დაისახა ამ ხარვეზის შევსება და ტრანსფორმერზე დაფუძნებული მოდელების ნულიდან აგება დიდი, მაღალი ხარისხის პორტუგალიური მონაცემთა ნაკრებით.

მოდელები წინასწარ გაიწვრთნა GigaVerbo-ზე—დაახლოებით 200 მილიარდი დედუბლიკირებული პორტუგალიური ტოკენისგან შემდგარ კორპუსზე, რომელიც მასშტაბურ დონეზე ენობრივი მოდელირების მტკიცე შესაძლებლობების მხარდასაჭერად შეიკრიბა. პროექტი აღწერილია ნაშრომში Tucano: Advancing Neural Text Generation for Portuguese, რომელიც გამოქვეყნდა ჟურნალში Patterns 2025 წელს, ხოლო ყველა წონა და სასწავლო კოდი საჯაროდ ხელმისაწვდომია GitHub-ზე Apache 2.0 ლიცენზიით.

მოდელის ვარიანტები და დახვეწილი ვერსიები

Tucano-ს ოჯახი მოიცავს ოთხ საბაზო მოდელის ზომას, რაც მკვლევრებსა და დეველოპერებს საშუალებას აძლევს აირჩიონ მოდელი, რომელიც შეესაბამება მათ გამოთვლით შეზღუდვებსა და ამოცანების მოთხოვნებს:

Tucano-160m – 160 მილიონი პარამეტრი
Tucano-630m – 630 მილიონი პარამეტრი
Tucano-1b1 – დაახლოებით 1.1 მილიარდი პარამეტრი
Tucano-2b4 – დაახლოებით 2.4 მილიარდი პარამეტრი

საბაზო წინასწარ გაწვრთნილი მოდელების გარდა, პროექტმა შექმნა რამდენიმე დახვეწილი წარმოებული. Tucano-SFT და Tucano-DPO წარმოადგენს შესაბამისად ზედამხედველობით დახვეწის და პირდაპირი პრეფერენციების ოპტიმიზაციის ვარიანტებს, ხოლო Tucano-2b4-Instruct არის უდიდესი საბაზო მოდელის ინსტრუქციების შესრულებაზე ორიენტირებული ვერსია. ეს დახვეწილი ვერსიები საბაზო მოდელების გამოყენებადობას ზრდის სასაუბრო და ამოცანაზე ორიენტირებულ აპლიკაციებში.

დაკავშირებული მულტიმოდალური მოდელები, ViTucano-1b5-v1 და ViTucano-2b8-v1, ასევე გამოვიდა ViTucano სახელწოდებით, რაც მიუთითებს შემდგომ სამუშაოზე, რომელიც ვიზუალურ მოდალობებს აერთიანებს პორტუგალიური ტექსტის გაგებასთან.

გამოყენების შემთხვევები და მიზნობრივი აუდიტორია

Tucano ძირითადად მიმართულია მკვლევრებსა და დეველოპერებზე, რომლებიც მუშაობენ ბუნებრივი ენის დამუშავების ამოცანებზე პორტუგალიურ ენაზე. შესაძლო გამოყენების შემთხვევებია ტექსტის გენერაცია, ენობრივი მოდელირების ბენჩმარკები, დახვეწა დომენზე სპეციფიკური პორტუგალიური აპლიკაციებისთვის და როგორც კვლევითი საბაზისო მაჩვენებელი მოდელის ქცევის შესასწავლად დაბალრესურსიან ენობრივ გარემოებში. მრავალი ზომის მოდელების ხელმისაწვდომობა მხარს უჭერს განლაგების სხვადასხვა სცენარს—აკადემიურ ექსპერიმენტებს შეზღუდულ აპარატურაზე დაწყებული, უფრო რესურსმომთხოვნე გამოყენებით კვლევამდე.

ვინაიდან მოდელები გამოდის ნებადართული Apache 2.0 ლიცენზიით ღია წონებით, მათი თავისუფლად გამოყენება, მოდიფიცირება და ხელახლა გავრცელება შესაძლებელია, რაც მათ ხელმისაწვდომს ხდის ფართო საზოგადოებისთვის, მათ შორის მათთვისაც, ვისაც არ აქვს წვდომა საკუთრებრივ მოდელის API-ებზე.

მიმდინარე სტატუსი

Tucano-ს მოდელების სერია ამჟამად არქივირებულია, რაც ნიშნავს, რომ აქტიური განვითარება დასრულდა. წონები, კოდი და შესაბამისი დოკუმენტაცია საჯაროდ ხელმისაწვდომია პროექტის GitHub საცავში მითითებისთვის და კვლევითი საზოგადოების მიერ შემდგომი გამოყენებისთვის. 2025 წელს Patterns-ში დასკვნების გამოქვეყნება უზრუნველყოფს მეთოდოლოგიის, სასწავლო მონაცემებისა და შეფასების შედეგების peer-reviewed ჩანაწერს, რაც ხელს უწყობს რეპროდუცირებადობას და შემდგომ კვლევას.

შეყვანა

გამოტანა

კატეგორიები

თემები

ფონი და განვითარება

მოდელის ვარიანტები და დახვეწილი ვერსიები

გამოყენების შემთხვევები და მიზნობრივი აუდიტორია

მიმდინარე სტატუსი