Tucano
შეყვანა
გამოტანა
კატეგორიები
თემები
Tucano არის ღია-წონიანი ტრანსფორმერული ენობრივი მოდელების ოჯახი, რომელიც შემუშავებულია ბრაზილიაში და გაწვრთნილია ექსკლუზიურად პორტუგალიურენოვან ტექსტზე. მოდელები წინასწარ იქნა გაწვრთნილი GigaVerbo-ზე — დაახლოებით 200 მილიარდი დედუპლიკირებული პორტუგალიური ტოკენისგან შემდგარ მონაცემთა ნაკრებზე — და ხელმისაწვდომია ოთხ ზომაში, 160 მილიონიდან 2.4 მილიარდ პარამეტრამდე.
დახვეწილი ვარიანტები მოიცავს ინსტრუქციების შესრულებაზე ორიენტირებულ და უპირატესობაზე ოპტიმიზირებულ ვერსიებს, ხოლო დაკავშირებული მულტიმოდალური წარმოებულები გამოქვეყნდა ViTucano სახელით. Tucano განკუთვნილია მკვლევრებისთვის და დეველოპერებისთვის, რომლებიც მუშაობენ ბუნებრივი ენის დამუშავების ამოცანებზე პორტუგალიურ ენაზე — ენაზე, რომელიც ისტორიულად ნაკლებად იყო წარმოდგენილი მასშტაბური ენობრივი მოდელების განვითარებაში.
პროექტი დოკუმენტირებულია 2025 წლის ნაშრომში, რომელიც გამოქვეყნებულია ჟურნალში Patterns, და გამოშვებულია Apache 2.0 ლიცენზიით; წონები და კოდი საჯაროდ ხელმისაწვდომია GitHub-ზე. მოდელების სერია ამჟამად არქივირებულია.
ფონი და განვითარება
Tucano შემუშავებული იქნა ბრაზილიაში, როგორც მიზანმიმართული მცდელობა, რათა აღმოფხვრილიყო დიდი მასშტაბის ენობრივი მოდელების დეფიციტი, რომლებიც სპეციალურად პორტუგალიურ ტექსტზე არიან გაწვრთნილი. მიუხედავად იმისა, რომ მრავალი გამორჩეული ენობრივი მოდელი ძირითადად ინგლისურენოვან კორპუსებზე იწვრთნება, პორტუგალიურს—რომელსაც 250 მილიონზე მეტი ადამიანი საუბრობს ბრაზილიაში, პორტუგალიასა და სხვა ქვეყნებში—ისტორიულად ნაკლები ყურადღება ექცეოდა ფუნდამენტური მოდელების კვლევაში. Tucano-ს პროექტმა მიზნად დაისახა ამ ხარვეზის შევსება და ტრანსფორმერზე დაფუძნებული მოდელების ნულიდან აგება დიდი, მაღალი ხარისხის პორტუგალიური მონაცემთა ნაკრებით.
მოდელები წინასწარ გაიწვრთნა GigaVerbo-ზე—დაახლოებით 200 მილიარდი დედუბლიკირებული პორტუგალიური ტოკენისგან შემდგარ კორპუსზე, რომელიც მასშტაბურ დონეზე ენობრივი მოდელირების მტკიცე შესაძლებლობების მხარდასაჭერად შეიკრიბა. პროექტი აღწერილია ნაშრომში Tucano: Advancing Neural Text Generation for Portuguese, რომელიც გამოქვეყნდა ჟურნალში Patterns 2025 წელს, ხოლო ყველა წონა და სასწავლო კოდი საჯაროდ ხელმისაწვდომია GitHub-ზე Apache 2.0 ლიცენზიით.
მოდელის ვარიანტები და დახვეწილი ვერსიები
Tucano-ს ოჯახი მოიცავს ოთხ საბაზო მოდელის ზომას, რაც მკვლევრებსა და დეველოპერებს საშუალებას აძლევს აირჩიონ მოდელი, რომელიც შეესაბამება მათ გამოთვლით შეზღუდვებსა და ამოცანების მოთხოვნებს:
- Tucano-160m – 160 მილიონი პარამეტრი
- Tucano-630m – 630 მილიონი პარამეტრი
- Tucano-1b1 – დაახლოებით 1.1 მილიარდი პარამეტრი
- Tucano-2b4 – დაახლოებით 2.4 მილიარდი პარამეტრი
საბაზო წინასწარ გაწვრთნილი მოდელების გარდა, პროექტმა შექმნა რამდენიმე დახვეწილი წარმოებული. Tucano-SFT და Tucano-DPO წარმოადგენს შესაბამისად ზედამხედველობით დახვეწის და პირდაპირი პრეფერენციების ოპტიმიზაციის ვარიანტებს, ხოლო Tucano-2b4-Instruct არის უდიდესი საბაზო მოდელის ინსტრუქციების შესრულებაზე ორიენტირებული ვერსია. ეს დახვეწილი ვერსიები საბაზო მოდელების გამოყენებადობას ზრდის სასაუბრო და ამოცანაზე ორიენტირებულ აპლიკაციებში.
დაკავშირებული მულტიმოდალური მოდელები, ViTucano-1b5-v1 და ViTucano-2b8-v1, ასევე გამოვიდა ViTucano სახელწოდებით, რაც მიუთითებს შემდგომ სამუშაოზე, რომელიც ვიზუალურ მოდალობებს აერთიანებს პორტუგალიური ტექსტის გაგებასთან.
გამოყენების შემთხვევები და მიზნობრივი აუდიტორია
Tucano ძირითადად მიმართულია მკვლევრებსა და დეველოპერებზე, რომლებიც მუშაობენ ბუნებრივი ენის დამუშავების ამოცანებზე პორტუგალიურ ენაზე. შესაძლო გამოყენების შემთხვევებია ტექსტის გენერაცია, ენობრივი მოდელირების ბენჩმარკები, დახვეწა დომენზე სპეციფიკური პორტუგალიური აპლიკაციებისთვის და როგორც კვლევითი საბაზისო მაჩვენებელი მოდელის ქცევის შესასწავლად დაბალრესურსიან ენობრივ გარემოებში. მრავალი ზომის მოდელების ხელმისაწვდომობა მხარს უჭერს განლაგების სხვადასხვა სცენარს—აკადემიურ ექსპერიმენტებს შეზღუდულ აპარატურაზე დაწყებული, უფრო რესურსმომთხოვნე გამოყენებით კვლევამდე.
ვინაიდან მოდელები გამოდის ნებადართული Apache 2.0 ლიცენზიით ღია წონებით, მათი თავისუფლად გამოყენება, მოდიფიცირება და ხელახლა გავრცელება შესაძლებელია, რაც მათ ხელმისაწვდომს ხდის ფართო საზოგადოებისთვის, მათ შორის მათთვისაც, ვისაც არ აქვს წვდომა საკუთრებრივ მოდელის API-ებზე.
მიმდინარე სტატუსი
Tucano-ს მოდელების სერია ამჟამად არქივირებულია, რაც ნიშნავს, რომ აქტიური განვითარება დასრულდა. წონები, კოდი და შესაბამისი დოკუმენტაცია საჯაროდ ხელმისაწვდომია პროექტის GitHub საცავში მითითებისთვის და კვლევითი საზოგადოების მიერ შემდგომი გამოყენებისთვის. 2025 წელს Patterns-ში დასკვნების გამოქვეყნება უზრუნველყოფს მეთოდოლოგიის, სასწავლო მონაცემებისა და შეფასების შედეგების peer-reviewed ჩანაწერს, რაც ხელს უწყობს რეპროდუცირებადობას და შემდგომ კვლევას.