Tucano
Hyrje
Prodhoni
Kategori
Tema
Tucano është një familje modelesh gjuhësore transformatorë me peshë të hapur, të zhvilluara në Brazil dhe të trajnuara ekskluzivisht mbi tekst në gjuhën portugeze. Modelet u paratrajnua në GigaVerbo, një grup të dhënash prej afërsisht 200 miliardë tokenësh portugezë të deduplikur, dhe janë të disponueshme në katër madhësi, nga 160 milionë deri në 2.4 miliardë parametra.
Variantet e përshtatura përfshijnë versione që ndjekin udhëzime dhe versione të optimizuara për preferenca, ndërsa derivatet përkatëse multimodale u publikuan nën emrin ViTucano. Tucano synon studiuesit dhe zhvilluesit që punojnë në detyra të përpunimit të gjuhës natyrore në portugalisht, një gjuhë që historikisht ka qenë e nën-përfaqësuar në zhvillimin e modeleve të mëdha gjuhësore.
Projekti dokumentohet në një punim të vitit 2025 të botuar në revistën Patterns dhe lëshohet nën licencën Apache 2.0, me pesha dhe kod të disponueshëm publikisht në GitHub. Seria e modeleve është aktualisht e arkivuar.
Historiku dhe Zhvillimi
Tucano u zhvillua në Brazil si një përpjekje e dedikuar për të adresuar mungesën e modeleve të mëdha gjuhësore të trajnuara posaçërisht mbi tekstin në portugalisht. Ndërsa shumë modele të njohura gjuhësore trajnohen kryesisht mbi korpuse në gjuhën angleze, portugalishtja—e folur nga mbi 250 milionë njerëz në Brazil, Portugali dhe vende të tjera—historikisht ka marrë më pak vëmendje në kërkimet për modelet themelore. Projekti Tucano synonte ta mbyllte këtë boshllëk duke ndërtuar modele të bazuara në transformer nga themeli, duke përdorur një dataset të madh dhe me cilësi të lartë në portugalisht.
Modelet u para-trajuan mbi GigaVerbo, një korpus me afërsisht 200 miliardë tokenë portugalisht të deduplikur, i mbledhur për të mbështetur modelim gjuhësor të fortë në shkallë të gjerë. Projekti dokumentohet në punimin Tucano: Advancing Neural Text Generation for Portuguese, botuar në revistën Patterns në vitin 2025, dhe të gjithë peshat si dhe kodi i trajnimit janë publikisht të disponueshme në GitHub nën licencën Apache 2.0.
Variantet e Modelit dhe Versionet e Rregulluara (Fine-Tuned)
Familja Tucano përfshin katër madhësi modelesh bazë, duke i lejuar studiuesit dhe zhvilluesit të zgjedhin një model të përshtatshëm për kufizimet e tyre llogaritëse dhe kërkesat e detyrës:
- Tucano-160m – 160 milionë parametra
- Tucano-630m – 630 milionë parametra
- Tucano-1b1 – afërsisht 1,1 miliardë parametra
- Tucano-2b4 – afërsisht 2,4 miliardë parametra
Përveç modeleve bazë të para-trajnuara, projekti prodhoi disa derivime të rregulluara. Tucano-SFT dhe Tucano-DPO përfaqësojnë variante të rregullimit të mbikëqyrur (supervised fine-tuning) dhe optimizimit të preferencës direkte (direct preference optimization) përkatësisht, ndërsa Tucano-2b4-Instruct është një version që ndjek udhëzime i modelit bazë më të madh. Këto versione të rregulluara e zgjerojnë dobinë e modeleve bazë drejt aplikacioneve bisedore dhe të orientuara nga detyra.
Modele të lidhura multimodale, ViTucano-1b5-v1 dhe ViTucano-2b8-v1, u lëshuan gjithashtu nën emrin ViTucano, duke sugjeruar punë pasuese që përfshin modalitete vizuale krahas kuptimit të tekstit në portugalisht.
Rastet e Përdorimit dhe Audienca e Synuar
Tucano synohet kryesisht për studiues dhe zhvillues që punojnë në detyra të përpunimit të gjuhës natyrore në portugalisht. Rastet e mundshme të përdorimit përfshijnë gjenerimin e tekstit, standardet (benchmarks) për modelimin gjuhësor, rregullimin për aplikacione specifike në portugalisht dhe si bazë kërkimore për studimin e sjelljes së modeleve në mjedise gjuhësh me burime më të pakta. Disponueshmëria e madhësive të shumta të modeleve mbështet një gamë skenarësh vendosjeje, nga eksperimente akademike me harduer të kufizuar deri te kërkime të aplikuara më të kërkuara nga burimet.
Meqë modelet lëshohen nën licencën lehtësuese Apache 2.0 me peshë të hapura, ato mund të përdoren lirisht, të modifikohen dhe të rishpërndahen, duke i bërë të aksesueshme për një komunitet të gjerë, përfshirë edhe ata që nuk kanë akses në API-të pronësore të modeleve.
Statusi Aktual
Seria e modeleve Tucano është aktualisht e arkivuar, që do të thotë se zhvillimi aktiv ka përfunduar. Peshat, kodi dhe dokumentacioni i lidhur mbeten publikisht të aksesueshme përmes depozitës GitHub të projektit për referencë dhe përdorim të vazhdueshëm nga komuniteti kërkimor. Publikimi i gjetjeve në Patterns në vitin 2025 ofron një regjistrim të verifikuar nga kolegët për metodologjinë, të dhënat e trajnimit dhe rezultatet e vlerësimit që lidhen me projektin, duke mbështetur riprodhueshmërinë dhe studimin e mëtejshëm.