Tucano
تێکردن
دەرچوون
Kategoriya
ڕووکارەکان
Tucano malbatek modelên zimanî yên transformer ên open-weights e ku li Brezîlyayê hatine pêşxistin û bi tenê li ser nivîsên bi zimanê Portekîzî hatine perwerdekirin. Model li ser GigaVerbo, komek daneyan a ku nêzîkî 200 milyar tokenên Portekîzî yên bêdubare tê de hene, pêş-perwerde kirin û di çar mezinahiyan de berdest in, ku ji 160 milyon heta 2.4 milyar parametreyan digerin.
Guhertoyên fine-tuned guhertoyên ku rêwerzên fermanan dişopînin û guhertoyên ku li gorî tercîhan hatine optimîzekirin dihewînin, û jêderketinên multimodal ên têkildar jî bi navê ViTucano hatin belavkirin. Tucano ji bo lêkolîner û pêşdebirên ku li ser erkên pêvajoya zimanê xwezayî bi zimanê Portekîzî dixebitin hatiye armanc kirin; zimanek ku di dîrokê de di pêşxistina modelên zimanî yên mezin de kêmtir hatiye temsîlkirin.
Belgekirina projeyê di gotarek sala 2025-an de hatiye kirin ku di kovara Patterns de hate weşandin û di bin lîsansa Apache 2.0 de hatiye berdan, bi giraniyan û kodê ku bi awayekî giştî li ser GitHub berdest in. Rêzeya modelan niha di arşîvê de ye.
Paşxane û Pêşveçûn
Tucano li Brezîlyayê hate pêşxistin wekî hewldanek taybet ji bo çareserkirina kêmbûna modelên zimanî yên mezin-kuhî yên ku bi taybetî li ser nivîsên Portekîzî hatine perwerdekirin. Dema ku gelek modelên zimanî yên navdar bi piranî li ser korpusên zimanê Îngilîzî têne perwerdekirin, Portekîzî—ku ji aliyê zêdetirî 250 milyon kesan ve li Brezîlya, Portekîz û welatên din tê axaftin—di lêkolîna modelên bingehîn de bi dîrokî kêmtir bala xwe kişandiye. Projeya Tucano armanc kir ku vê valahiyê bigire bi avakirina modelên li ser bingeha transformer ji destpêkê ve, bi bikaranîna danegehek mezin û bi kalîte ya bilind a Portekîzî.
Model berî perwerdeyê li ser GigaVerbo hatin amadekirin, ku korpusek e ji nêzîkî 200 milyar tokenên Portekîzî yên ji dubarebûnê hatine paqijkirin, ku ji bo piştgirîkirina modelkirina zimanî ya bihêz di pîvanek mezin de hatine berhevkirin. Proje di gotara Tucano: Advancing Neural Text Generation for Portuguese de hatiye belgekirin, ku di kovara Patterns de di sala 2025-an de hate weşandin, û hemû giraniyên modelê û koda perwerdeyê bi gelemperî li ser GitHub di bin lîsansa Apache 2.0 de berdest in.
Cûreyên Modelê û Guhertoyên Fine-Tuned
Malbata Tucano çar mezinahiyên modela bingehîn digire nav xwe, ku dihêle lêkolîner û pêşdebir modela ku bi sînorkirinên wan ên hesabkerî û daxwazên karê wan re guncaw e hilbijêrin:
- Tucano-160m – 160 milyon parametre
- Tucano-630m – 630 milyon parametre
- Tucano-1b1 – nêzîkî 1.1 milyar parametre
- Tucano-2b4 – nêzîkî 2.4 milyar parametre
Ji bilî modelên bingehîn ên berî-perwerdekirî, proje çend şaxên fine-tuned jî derxistiye. Tucano-SFT û Tucano-DPO bi rêzê guhertoyên fine-tuning-a çavdêrikirî û optimîzasyona rasterast a tercîhanê temsîl dikin, dema ku Tucano-2b4-Instruct guhertoyek e ku fermanan dişopîne ya modela bingehîn a herî mezin. Van guhertoyên fine-tuned bikêrhatina modelên bingehîn ber bi sepanên axaftinî û arasteyî-kar ve fireh dikin.
Modelên multimodal ên têkildar, ViTucano-1b5-v1 û ViTucano-2b8-v1, jî di bin navê ViTucano de hatin weşandin, ku karê paşerojê yê ku modalîteyên dîtbarî li gel têgihiştina nivîsên Portekîzî tê de têne tevlêkirin pêşniyar dike.
Bikaranîn û Temaşevanên Armancdar
Tucano bi sereke ji bo lêkolîner û pêşdebirên ku li ser erkên pêvajoya zimanê xwezayî bi Portekîzî dixebitin hatiye armanc kirin. Bikaranînên gengaz di nav de hene: afirandina nivîsê, benchmarkên modelkirina zimanî, fine-tuning ji bo sepanên taybet ên Portekîzî yên li ser qadê, û wekî bingehek lêkolînê ji bo xwendina tevgera modelan di şert û mercên zimanên bi çavkaniyên kêm de. Hebûna gelek mezinahiyên modelê piştgirî dide cûrbecûr senaryoyên bicîhkirinê, ji ceribandinên akademîk li ser hardware-a sînorkirî heta lêkolîna sepandî ya ku çavkaniyên zêdetir dixwaze.
Ji ber ku model di bin lîsansa vekirî û rehet a Apache 2.0 de bi giraniyên vekirî hatine weşandin, ew dikarin bi azadî bên bikaranîn, guherandin û ji nû ve belavkirin, ku wan ji bo civakek fireh berdest dike, di nav de yên ku gihîştina wan bi API-yên modelên xwedanî tune ye jî.
Rewşa Heyî
Rêzeya modelên Tucano niha di arşîvê de ye, wateya ku pêşveçûna çalak bi dawî bûye. Giraniyên modelê, kod, û belgeyên têkildar hîn jî bi gelemperî bi rêya depoya GitHub ya projeyê ji bo referans û bikaranîna berdewam a civaka lêkolînê berdest in. Weşandina encaman di Patterns de di sala 2025-an de tomarek peer-reviewed ya metodolojî, daneyên perwerdeyê, û encamên nirxandinê yên têkildar bi projeyê re peyda dike, ku dubarekirin û lêkolîna bêtir piştgirî dike.