Tucano
Bemenet
Kimenet
Kategóriák
Témák
A Tucano a Brazíliában kifejlesztett, nyílt súlyú transzformer nyelvi modellek családja, amelyeket kizárólag portugál nyelvű szövegeken képeztek ki. A modelleket a GigaVerbo adatkészleten előtanították, amely körülbelül 200 milliárd deduplikált portugál tokent tartalmaz, és négy méretben érhetők el, 160 milliótól 2,4 milliárd paraméterig.
A finomhangolt változatok közé tartoznak az utasításokat követő és preferenciaoptimalizált verziók, valamint a kapcsolódó multimodális származékok a ViTucano néven jelentek meg. A Tucano olyan kutatóknak és fejlesztőknek szól, akik portugál nyelvű természetesnyelv-feldolgozási feladatokon dolgoznak, amely nyelv történetileg alulreprezentált volt a nagyléptékű nyelvi modellek fejlesztésében.
A projektet a Patterns folyóiratban 2025-ben megjelent tanulmány dokumentálja, és az Apache 2.0 licenc alatt érhető el; a súlyok és a kód nyilvánosan elérhetők a GitHubon. A modellcsalád jelenleg archivált állapotban van.
Háttér és fejlesztés
A Tucanót Brazíliában fejlesztették ki egy célzott erőfeszítésként, amely a nagy léptékű nyelvi modellek hiányát kívánta pótolni, amelyeket kifejezetten portugál szövegre képeztek. Míg sok jelentős nyelvi modellt túlnyomórészt angol nyelvű korpuszokon képeznek, a portugál—amelyet több mint 250 millió ember beszél Brazíliában, Portugáliában és más országokban—történetileg kevesebb figyelmet kapott az alapmodellek kutatásában. A Tucano-projekt e szakadék áthidalását célozta azzal, hogy a transzformer-alapú modelleket a nulláról építették fel egy nagy, kiváló minőségű portugál adatkészlet felhasználásával.
A modelleket előzetesen a GigaVerbón képezték, amely körülbelül 200 milliárd deduplikált portugál tokent tartalmazó korpusz, amelyet a robusztus nyelvmodellezés támogatására állítottak össze skálázható méretekben. A projektet a Tucano: Advancing Neural Text Generation for Portuguese című tanulmány dokumentálja, amely 2025-ben jelent meg a Patterns folyóiratban, és az összes súly és a betanítási kód nyilvánosan elérhető a GitHubon az Apache 2.0 licenc alatt.
Modellváltozatok és finomhangolt verziók
A Tucano család négy alapmodell-méretet foglal magában, lehetővé téve a kutatók és fejlesztők számára, hogy a számítási korlátoknak és a feladatkövetelményeknek megfelelő modellt válasszák:
- Tucano-160m – 160 millió paraméter
- Tucano-630m – 630 millió paraméter
- Tucano-1b1 – körülbelül 1,1 milliárd paraméter
- Tucano-2b4 – körülbelül 2,4 milliárd paraméter
Az alap, előzetesen betanított modelleken túl a projekt több finomhangolt származékot is előállított. A Tucano-SFT és a Tucano-DPO a felügyelt finomhangolás, illetve a közvetlen preferenciaoptimalizálás megfelelő változatai, míg a Tucano-2b4-Instruct a legnagyobb alapmodell utasításkövető verziója. Ezek a finomhangolt változatok az alapmodellek hasznosságát a beszélgetésre és feladatközpontú alkalmazásokra is kiterjesztik.
Kapcsolódó multimodális modellek, a ViTucano-1b5-v1 és a ViTucano-2b8-v1 szintén kiadásra kerültek a ViTucano név alatt, ami olyan további munkára utal, amely a vizuális modalitásokat a portugál szövegértéssel együtt használja.
Felhasználási esetek és célközönség
A Tucanót elsősorban olyan kutatóknak és fejlesztőknek szánják, akik portugál nyelvű természetesnyelv-feldolgozási feladatokon dolgoznak. Lehetséges felhasználási esetek közé tartozik a szöveggenerálás, a nyelvmodellezési benchmarkok, a doménspecifikus portugál alkalmazásokhoz végzett finomhangolás, valamint kutatási alapként a modellviselkedés tanulmányozásához alacsonyabb erőforrású nyelvi környezetekben. A több modellméret elérhetősége különféle bevezetési forgatókönyveket támogat, a korlátozott hardveren végzett akadémiai kísérletektől a nagyobb erőforrásigényű alkalmazott kutatásig.
Mivel a modellek az engedékeny Apache 2.0 licenc alatt kerülnek kiadásra nyílt súlyokkal, szabadon felhasználhatók, módosíthatók és újraterjeszthetők, így széles közösség számára is hozzáférhetők, beleértve azokat is, akik nem férnek hozzá saját fejlesztésű (proprietary) modell API-khoz.
Jelenlegi állapot
A Tucano modellcsalád jelenleg archivált, vagyis az aktív fejlesztés befejeződött. A súlyok, a kód és a kapcsolódó dokumentáció nyilvánosan elérhető marad a projekt GitHub-repozitóriumán keresztül hivatkozás és a kutatói közösség általi további felhasználás céljából. A 2025-ben a Patterns folyóiratban megjelent eredmények közlése a projekt módszertanáról, betanítási adatairól és kiértékelési eredményeiről egy lektorált nyilvántartást biztosít, támogatva az újratermelhetőséget és a további kutatást.