Tucano

Háttér és fejlesztés

A Tucanót Brazíliában fejlesztették ki egy célzott erőfeszítésként, amely a nagy léptékű nyelvi modellek hiányát kívánta pótolni, amelyeket kifejezetten portugál szövegre képeztek. Míg sok jelentős nyelvi modellt túlnyomórészt angol nyelvű korpuszokon képeznek, a portugál—amelyet több mint 250 millió ember beszél Brazíliában, Portugáliában és más országokban—történetileg kevesebb figyelmet kapott az alapmodellek kutatásában. A Tucano-projekt e szakadék áthidalását célozta azzal, hogy a transzformer-alapú modelleket a nulláról építették fel egy nagy, kiváló minőségű portugál adatkészlet felhasználásával.

A modelleket előzetesen a GigaVerbón képezték, amely körülbelül 200 milliárd deduplikált portugál tokent tartalmazó korpusz, amelyet a robusztus nyelvmodellezés támogatására állítottak össze skálázható méretekben. A projektet a Tucano: Advancing Neural Text Generation for Portuguese című tanulmány dokumentálja, amely 2025-ben jelent meg a Patterns folyóiratban, és az összes súly és a betanítási kód nyilvánosan elérhető a GitHubon az Apache 2.0 licenc alatt.

Modellváltozatok és finomhangolt verziók

A Tucano család négy alapmodell-méretet foglal magában, lehetővé téve a kutatók és fejlesztők számára, hogy a számítási korlátoknak és a feladatkövetelményeknek megfelelő modellt válasszák:

Tucano-160m – 160 millió paraméter
Tucano-630m – 630 millió paraméter
Tucano-1b1 – körülbelül 1,1 milliárd paraméter
Tucano-2b4 – körülbelül 2,4 milliárd paraméter

Az alap, előzetesen betanított modelleken túl a projekt több finomhangolt származékot is előállított. A Tucano-SFT és a Tucano-DPO a felügyelt finomhangolás, illetve a közvetlen preferenciaoptimalizálás megfelelő változatai, míg a Tucano-2b4-Instruct a legnagyobb alapmodell utasításkövető verziója. Ezek a finomhangolt változatok az alapmodellek hasznosságát a beszélgetésre és feladatközpontú alkalmazásokra is kiterjesztik.

Kapcsolódó multimodális modellek, a ViTucano-1b5-v1 és a ViTucano-2b8-v1 szintén kiadásra kerültek a ViTucano név alatt, ami olyan további munkára utal, amely a vizuális modalitásokat a portugál szövegértéssel együtt használja.

Felhasználási esetek és célközönség

A Tucanót elsősorban olyan kutatóknak és fejlesztőknek szánják, akik portugál nyelvű természetesnyelv-feldolgozási feladatokon dolgoznak. Lehetséges felhasználási esetek közé tartozik a szöveggenerálás, a nyelvmodellezési benchmarkok, a doménspecifikus portugál alkalmazásokhoz végzett finomhangolás, valamint kutatási alapként a modellviselkedés tanulmányozásához alacsonyabb erőforrású nyelvi környezetekben. A több modellméret elérhetősége különféle bevezetési forgatókönyveket támogat, a korlátozott hardveren végzett akadémiai kísérletektől a nagyobb erőforrásigényű alkalmazott kutatásig.

Mivel a modellek az engedékeny Apache 2.0 licenc alatt kerülnek kiadásra nyílt súlyokkal, szabadon felhasználhatók, módosíthatók és újraterjeszthetők, így széles közösség számára is hozzáférhetők, beleértve azokat is, akik nem férnek hozzá saját fejlesztésű (proprietary) modell API-khoz.

Jelenlegi állapot

A Tucano modellcsalád jelenleg archivált, vagyis az aktív fejlesztés befejeződött. A súlyok, a kód és a kapcsolódó dokumentáció nyilvánosan elérhető marad a projekt GitHub-repozitóriumán keresztül hivatkozás és a kutatói közösség általi további felhasználás céljából. A 2025-ben a Patterns folyóiratban megjelent eredmények közlése a projekt módszertanáról, betanítási adatairól és kiértékelési eredményeiről egy lektorált nyilvántartást biztosít, támogatva az újratermelhetőséget és a további kutatást.

Bemenet

Kimenet

Kategóriák

Témák

Háttér és fejlesztés

Modellváltozatok és finomhangolt verziók

Felhasználási esetek és célközönség

Jelenlegi állapot