ట్రాన్స్‌ఫార్మర్ Apache 2.0 Yes
Português

ఇన్‌పుట్

text

అవుట్‌పుట్

text

వర్గాలు

థీమ్‌లు

generative ainlpresearch

Tucano అనేది బ్రెజిల్‌లో అభివృద్ధి చేయబడిన, ఓపెన్-వెయిట్స్ ట్రాన్స్‌ఫార్మర్ భాషా మోడళ్ల కుటుంబం; ఇవి పూర్తిగా పోర్చుగీస్ భాషా పాఠ్యంపై మాత్రమే శిక్షణ పొందాయి. ఈ మోడళ్లను సుమారు 200 బిలియన్ డెడుప్లికేట్ చేసిన పోర్చుగీస్ టోకెన్లతో కూడిన GigaVerbo అనే డేటాసెట్‌పై ముందస్తుగా శిక్షణ ఇచ్చారు. ఇవి 160 మిలియన్ నుండి 2.4 బిలియన్ పరామితుల వరకు ఉన్న నాలుగు పరిమాణాల్లో అందుబాటులో ఉన్నాయి.

ఫైన్-ట్యూన్ చేసిన వేరియంట్లలో సూచనలను అనుసరించే మరియు ప్రాధాన్యతలకు అనుగుణంగా ఆప్టిమైజ్ చేసిన సంచికలు ఉన్నాయి. సంబంధిత మల్టీమోడల్ డెరివేటివ్‌లను ViTucano పేరుతో విడుదల చేశారు. పోర్చుగీస్‌లో సహజ భాషా ప్రాసెసింగ్ పనులపై పనిచేసే పరిశోధకులు మరియు డెవలపర్ల కోసం Tucano ఉద్దేశించబడింది; చారిత్రాత్మకంగా పెద్ద స్థాయి భాషా మోడల్ అభివృద్ధిలో ఈ భాషకు తగిన ప్రతినిధిత్వం తక్కువగా ఉంది.

ఈ ప్రాజెక్ట్‌ను Patterns జర్నల్‌లో ప్రచురితమైన 2025 పేపర్‌లో డాక్యుమెంట్ చేశారు. ఇది Apache 2.0 లైసెన్స్ కింద విడుదలైంది; వెయిట్లు మరియు కోడ్ GitHubలో ప్రజలకు అందుబాటులో ఉన్నాయి. ఈ మోడల్ సిరీస్ ప్రస్తుతం ఆర్కైవ్ చేయబడింది.

నేపథ్యం మరియు అభివృద్ధి

పోర్చుగీస్ పాఠ్యంపై ప్రత్యేకంగా శిక్షణ పొందిన పెద్ద-స్థాయి భాషా మోడళ్ల కొరతను పరిష్కరించేందుకు అంకితమైన ప్రయత్నంగా బ్రెజిల్‌లో Tucano అభివృద్ధి చేయబడింది. అనేక ప్రముఖ భాషా మోడళ్లు ప్రధానంగా ఇంగ్లీష్ భాషా కార్పస్‌లపై శిక్షణ పొందుతున్నప్పటికీ, బ్రెజిల్, పోర్చుగల్ మరియు ఇతర దేశాల్లో 250 మిలియన్లకు పైగా మంది మాట్లాడే పోర్చుగీస్ చారిత్రాత్మకంగా ఫౌండేషన్ మోడల్ పరిశోధనలో తక్కువ దృష్టిని పొందింది. పెద్ద, ఉన్నత-నాణ్యత గల పోర్చుగీస్ డేటాసెట్‌ను ఉపయోగించి మొదటి నుంచే ట్రాన్స్‌ఫార్మర్-ఆధారిత మోడళ్లను నిర్మించడం ద్వారా ఈ అంతరాన్ని పూరించడమే Tucano ప్రాజెక్ట్ లక్ష్యం.

ఈ మోడళ్లు సుమారు 200 బిలియన్ డెడుప్లికేట్ చేసిన పోర్చుగీస్ టోకెన్లతో కూడిన GigaVerbo అనే కార్పస్‌పై ప్రీ-ట్రెయిన్ చేయబడ్డాయి; ఇది స్కేల్‌లో బలమైన భాషా మోడలింగ్‌కు మద్దతు ఇవ్వడానికి రూపొందించబడింది. ఈ ప్రాజెక్ట్‌కు సంబంధించిన వివరాలు 2025లో జర్నల్ Patternsలో ప్రచురితమైన Tucano: Advancing Neural Text Generation for Portuguese పేపర్‌లో డాక్యుమెంట్ చేయబడ్డాయి, మరియు అన్ని వెయిట్లు, శిక్షణ కోడ్‌లు Apache 2.0 లైసెన్స్ కింద GitHubలో ప్రజలకు అందుబాటులో ఉన్నాయి.

మోడల్ వేరియంట్లు మరియు ఫైన్-ట్యూన్ చేసిన వెర్షన్లు

Tucano కుటుంబం నాలుగు బేస్ మోడల్ పరిమాణాలను కలిగి ఉంది; తద్వారా పరిశోధకులు మరియు డెవలపర్లు తమ కంప్యూటేషనల్ పరిమితులు మరియు టాస్క్ అవసరాలకు అనుగుణంగా సరైన మోడల్‌ను ఎంచుకోవచ్చు:

  • Tucano-160m – 160 మిలియన్ పరామితులు
  • Tucano-630m – 630 మిలియన్ పరామితులు
  • Tucano-1b1 – సుమారు 1.1 బిలియన్ పరామితులు
  • Tucano-2b4 – సుమారు 2.4 బిలియన్ పరామితులు

బేస్ ప్రీ-ట్రెయిన్ చేసిన మోడళ్లతో పాటు, ఈ ప్రాజెక్ట్ అనేక ఫైన్-ట్యూన్ చేసిన డెరివేటివ్‌లను కూడా రూపొందించింది. Tucano-SFT మరియు Tucano-DPO వరుసగా సూపర్వైజ్డ్ ఫైన్-ట్యూనింగ్ మరియు డైరెక్ట్ ప్రిఫరెన్స్ ఆప్టిమైజేషన్ వేరియంట్లను సూచిస్తాయి, ఇక Tucano-2b4-Instruct అతిపెద్ద బేస్ మోడల్‌కు చెందిన ఇన్‌స్ట్రక్షన్-ఫాలోయింగ్ వెర్షన్. ఈ ఫైన్-ట్యూన్ చేసిన వెర్షన్లు బేస్ మోడళ్ల వినియోగాన్ని సంభాషణాత్మక మరియు టాస్క్-కేంద్రీకృత అనువర్తనాల దిశగా విస్తరిస్తాయి.

ViTucano-1b5-v1 మరియు ViTucano-2b8-v1 అనే సంబంధిత మల్టీమోడల్ మోడళ్లు కూడా ViTucano పేరుతో విడుదలయ్యాయి; ఇది పోర్చుగీస్ పాఠ్య అవగాహనతో పాటు విజువల్ మోడాలిటీలను సమన్వయించే తదుపరి పనిని సూచిస్తుంది.

ఉపయోగ సందర్భాలు మరియు ఉద్దేశించిన ప్రేక్షకులు

Tucano ప్రధానంగా పోర్చుగీస్‌లో నేచురల్ లాంగ్వేజ్ ప్రాసెసింగ్ టాస్క్‌లపై పనిచేస్తున్న పరిశోధకులు మరియు డెవలపర్లను లక్ష్యంగా పెట్టుకుంది. సాధ్యమైన ఉపయోగ సందర్భాల్లో టెక్స్ట్ జనరేషన్, భాషా మోడలింగ్ బెంచ్‌మార్క్‌లు, డొమైన్-స్పెసిఫిక్ పోర్చుగీస్ అనువర్తనాల కోసం ఫైన్-ట్యూనింగ్, అలాగే తక్కువ వనరుల భాషా పరిసరాల్లో మోడల్ ప్రవర్తనను అధ్యయనం చేయడానికి పరిశోధన బేస్‌లైన్‌గా ఉపయోగించడం ఉన్నాయి. అనేక మోడల్ పరిమాణాల లభ్యత పరిమిత హార్డ్‌వేర్‌పై అకడమిక్ ప్రయోగాల నుంచి మరింత వనరులు అవసరమైన అనువర్తిత పరిశోధన వరకు విభిన్న డిప్లాయ్‌మెంట్ సందర్భాలను మద్దతు ఇస్తుంది.

మోడళ్లు ఓపెన్ వెయిట్లతో పాటు అనుమతించే Apache 2.0 లైసెన్స్ కింద విడుదల కావడంతో, వాటిని స్వేచ్ఛగా ఉపయోగించవచ్చు, మార్చవచ్చు, మరియు తిరిగి పంపిణీ చేయవచ్చు. అందువల్ల ప్రైవేటరీ మోడల్ APIలకు యాక్సెస్ లేని వారితో సహా విస్తృత సముదాయానికి ఇవి అందుబాటులో ఉంటాయి.

ప్రస్తుత స్థితి

Tucano మోడల్ సిరీస్ ప్రస్తుతం ఆర్కైవ్ చేయబడింది; అంటే క్రియాశీల అభివృద్ధి ముగిసింది. వెయిట్లు, కోడ్, మరియు సంబంధిత డాక్యుమెంటేషన్ పరిశోధనా సముదాయం సూచన మరియు కొనసాగుతున్న వినియోగం కోసం ప్రాజెక్ట్ GitHub రిపోజిటరీ ద్వారా ప్రజలకు అందుబాటులోనే ఉన్నాయి. 2025లో Patternsలో కనుగొన్న విషయాల ప్రచురణ ఈ ప్రాజెక్ట్‌కు సంబంధించిన విధానం, శిక్షణ డేటా, మరియు మూల్యాంకన ఫలితాలపై పీర్-రివ్యూడ్ రికార్డును అందిస్తుంది; ఇది పునరుత్పాదకతను మరియు మరింత అధ్యయనాన్ని మద్దతు ఇస్తుంది.

నివేదిక