Tucano
ఇన్పుట్
అవుట్పుట్
వర్గాలు
థీమ్లు
Tucano అనేది బ్రెజిల్లో అభివృద్ధి చేయబడిన, ఓపెన్-వెయిట్స్ ట్రాన్స్ఫార్మర్ భాషా మోడళ్ల కుటుంబం; ఇవి పూర్తిగా పోర్చుగీస్ భాషా పాఠ్యంపై మాత్రమే శిక్షణ పొందాయి. ఈ మోడళ్లను సుమారు 200 బిలియన్ డెడుప్లికేట్ చేసిన పోర్చుగీస్ టోకెన్లతో కూడిన GigaVerbo అనే డేటాసెట్పై ముందస్తుగా శిక్షణ ఇచ్చారు. ఇవి 160 మిలియన్ నుండి 2.4 బిలియన్ పరామితుల వరకు ఉన్న నాలుగు పరిమాణాల్లో అందుబాటులో ఉన్నాయి.
ఫైన్-ట్యూన్ చేసిన వేరియంట్లలో సూచనలను అనుసరించే మరియు ప్రాధాన్యతలకు అనుగుణంగా ఆప్టిమైజ్ చేసిన సంచికలు ఉన్నాయి. సంబంధిత మల్టీమోడల్ డెరివేటివ్లను ViTucano పేరుతో విడుదల చేశారు. పోర్చుగీస్లో సహజ భాషా ప్రాసెసింగ్ పనులపై పనిచేసే పరిశోధకులు మరియు డెవలపర్ల కోసం Tucano ఉద్దేశించబడింది; చారిత్రాత్మకంగా పెద్ద స్థాయి భాషా మోడల్ అభివృద్ధిలో ఈ భాషకు తగిన ప్రతినిధిత్వం తక్కువగా ఉంది.
ఈ ప్రాజెక్ట్ను Patterns జర్నల్లో ప్రచురితమైన 2025 పేపర్లో డాక్యుమెంట్ చేశారు. ఇది Apache 2.0 లైసెన్స్ కింద విడుదలైంది; వెయిట్లు మరియు కోడ్ GitHubలో ప్రజలకు అందుబాటులో ఉన్నాయి. ఈ మోడల్ సిరీస్ ప్రస్తుతం ఆర్కైవ్ చేయబడింది.
నేపథ్యం మరియు అభివృద్ధి
పోర్చుగీస్ పాఠ్యంపై ప్రత్యేకంగా శిక్షణ పొందిన పెద్ద-స్థాయి భాషా మోడళ్ల కొరతను పరిష్కరించేందుకు అంకితమైన ప్రయత్నంగా బ్రెజిల్లో Tucano అభివృద్ధి చేయబడింది. అనేక ప్రముఖ భాషా మోడళ్లు ప్రధానంగా ఇంగ్లీష్ భాషా కార్పస్లపై శిక్షణ పొందుతున్నప్పటికీ, బ్రెజిల్, పోర్చుగల్ మరియు ఇతర దేశాల్లో 250 మిలియన్లకు పైగా మంది మాట్లాడే పోర్చుగీస్ చారిత్రాత్మకంగా ఫౌండేషన్ మోడల్ పరిశోధనలో తక్కువ దృష్టిని పొందింది. పెద్ద, ఉన్నత-నాణ్యత గల పోర్చుగీస్ డేటాసెట్ను ఉపయోగించి మొదటి నుంచే ట్రాన్స్ఫార్మర్-ఆధారిత మోడళ్లను నిర్మించడం ద్వారా ఈ అంతరాన్ని పూరించడమే Tucano ప్రాజెక్ట్ లక్ష్యం.
ఈ మోడళ్లు సుమారు 200 బిలియన్ డెడుప్లికేట్ చేసిన పోర్చుగీస్ టోకెన్లతో కూడిన GigaVerbo అనే కార్పస్పై ప్రీ-ట్రెయిన్ చేయబడ్డాయి; ఇది స్కేల్లో బలమైన భాషా మోడలింగ్కు మద్దతు ఇవ్వడానికి రూపొందించబడింది. ఈ ప్రాజెక్ట్కు సంబంధించిన వివరాలు 2025లో జర్నల్ Patternsలో ప్రచురితమైన Tucano: Advancing Neural Text Generation for Portuguese పేపర్లో డాక్యుమెంట్ చేయబడ్డాయి, మరియు అన్ని వెయిట్లు, శిక్షణ కోడ్లు Apache 2.0 లైసెన్స్ కింద GitHubలో ప్రజలకు అందుబాటులో ఉన్నాయి.
మోడల్ వేరియంట్లు మరియు ఫైన్-ట్యూన్ చేసిన వెర్షన్లు
Tucano కుటుంబం నాలుగు బేస్ మోడల్ పరిమాణాలను కలిగి ఉంది; తద్వారా పరిశోధకులు మరియు డెవలపర్లు తమ కంప్యూటేషనల్ పరిమితులు మరియు టాస్క్ అవసరాలకు అనుగుణంగా సరైన మోడల్ను ఎంచుకోవచ్చు:
- Tucano-160m – 160 మిలియన్ పరామితులు
- Tucano-630m – 630 మిలియన్ పరామితులు
- Tucano-1b1 – సుమారు 1.1 బిలియన్ పరామితులు
- Tucano-2b4 – సుమారు 2.4 బిలియన్ పరామితులు
బేస్ ప్రీ-ట్రెయిన్ చేసిన మోడళ్లతో పాటు, ఈ ప్రాజెక్ట్ అనేక ఫైన్-ట్యూన్ చేసిన డెరివేటివ్లను కూడా రూపొందించింది. Tucano-SFT మరియు Tucano-DPO వరుసగా సూపర్వైజ్డ్ ఫైన్-ట్యూనింగ్ మరియు డైరెక్ట్ ప్రిఫరెన్స్ ఆప్టిమైజేషన్ వేరియంట్లను సూచిస్తాయి, ఇక Tucano-2b4-Instruct అతిపెద్ద బేస్ మోడల్కు చెందిన ఇన్స్ట్రక్షన్-ఫాలోయింగ్ వెర్షన్. ఈ ఫైన్-ట్యూన్ చేసిన వెర్షన్లు బేస్ మోడళ్ల వినియోగాన్ని సంభాషణాత్మక మరియు టాస్క్-కేంద్రీకృత అనువర్తనాల దిశగా విస్తరిస్తాయి.
ViTucano-1b5-v1 మరియు ViTucano-2b8-v1 అనే సంబంధిత మల్టీమోడల్ మోడళ్లు కూడా ViTucano పేరుతో విడుదలయ్యాయి; ఇది పోర్చుగీస్ పాఠ్య అవగాహనతో పాటు విజువల్ మోడాలిటీలను సమన్వయించే తదుపరి పనిని సూచిస్తుంది.
ఉపయోగ సందర్భాలు మరియు ఉద్దేశించిన ప్రేక్షకులు
Tucano ప్రధానంగా పోర్చుగీస్లో నేచురల్ లాంగ్వేజ్ ప్రాసెసింగ్ టాస్క్లపై పనిచేస్తున్న పరిశోధకులు మరియు డెవలపర్లను లక్ష్యంగా పెట్టుకుంది. సాధ్యమైన ఉపయోగ సందర్భాల్లో టెక్స్ట్ జనరేషన్, భాషా మోడలింగ్ బెంచ్మార్క్లు, డొమైన్-స్పెసిఫిక్ పోర్చుగీస్ అనువర్తనాల కోసం ఫైన్-ట్యూనింగ్, అలాగే తక్కువ వనరుల భాషా పరిసరాల్లో మోడల్ ప్రవర్తనను అధ్యయనం చేయడానికి పరిశోధన బేస్లైన్గా ఉపయోగించడం ఉన్నాయి. అనేక మోడల్ పరిమాణాల లభ్యత పరిమిత హార్డ్వేర్పై అకడమిక్ ప్రయోగాల నుంచి మరింత వనరులు అవసరమైన అనువర్తిత పరిశోధన వరకు విభిన్న డిప్లాయ్మెంట్ సందర్భాలను మద్దతు ఇస్తుంది.
మోడళ్లు ఓపెన్ వెయిట్లతో పాటు అనుమతించే Apache 2.0 లైసెన్స్ కింద విడుదల కావడంతో, వాటిని స్వేచ్ఛగా ఉపయోగించవచ్చు, మార్చవచ్చు, మరియు తిరిగి పంపిణీ చేయవచ్చు. అందువల్ల ప్రైవేటరీ మోడల్ APIలకు యాక్సెస్ లేని వారితో సహా విస్తృత సముదాయానికి ఇవి అందుబాటులో ఉంటాయి.
ప్రస్తుత స్థితి
Tucano మోడల్ సిరీస్ ప్రస్తుతం ఆర్కైవ్ చేయబడింది; అంటే క్రియాశీల అభివృద్ధి ముగిసింది. వెయిట్లు, కోడ్, మరియు సంబంధిత డాక్యుమెంటేషన్ పరిశోధనా సముదాయం సూచన మరియు కొనసాగుతున్న వినియోగం కోసం ప్రాజెక్ట్ GitHub రిపోజిటరీ ద్వారా ప్రజలకు అందుబాటులోనే ఉన్నాయి. 2025లో Patternsలో కనుగొన్న విషయాల ప్రచురణ ఈ ప్రాజెక్ట్కు సంబంధించిన విధానం, శిక్షణ డేటా, మరియు మూల్యాంకన ఫలితాలపై పీర్-రివ్యూడ్ రికార్డును అందిస్తుంది; ఇది పునరుత్పాదకతను మరియు మరింత అధ్యయనాన్ని మద్దతు ఇస్తుంది.