ટ્રાન્સફોર્મર Apache 2.0 Yes
Português

ઇનપુટ

text

આઉટપુટ

text

શ્રેણીઓ

થીમ્સ

generative ainlpresearch

Tucano એ બ્રાઝિલમાં વિકસાવવામાં આવેલા અને માત્ર પોર્ટુગીઝ ભાષાના લખાણ પર તાલીમ અપાયેલા ઓપન-વેઇટ્સ ટ્રાન્સફોર્મર ભાષા મોડેલ્સનું એક કુટુંબ છે. આ મોડેલ્સને લગભગ 200 અબજ ડિડ્યુપ્લિકેટેડ પોર્ટુગીઝ ટોકન્સના ડેટાસેટ GigaVerbo પર પૂર્વ-પ્રશિક્ષિત કરવામાં આવ્યા હતા, અને તે 160 મિલિયનથી 2.4 અબજ પરિમાણો સુધીના ચાર કદમાં ઉપલબ્ધ છે.

ફાઇન-ટ્યુન કરાયેલા રૂપાંતરોમાં સૂચના-પાલન કરનારા અને પસંદગી-ઓપ્ટિમાઇઝ્ડ સંસ્કરણોનો સમાવેશ થાય છે, અને સંબંધિત મલ્ટીમોડલ વ્યુત્પન્નો ViTucano નામ હેઠળ રજૂ કરવામાં આવ્યા હતા. Tucano નો હેતુ સંશોધકો અને વિકાસકર્તાઓ માટે છે, જેઓ પોર્ટુગીઝમાં કુદરતી ભાષા પ્રોસેસિંગ કાર્યો પર કામ કરે છે—આ ભાષા ઐતિહાસિક રીતે મોટા પાયાના ભાષા મોડેલ વિકાસમાં ઓછી પ્રતિનિધિત્વ ધરાવતી રહી છે.

આ પ્રોજેક્ટનું દસ્તાવેજીકરણ Patterns જર્નલમાં પ્રકાશિત 2025ના પેપરમાં કરવામાં આવ્યું છે અને તે Apache 2.0 લાયસન્સ હેઠળ પ્રકાશિત છે; વેઇટ્સ અને કોડ GitHub પર જાહેર રીતે ઉપલબ્ધ છે. મોડેલ શ્રેણી હાલમાં આર્કાઇવ કરવામાં આવી છે.

પૃષ્ઠભૂમિ અને વિકાસ

Tucanoને બ્રાઝિલમાં ખાસ કરીને પોર્ટુગીઝ લખાણ પર તાલીમ આપવામાં આવેલા મોટા પાયાના ભાષા મોડેલોની અછતને પહોંચી વળવા માટે સમર્પિત પ્રયાસ તરીકે વિકસાવવામાં આવ્યું હતું. જ્યારે ઘણા પ્રખ્યાત ભાષા મોડેલ્સ મુખ્યત્વે અંગ્રેજી ભાષાના કોર્પસ પર તાલીમ પામે છે, ત્યારે પોર્ટુગીઝ—જે બ્રાઝિલ, પોર્ટુગલ અને અન્ય દેશોમાં 250 મિલિયનથી વધુ લોકો દ્વારા બોલાય છે—ઇતિહાસ적으로 ફાઉન્ડેશન મોડેલ સંશોધનમાં ઓછું ધ્યાન પામ્યું છે. Tucano પ્રોજેક્ટે મોટા, ઉચ્ચ ગુણવત્તાવાળા પોર્ટુગીઝ ડેટાસેટનો ઉપયોગ કરીને શરૂઆતથી જ ટ્રાન્સફોર્મર આધારિત મોડેલ્સ બનાવીને આ ખાડો પૂરો કરવાનો લક્ષ્ય રાખ્યો હતો.

મોડેલ્સનું પ્રી-ટ્રેનિંગ GigaVerbo પર કરવામાં આવ્યું હતું, જે લગભગ 200 અબજ ડિડ્યુપ્લિકેટેડ પોર્ટુગીઝ ટોકન્સનો કોર્પસ છે અને સ્કેલ પર મજબૂત ભાષા મોડેલિંગને ટેકો આપવા માટે એકત્રિત કરવામાં આવ્યો હતો. આ પ્રોજેક્ટનું દસ્તાવેજીકરણ પેપરમાં Tucano: Advancing Neural Text Generation for Portuguese માં કરવામાં આવ્યું છે, જે 2025માં જર્નલ Patterns માં પ્રકાશિત થયું હતું, અને તમામ વેઇટ્સ તથા તાલીમ કોડ Apache 2.0 લાઇસન્સ હેઠળ GitHub પર જાહેરરૂપે ઉપલબ્ધ છે.

મોડેલ વેરિઅન્ટ્સ અને ફાઇન-ટ્યુન્ડ વર્ઝન્સ

Tucano પરિવાર ચાર બેઝ મોડેલ કદોને આવરી લે છે, જે સંશોધકો અને ડેવલપર્સને તેમની ગણનાત્મક મર્યાદાઓ અને કાર્યની આવશ્યકતાઓ અનુસાર યોગ્ય મોડેલ પસંદ કરવાની સુવિધા આપે છે:

  • Tucano-160m – 160 મિલિયન પરિમાણો
  • Tucano-630m – 630 મિલિયન પરિમાણો
  • Tucano-1b1 – અંદાજે 1.1 અબજ પરિમાણો
  • Tucano-2b4 – અંદાજે 2.4 અબજ પરિમાણો

બેઝ પ્રી-ટ્રેન થયેલા મોડેલ્સ ઉપરાંત, પ્રોજેક્ટે અનેક ફાઇન-ટ્યુન્ડ ડેરિવેટિવ્સ પણ તૈયાર કર્યા. Tucano-SFT અને Tucano-DPO અનુક્રમે સુપરવાઇઝ્ડ ફાઇન-ટ્યુનિંગ અને ડાયરેક્ટ પ્રેફરન્સ ઓપ્ટિમાઇઝેશન વેરિઅન્ટ્સ દર્શાવે છે, જ્યારે Tucano-2b4-Instruct સૌથી મોટા બેઝ મોડેલનું ઇન્સ્ટ્રક્શન-ફોલોઇંગ વર્ઝન છે. આ ફાઇન-ટ્યુન્ડ વર્ઝન્સ બેઝ મોડેલ્સની ઉપયોગિતા વધારીને સંવાદાત્મક અને કાર્ય-કેન્દ્રિત એપ્લિકેશન્સ તરફ વિસ્તારે છે.

સંબંધિત મલ્ટીમોડલ મોડેલ્સ, ViTucano-1b5-v1 અને ViTucano-2b8-v1, પણ ViTucano નામ હેઠળ રિલીઝ કરવામાં આવ્યા હતા, જે પોર્ટુગીઝ લખાણની સમજ સાથે દૃશ્ય મોડેલિટીઝને સામેલ કરતું ડાઉનસ્ટ્રીમ કાર્ય સૂચવે છે.

ઉપયોગના કેસો અને નિર્ધારિત પ્રેક્ષકવર્ગ

Tucano મુખ્યત્વે પોર્ટુગીઝમાં કુદરતી ભાષા પ્રક્રિયા (NLP) કાર્યો પર કામ કરતા સંશોધકો અને ડેવલપર્સ માટે નિર્ધારિત છે. સંભવિત ઉપયોગના કેસોમાં લખાણ જનરેશન, ભાષા મોડેલિંગ બેન્ચમાર્ક્સ, ડોમેન-વિશિષ્ટ પોર્ટુગીઝ એપ્લિકેશન્સ માટે ફાઇન-ટ્યુનિંગ, અને ઓછી સંસાધનવાળી ભાષા પરિસ્થિતિઓમાં મોડેલ વર્તનનો અભ્યાસ કરવા માટે સંશોધન આધારરેખા (research baseline) તરીકે ઉપયોગ શામેલ છે. અનેક મોડેલ કદોની ઉપલબ્ધતા મર્યાદિત હાર્ડવેર પર શૈક્ષણિક પ્રયોગોથી લઈને વધુ સંસાધન-ગહન લાગુ સંશોધન સુધી વિવિધ ડિપ્લોયમેન્ટ પરિસ્થિતિઓને સમર્થન આપે છે.

કારણ કે મોડેલ્સ ખુલ્લા વેઇટ્સ સાથે પરવાનગી આપતી Apache 2.0 લાઇસન્સ હેઠળ રિલીઝ કરવામાં આવ્યા છે, તેઓને મુક્તપણે ઉપયોગ, ફેરફાર અને ફરી વિતરણ કરી શકાય છે, જેથી તેઓ એવા વ્યાપક સમુદાય માટે ઉપલબ્ધ બને છે જેમને પ્રોપરાયટરી મોડેલ API સુધી પહોંચ નથી.

વર્તમાન સ્થિતિ

Tucano મોડેલ શ્રેણી હાલમાં આર્કાઇવ કરવામાં આવી છે, એટલે કે સક્રિય વિકાસ પૂર્ણ થઈ ગયો છે. વેઇટ્સ, કોડ અને સંબંધિત દસ્તાવેજીકરણ પ્રોજેક્ટના GitHub રિપોઝિટરી મારફતે સંશોધન સમુદાય માટે સંદર્ભ અને સતત ઉપયોગ માટે જાહેરરૂપે ઉપલબ્ધ રહે છે. 2025માં Patterns માં શોધના પરિણામોનું પ્રકાશન પદ્ધતિશાસ્ત્ર, તાલીમ ડેટા અને પ્રોજેક્ટ સાથે સંકળાયેલા મૂલ્યાંકન પરિણામોની પીઅર-રિવ્યુડ નોંધ પૂરી પાડે છે, જે પુનરુત્પાદકતા અને વધુ અભ્યાસને સમર્થન આપે છે.

અહેવાલ