Tucano

પૃષ્ઠભૂમિ અને વિકાસ

Tucanoને બ્રાઝિલમાં ખાસ કરીને પોર્ટુગીઝ લખાણ પર તાલીમ આપવામાં આવેલા મોટા પાયાના ભાષા મોડેલોની અછતને પહોંચી વળવા માટે સમર્પિત પ્રયાસ તરીકે વિકસાવવામાં આવ્યું હતું. જ્યારે ઘણા પ્રખ્યાત ભાષા મોડેલ્સ મુખ્યત્વે અંગ્રેજી ભાષાના કોર્પસ પર તાલીમ પામે છે, ત્યારે પોર્ટુગીઝ—જે બ્રાઝિલ, પોર્ટુગલ અને અન્ય દેશોમાં 250 મિલિયનથી વધુ લોકો દ્વારા બોલાય છે—ઇતિહાસ적으로 ફાઉન્ડેશન મોડેલ સંશોધનમાં ઓછું ધ્યાન પામ્યું છે. Tucano પ્રોજેક્ટે મોટા, ઉચ્ચ ગુણવત્તાવાળા પોર્ટુગીઝ ડેટાસેટનો ઉપયોગ કરીને શરૂઆતથી જ ટ્રાન્સફોર્મર આધારિત મોડેલ્સ બનાવીને આ ખાડો પૂરો કરવાનો લક્ષ્ય રાખ્યો હતો.

મોડેલ્સનું પ્રી-ટ્રેનિંગ GigaVerbo પર કરવામાં આવ્યું હતું, જે લગભગ 200 અબજ ડિડ્યુપ્લિકેટેડ પોર્ટુગીઝ ટોકન્સનો કોર્પસ છે અને સ્કેલ પર મજબૂત ભાષા મોડેલિંગને ટેકો આપવા માટે એકત્રિત કરવામાં આવ્યો હતો. આ પ્રોજેક્ટનું દસ્તાવેજીકરણ પેપરમાં Tucano: Advancing Neural Text Generation for Portuguese માં કરવામાં આવ્યું છે, જે 2025માં જર્નલ Patterns માં પ્રકાશિત થયું હતું, અને તમામ વેઇટ્સ તથા તાલીમ કોડ Apache 2.0 લાઇસન્સ હેઠળ GitHub પર જાહેરરૂપે ઉપલબ્ધ છે.

મોડેલ વેરિઅન્ટ્સ અને ફાઇન-ટ્યુન્ડ વર્ઝન્સ

Tucano પરિવાર ચાર બેઝ મોડેલ કદોને આવરી લે છે, જે સંશોધકો અને ડેવલપર્સને તેમની ગણનાત્મક મર્યાદાઓ અને કાર્યની આવશ્યકતાઓ અનુસાર યોગ્ય મોડેલ પસંદ કરવાની સુવિધા આપે છે:

Tucano-160m – 160 મિલિયન પરિમાણો
Tucano-630m – 630 મિલિયન પરિમાણો
Tucano-1b1 – અંદાજે 1.1 અબજ પરિમાણો
Tucano-2b4 – અંદાજે 2.4 અબજ પરિમાણો

બેઝ પ્રી-ટ્રેન થયેલા મોડેલ્સ ઉપરાંત, પ્રોજેક્ટે અનેક ફાઇન-ટ્યુન્ડ ડેરિવેટિવ્સ પણ તૈયાર કર્યા. Tucano-SFT અને Tucano-DPO અનુક્રમે સુપરવાઇઝ્ડ ફાઇન-ટ્યુનિંગ અને ડાયરેક્ટ પ્રેફરન્સ ઓપ્ટિમાઇઝેશન વેરિઅન્ટ્સ દર્શાવે છે, જ્યારે Tucano-2b4-Instruct સૌથી મોટા બેઝ મોડેલનું ઇન્સ્ટ્રક્શન-ફોલોઇંગ વર્ઝન છે. આ ફાઇન-ટ્યુન્ડ વર્ઝન્સ બેઝ મોડેલ્સની ઉપયોગિતા વધારીને સંવાદાત્મક અને કાર્ય-કેન્દ્રિત એપ્લિકેશન્સ તરફ વિસ્તારે છે.

સંબંધિત મલ્ટીમોડલ મોડેલ્સ, ViTucano-1b5-v1 અને ViTucano-2b8-v1, પણ ViTucano નામ હેઠળ રિલીઝ કરવામાં આવ્યા હતા, જે પોર્ટુગીઝ લખાણની સમજ સાથે દૃશ્ય મોડેલિટીઝને સામેલ કરતું ડાઉનસ્ટ્રીમ કાર્ય સૂચવે છે.

ઉપયોગના કેસો અને નિર્ધારિત પ્રેક્ષકવર્ગ

Tucano મુખ્યત્વે પોર્ટુગીઝમાં કુદરતી ભાષા પ્રક્રિયા (NLP) કાર્યો પર કામ કરતા સંશોધકો અને ડેવલપર્સ માટે નિર્ધારિત છે. સંભવિત ઉપયોગના કેસોમાં લખાણ જનરેશન, ભાષા મોડેલિંગ બેન્ચમાર્ક્સ, ડોમેન-વિશિષ્ટ પોર્ટુગીઝ એપ્લિકેશન્સ માટે ફાઇન-ટ્યુનિંગ, અને ઓછી સંસાધનવાળી ભાષા પરિસ્થિતિઓમાં મોડેલ વર્તનનો અભ્યાસ કરવા માટે સંશોધન આધારરેખા (research baseline) તરીકે ઉપયોગ શામેલ છે. અનેક મોડેલ કદોની ઉપલબ્ધતા મર્યાદિત હાર્ડવેર પર શૈક્ષણિક પ્રયોગોથી લઈને વધુ સંસાધન-ગહન લાગુ સંશોધન સુધી વિવિધ ડિપ્લોયમેન્ટ પરિસ્થિતિઓને સમર્થન આપે છે.

કારણ કે મોડેલ્સ ખુલ્લા વેઇટ્સ સાથે પરવાનગી આપતી Apache 2.0 લાઇસન્સ હેઠળ રિલીઝ કરવામાં આવ્યા છે, તેઓને મુક્તપણે ઉપયોગ, ફેરફાર અને ફરી વિતરણ કરી શકાય છે, જેથી તેઓ એવા વ્યાપક સમુદાય માટે ઉપલબ્ધ બને છે જેમને પ્રોપરાયટરી મોડેલ API સુધી પહોંચ નથી.

વર્તમાન સ્થિતિ

Tucano મોડેલ શ્રેણી હાલમાં આર્કાઇવ કરવામાં આવી છે, એટલે કે સક્રિય વિકાસ પૂર્ણ થઈ ગયો છે. વેઇટ્સ, કોડ અને સંબંધિત દસ્તાવેજીકરણ પ્રોજેક્ટના GitHub રિપોઝિટરી મારફતે સંશોધન સમુદાય માટે સંદર્ભ અને સતત ઉપયોગ માટે જાહેરરૂપે ઉપલબ્ધ રહે છે. 2025માં Patterns માં શોધના પરિણામોનું પ્રકાશન પદ્ધતિશાસ્ત્ર, તાલીમ ડેટા અને પ્રોજેક્ટ સાથે સંકળાયેલા મૂલ્યાંકન પરિણામોની પીઅર-રિવ્યુડ નોંધ પૂરી પાડે છે, જે પુનરુત્પાદકતા અને વધુ અભ્યાસને સમર્થન આપે છે.

ઇનપુટ

આઉટપુટ

શ્રેણીઓ

થીમ્સ

પૃષ્ઠભૂમિ અને વિકાસ

મોડેલ વેરિઅન્ટ્સ અને ફાઇન-ટ્યુન્ડ વર્ઝન્સ

ઉપયોગના કેસો અને નિર્ધારિત પ્રેક્ષકવર્ગ

વર્તમાન સ્થિતિ