טרנספורמר Apache 2.0 Yes
Português

קלט

text

פלט

text

קטגוריות

ערכות נושא

generative ainlpresearch

Tucano היא משפחה של מודלי שפה מסוג Transformer בעלי משקלים פתוחים, שפותחו בברזיל ואומנו באופן בלעדי על טקסט בשפה הפורטוגזית. המודלים אומנו מראש על GigaVerbo, מערך נתונים של כ־200 מיליארד טוקנים פורטוגזיים שעברו דה־שכפול, והם זמינים בארבעה גדלים, החל מ־160 מיליון ועד 2.4 מיליארד פרמטרים.

גרסאות שעברו כוונון עדין כוללות גרסאות שמבצעות הנחיות וגרסאות שעברו אופטימיזציה להעדפות, ונגזרות מולטי־מודאליות קשורות שוחררו תחת השם ViTucano. Tucano מיועד לחוקרים ולמפתחים שעוסקים במשימות של עיבוד שפה טבעית בפורטוגזית, שפה שהייתה מיוצגת באופן היסטורי בחסר בפיתוח מודלי שפה בקנה מידה גדול.

הפרויקט מתועד במאמר מ־2025 שפורסם בכתב העת Patterns, והוא משוחרר תחת רישיון Apache 2.0, כאשר משקלים וקוד זמינים לציבור ב־GitHub. סדרת המודלים נמצאת כיום בארכיון.

רקע ופיתוח

Tucano פותח בברזיל כמאמץ ייעודי להתמודד עם המחסור במודלי שפה בקנה מידה גדול שהוכשרו במיוחד על טקסט בפורטוגזית. בעוד שמודלי שפה בולטים רבים הוכשרו בעיקר על קורפוסים בשפה האנגלית, פורטוגזית—המדוברת על ידי יותר מ-250 מיליון אנשים ברחבי ברזיל, פורטוגל ומדינות נוספות—זכתה באופן היסטורי לפחות תשומת לב במחקר מודלי יסוד. פרויקט Tucano נועד לצמצם פער זה באמצעות בניית מודלים מבוססי-Transformer מאפס, תוך שימוש בדאטה גדול ואיכותי בפורטוגזית.

המודלים הוקדמו מראש על GigaVerbo, קורפוס של כ-200 מיליארד טוקנים בפורטוגזית שעברו דה-דופליקציה, שנאספו כדי לתמוך בלמידת שפה יציבה בקנה מידה. הפרויקט מתועד במאמר Tucano: Advancing Neural Text Generation for Portuguese, שפורסם בכתב העת Patterns בשנת 2025, וכל המשקולות וקוד האימון זמינים לציבור ב-GitHub תחת רישיון Apache 2.0.

וריאנטים של המודל וגרסאות שעברו כוונון

משפחת Tucano כוללת ארבעה גדלי מודל בסיס, המאפשרים לחוקרים ולמפתחים לבחור מודל שמתאים למגבלות החישוב ולדרישות המשימה שלהם:

  • Tucano-160m – 160 מיליון פרמטרים
  • Tucano-630m – 630 מיליון פרמטרים
  • Tucano-1b1 – כ-1.1 מיליארד פרמטרים
  • Tucano-2b4 – כ-2.4 מיליארד פרמטרים

בנוסף למודלי הבסיס שהוקדמו מראש, הפרויקט ייצר כמה נגזרות שעברו כוונון. Tucano-SFT ו-Tucano-DPO מייצגים גרסאות של כוונון מפוקח ואופטימיזציה ישירה של העדפות, בהתאמה, בעוד ש-Tucano-2b4-Instruct היא גרסה שמבוססת על הוראות של מודל הבסיס הגדול ביותר. גרסאות מכווננות אלה מרחיבות את התועלת של מודלי הבסיס לכיוון יישומים שיחתיים וממוקדי משימה.

מודלים מולטי-מודאליים קשורים, ViTucano-1b5-v1 ו-ViTucano-2b8-v1, שוחררו גם הם תחת השם ViTucano, דבר המצביע על עבודה המשך שמשלבת יכולות חזותיות לצד הבנת טקסט בפורטוגזית.

שימושים וקהל יעד מיועד

Tucano מכוון בעיקר לחוקרים ולמפתחים שעובדים על משימות לעיבוד שפה טבעית בפורטוגזית. מקרי שימוש אפשריים כוללים יצירת טקסט, מדדי ייחוס ללמידת שפה, כוונון עבור יישומי פורטוגזית ייעודיים לתחום, וכן כבסיס מחקרי לחקר התנהגות מודלים בסביבות שפה דלות משאבים. זמינותם של כמה גדלי מודל תומכת במגוון תרחיפי פריסה, החל מניסויים אקדמיים על חומרה מוגבלת ועד למחקר יישומי אינטנסיבי יותר.

מאחר שהמודלים משוחררים תחת רישיון Apache 2.0 ליברלי עם משקולות פתוחות, ניתן להשתמש בהם בחופשיות, לשנות אותם ולהפיץ אותם מחדש, מה שהופך אותם לנגישים לקהילה רחבה, כולל כאלה שאין להם גישה ל-API-ים של מודלים קנייניים.

סטטוס נוכחי

סדרת מודלי Tucano נמצאת כיום בארכיון, כלומר פיתוח פעיל הסתיים. המשקולות, הקוד והתיעוד הנלווה נשארים זמינים לציבור דרך מאגר GitHub של הפרויקט לצורך עיון ושימוש מתמשך על ידי קהילת המחקר. פרסום הממצאים ב-Patterns בשנת 2025 מספק תיעוד שעבר ביקורת עמיתים של המתודולוגיה, נתוני האימון ותוצאות ההערכה הקשורות לפרויקט, ובכך תומך בשחזור ובמחקר נוסף.

דוח