Tucano

רקע ופיתוח

Tucano פותח בברזיל כמאמץ ייעודי להתמודד עם המחסור במודלי שפה בקנה מידה גדול שהוכשרו במיוחד על טקסט בפורטוגזית. בעוד שמודלי שפה בולטים רבים הוכשרו בעיקר על קורפוסים בשפה האנגלית, פורטוגזית—המדוברת על ידי יותר מ-250 מיליון אנשים ברחבי ברזיל, פורטוגל ומדינות נוספות—זכתה באופן היסטורי לפחות תשומת לב במחקר מודלי יסוד. פרויקט Tucano נועד לצמצם פער זה באמצעות בניית מודלים מבוססי-Transformer מאפס, תוך שימוש בדאטה גדול ואיכותי בפורטוגזית.

המודלים הוקדמו מראש על GigaVerbo, קורפוס של כ-200 מיליארד טוקנים בפורטוגזית שעברו דה-דופליקציה, שנאספו כדי לתמוך בלמידת שפה יציבה בקנה מידה. הפרויקט מתועד במאמר Tucano: Advancing Neural Text Generation for Portuguese, שפורסם בכתב העת Patterns בשנת 2025, וכל המשקולות וקוד האימון זמינים לציבור ב-GitHub תחת רישיון Apache 2.0.

וריאנטים של המודל וגרסאות שעברו כוונון

משפחת Tucano כוללת ארבעה גדלי מודל בסיס, המאפשרים לחוקרים ולמפתחים לבחור מודל שמתאים למגבלות החישוב ולדרישות המשימה שלהם:

Tucano-160m – 160 מיליון פרמטרים
Tucano-630m – 630 מיליון פרמטרים
Tucano-1b1 – כ-1.1 מיליארד פרמטרים
Tucano-2b4 – כ-2.4 מיליארד פרמטרים

בנוסף למודלי הבסיס שהוקדמו מראש, הפרויקט ייצר כמה נגזרות שעברו כוונון. Tucano-SFT ו-Tucano-DPO מייצגים גרסאות של כוונון מפוקח ואופטימיזציה ישירה של העדפות, בהתאמה, בעוד ש-Tucano-2b4-Instruct היא גרסה שמבוססת על הוראות של מודל הבסיס הגדול ביותר. גרסאות מכווננות אלה מרחיבות את התועלת של מודלי הבסיס לכיוון יישומים שיחתיים וממוקדי משימה.

מודלים מולטי-מודאליים קשורים, ViTucano-1b5-v1 ו-ViTucano-2b8-v1, שוחררו גם הם תחת השם ViTucano, דבר המצביע על עבודה המשך שמשלבת יכולות חזותיות לצד הבנת טקסט בפורטוגזית.

שימושים וקהל יעד מיועד

Tucano מכוון בעיקר לחוקרים ולמפתחים שעובדים על משימות לעיבוד שפה טבעית בפורטוגזית. מקרי שימוש אפשריים כוללים יצירת טקסט, מדדי ייחוס ללמידת שפה, כוונון עבור יישומי פורטוגזית ייעודיים לתחום, וכן כבסיס מחקרי לחקר התנהגות מודלים בסביבות שפה דלות משאבים. זמינותם של כמה גדלי מודל תומכת במגוון תרחיפי פריסה, החל מניסויים אקדמיים על חומרה מוגבלת ועד למחקר יישומי אינטנסיבי יותר.

מאחר שהמודלים משוחררים תחת רישיון Apache 2.0 ליברלי עם משקולות פתוחות, ניתן להשתמש בהם בחופשיות, לשנות אותם ולהפיץ אותם מחדש, מה שהופך אותם לנגישים לקהילה רחבה, כולל כאלה שאין להם גישה ל-API-ים של מודלים קנייניים.

סטטוס נוכחי

סדרת מודלי Tucano נמצאת כיום בארכיון, כלומר פיתוח פעיל הסתיים. המשקולות, הקוד והתיעוד הנלווה נשארים זמינים לציבור דרך מאגר GitHub של הפרויקט לצורך עיון ושימוש מתמשך על ידי קהילת המחקר. פרסום הממצאים ב-Patterns בשנת 2025 מספק תיעוד שעבר ביקורת עמיתים של המתודולוגיה, נתוני האימון ותוצאות ההערכה הקשורות לפרויקט, ובכך תומך בשחזור ובמחקר נוסף.

קלט

פלט

קטגוריות

ערכות נושא

רקע ופיתוח

וריאנטים של המודל וגרסאות שעברו כוונון

שימושים וקהל יעד מיועד

סטטוס נוכחי