קטגוריות
ערכות נושא
VAANI הוא מערך נתונים רב-לשוני בקנה מידה גדול שפותח על ידי מכון המדע ההודי (IISc), בנגלור, המכיל כ-21,500 שעות של אודיו שנאסף מכ-110,000 דוברים ב-120 מחוזות ב-22 מדינות הודו. הוא מכסה 86 שפות ודיאלקטים המדוברים ברחבי הודו, כולל שפות מתוכננות עיקריות כמו גם מגוון רחב של שפות אזוריות ושבטיות, עם 835 שעות של דיבור מתועתק.
מערך הנתונים מיועד לתמוך במגוון משימות דיבור ושפה כולל זיהוי דיבור אוטומטי, סינתזת טקסט לדיבור, זיהוי דוברים, זיהוי שפה, שיפור דיבור ופיתוח מודלים לשוניים מולטי-מודאליים. שוחרר תחת רישיון CC BY 4.0, הוא מיועד בעיקר לאימון ובחינת מערכות בינה מלאכותית, עם רלוונטיות מיוחדת לחוקרים ולמפתחים העובדים על שפות הודיות בעלות משאבים נמוכים ולא מיוצגות.
רקע ופיתוח
VAANI (שמשמעותו "קול" או "דיבור" בכמה שפות הודיות) נוצר על ידי המכון ההודי למדע (IISc) בבנגלור כחלק ממאמץ להתמודד עם הפער המשמעותי במשאבי נתוני דיבור לשפות הודיות. הנוף הלשוני של הודו הוא בין המגוונים ביותר בעולם, כולל מאות שפות ואלפי ניבים, אך רוב מערכי הנתונים הקיימים מתמקדים בקבוצה מצומצמת של שפות עם משאבים טובים. VAANI פותח כדי להרחיב את זמינות נתוני האימון עבור מרחב לשוני זה שלא קיבל מענה על ידי ביצוע איסוף נתונים בשטח בקנה מידה גדול באזורים גיאוגרפיים ולשוניים מגוונים ברחבי המדינה.
נתונים נאספו מכ-110,000 דוברים המפוזרים ב-120 מחוזות ב-22 מדינות הודיות, מה שמשקף מאמץ מכוון ללכוד שונות אזורית וניבית אמיתית ולא להסתמך על הקלטות אולפן מבוקרות. מערך הנתונים כולל 86 שפות וניבים, ranging from major scheduled languages such as Hindi, Tamil, Telugu, Bengali, Kannada, and Malayalam to numerous regional varieties and tribal languages including Gondi, Santali, Kurukh, Wancho, and Tenyidie, among many others.
הרכב מערך הנתונים ותכונות מרכזיות
VAANI כולל כ-21,500 שעות של אודיו בסך הכל, מה שהופך אותו לאחד ממערכי הדיבור הרב-לשוניים הגדולים ביותר המתמקדים בשפות הודיות. מתוך זה, 835 שעות הוקלטו, מה שמספק אנוטציות טקסט אמיתיות עבור תת-קבוצה של האוסף. מערך הנתונים כולל גם אלמנטים מולטימודאליים, מה שממקם אותו לשימוש מעבר למשימות דיבור קונבנציונליות.
מאפיינים מרכזיים של מערך הנתונים כוללים:
- כיסוי של 86 שפות וניבים, כולל רבות מהווריאציות בעלות המשאבים הנמוכים והטבעיות
- תרומות מכ-110,000 דוברים מרקעים גיאוגרפיים ודמוגרפיים מגוונים
- 21,500 שעות אודיו בסך הכל עם 835 שעות של דיבור מוקלט
- הקלטות שטח המשתרעות על פני 120 מחוזות ב-22 מדינות הודיות
- שוחרר תחת רישיון CC BY 4.0, המאפשר שימוש רחב עם קרדיט
- תמיכה הן ביישומים חד-מודאליים והן במולטימודאליים
משימות נתמכות ומקרי שימוש
VAANI מיועד לשמש כמשאב למגוון רחב של משימות עיבוד דיבור ושפה. חוקרים ומפתחים יכולים להשתמש בו לאימון והערכה של מערכות זיהוי דיבור אוטומטיות (ASR), סינתזת טקסט לדיבור (TTS), זיהוי דוברים ודגמים לזיהוי שפה. מערך הנתונים תומך גם בעבודה על שיפור דיבור ופיתוח מודלים גדולים מולטימודאליים (LLMs). רוחב הכיסוי הלשוני שלו עושה אותו רלוונטי במיוחד לבדיקת מערכות המיועדות לפעול בסביבה הלשונית המגוונת של הודו.
בהתחשב בהכללת רבות מהשפות והניבים בעלי המשאבים הנמוכים שלגביהם קיים מעט או אין נתוני דיבור קודמים, VAANI מחזיק בערך מיוחד עבור חוקרים המתמקדים בבניית טכנולוגיות שפה כוללות. הוא מספק בסיס לפיתוח כלים של ASR ועיבוד שפה טבעית שיכולים לשרת קהילות ששפותיהן לא היו נוכחות היסטורית בפיתוח AI המרכזי.
חשיבות לטכנולוגיית שפה הודית
היקף המגוון הלשוני של VAANI עושה אותו לתרומה בולטת בתחום מחקר הדיבור הרב-לשוני, במיוחד בהקשר של שפות דרום אסייתיות. על ידי תיעוד וריאציות מדוברות מקהילות שבטיות, כפריות ואזוריות לצד שפות מדוברות יותר, מערך הנתונים תופס מימד של המורשת הלשונית של הודו שלעיתים נדירות מיוצגת במשאבים חישוביים. הרישוי הפתוח שלו מקל על השימוש על ידי מוסדות אקדמיים, גופים ממשלתיים וחוקרי תעשייה העובדים לקראת טכנולוגיות דיבור יותר כוללות ומייצגות.