پیشینه و توسعه

VAANI (که در چند زبان هندی به معنی «صدا» یا «گفتار» است) توسط مؤسسهٔ علوم هند (IISc) در بنگلور، به‌عنوان بخشی از تلاشی برای رفع شکاف قابل‌توجه در منابع دادهٔ گفتار برای زبان‌های هندی ایجاد شد. چشم‌انداز زبانی هند از متنوع‌ترین‌ها در جهان است و شامل صدها زبان و هزاران گویش می‌شود، با این حال بیشترِ مجموعه‌داده‌های گفتارِ موجود بر مجموعه‌ای محدود از زبان‌های با منابع کافی تمرکز دارند. VAANI برای گسترش در دسترس بودن داده‌های آموزشی در این فضای زبانیِ کمترپوشش‌داده، با انجام گردآوری دادهٔ میدانی در مقیاس بزرگ در مناطقِ از نظر جغرافیایی و زبانی متنوعِ کشور توسعه یافت.

داده‌ها از حدود 110,000 گویشور که در 120 ناحیه در 22 ایالت هند پراکنده بودند گردآوری شد؛ این کار نشان‌دهندهٔ تلاش آگاهانه برای ثبت تفاوت‌های واقعی منطقه‌ای و گویشی، نه تکیه بر ضبط‌های کنترل‌شدهٔ استودیویی. این مجموعه‌داده 86 زبان و گویش را پوشش می‌دهد و از زبان‌های اصلیِ برنامه‌ریزی‌شده مانند هندی، تامیلی، تلوگو، بنگالی، کانادایی و مالایالام تا گونه‌های متعدد منطقه‌ای و زبان‌های قبیله‌ای مانند گوندی، سانتالی، کوروخ، وانچو و تنییدیه را در بر می‌گیرد؛ و در میان بسیاری دیگر.

ترکیب مجموعه‌داده و ویژگی‌های کلیدی

VAANI در مجموع شامل حدود 21,500 ساعت صوت است و آن را به یکی از بزرگ‌ترین پیکره‌های گفتارِ چندزبانهٔ متمرکز بر زبان‌های هندی تبدیل می‌کند. از این میزان، 835 ساعت رونویسی شده است و برای بخشی از مجموعه، حاشیه‌نویسی متنیِ «واقعیتِ زمینی» فراهم می‌کند. این مجموعه‌داده همچنین عناصر چندوجهی را نیز در خود جای داده و آن را برای استفاده فراتر از وظایف رایجِ گفتار آماده می‌کند.

ویژگی‌های کلیدی مجموعه‌داده عبارت‌اند از:

پوشش 86 زبان و گویش، شامل بسیاری از گونه‌های کم‌منبع و قبیله‌ای
مشارکت حدود 110,000 گویشور در پس‌زمینه‌های جغرافیایی و جمعیت‌شناختی متنوع
21,500 ساعت صوتِ کل با 835 ساعت گفتارِ رونویسی‌شده
ضبط‌های میدانی در 120 ناحیه در 22 ایالت هند
انتشار تحت مجوز CC BY 4.0 که امکان استفادهٔ گسترده را با ذکر نسبت فراهم می‌کند
پشتیبانی از کاربردهای پژوهشی تک‌وجهی و چندوجهی

وظایف پشتیبانی‌شده و موارد استفاده

VAANI برای آن طراحی شده است که به‌عنوان منبعی برای طیف گسترده‌ای از وظایف پردازش گفتار و زبان به کار رود. پژوهشگران و توسعه‌دهندگان می‌توانند از آن برای آموزش و ارزیابی سامانه‌های تشخیص خودکار گفتار (ASR)، سنتز گفتار به متن (TTS)، شناسایی گویشور و مدل‌های شناسایی زبان استفاده کنند. این مجموعه‌داده همچنین از کار روی بهبود/تقویت گفتار و توسعهٔ مدل‌های زبانی بزرگ چندوجهی (LLMها) پشتیبانی می‌کند. گسترهٔ پوشش زبان‌های آن، آن را به‌ویژه برای محک‌زنی سامانه‌هایی که قرار است در محیط زبانی متنوعِ هند فعالیت کنند، مرتبط می‌سازد.

با توجه به گنجاندن بسیاری از زبان‌ها و گویش‌های کم‌منبع که برای آن‌ها دادهٔ گفتارِ اندک یا هیچ دادهٔ قبلی وجود ندارد، VAANI برای پژوهشگرانی که بر ساخت فناوری‌های زبانی فراگیر تمرکز دارند ارزش ویژه‌ای دارد. این مجموعه‌داده بستری برای توسعهٔ ابزارهای ASR و پردازش زبان طبیعی فراهم می‌کند؛ ابزارهایی که می‌توانند به جوامعی خدمت کنند که زبان‌هایشان به‌طور تاریخی در توسعهٔ اصلیِ هوش مصنوعی حضور نداشته است.

اهمیت برای فناوری زبانِ هند

مقیاس و تنوع زبانیِ VAANI آن را به یک مشارکت قابل‌توجه در حوزهٔ پژوهشِ گفتارِ چندزبانه تبدیل می‌کند، به‌خصوص در چارچوب زبان‌های جنوب آسیا. با مستندسازی گونه‌های گفتاری از جوامع قبیله‌ای، روستایی و منطقه‌ای در کنار زبان‌های رایج‌تر، این مجموعه‌داده بُعدی از میراث زبانی هند را ثبت می‌کند که به‌ندرت در منابع محاسباتی بازنمایی می‌شود. مجوز متن‌باز آن استفاده توسط مؤسسات دانشگاهی، نهادهای دولتی و پژوهشگران صنعتی را که در جهت فناوری‌های گفتاری فراگیرتر و نماینده‌تر فعالیت می‌کنند تسهیل می‌کند.

VAANI

دسته‌ها

تم‌ها

پیشینه و توسعه

ترکیب مجموعه‌داده و ویژگی‌های کلیدی

وظایف پشتیبانی‌شده و موارد استفاده

اهمیت برای فناوری زبانِ هند