دستهها
تمها
VAANI یک مجموعهداده بزرگ چندزبانهٔ گفتار است که توسط مؤسسه علوم هند (IISc) در بنگلور توسعه یافته و شامل حدود ۲۱٬۵۰۰ ساعت دادهٔ صوتی جمعآوریشده از حدود ۱۱۰٬۰۰۰ گوینده در ۱۲۰ ناحیه در ۲۲ ایالت هند است. این مجموعه ۸۶ زبان و گویش را پوشش میدهد که در سراسر هند صحبت میشوند؛ از جمله زبانهای اصلیِ برنامهریزیشده و همچنین انواع متعدد منطقهای و قبیلهای، با ۸۳۵ ساعت گفتارِ دارای رونویسی.
این مجموعهداده برای پشتیبانی از مجموعهای از وظایف گفتار و زبان طراحی شده است؛ از جمله تشخیص خودکار گفتار، تولید گفتار از متن، شناسایی گوینده، شناسایی زبان، بهبود گفتار و توسعهٔ مدلهای زبانی چندوجهی. این مجموعه تحت مجوز CC BY 4.0 منتشر شده و در درجهٔ اول برای آموزش و بنچمارککردن سامانههای هوش مصنوعی در نظر گرفته شده است؛ بهویژه برای پژوهشگران و توسعهدهندگانی که روی زبانهای هندی کممنبع و کمترنمایندگیشده کار میکنند.
پیشینه و توسعه
VAANI (که در چند زبان هندی به معنی «صدا» یا «گفتار» است) توسط مؤسسهٔ علوم هند (IISc) در بنگلور، بهعنوان بخشی از تلاشی برای رفع شکاف قابلتوجه در منابع دادهٔ گفتار برای زبانهای هندی ایجاد شد. چشمانداز زبانی هند از متنوعترینها در جهان است و شامل صدها زبان و هزاران گویش میشود، با این حال بیشترِ مجموعهدادههای گفتارِ موجود بر مجموعهای محدود از زبانهای با منابع کافی تمرکز دارند. VAANI برای گسترش در دسترس بودن دادههای آموزشی در این فضای زبانیِ کمترپوششداده، با انجام گردآوری دادهٔ میدانی در مقیاس بزرگ در مناطقِ از نظر جغرافیایی و زبانی متنوعِ کشور توسعه یافت.
دادهها از حدود 110,000 گویشور که در 120 ناحیه در 22 ایالت هند پراکنده بودند گردآوری شد؛ این کار نشاندهندهٔ تلاش آگاهانه برای ثبت تفاوتهای واقعی منطقهای و گویشی، نه تکیه بر ضبطهای کنترلشدهٔ استودیویی. این مجموعهداده 86 زبان و گویش را پوشش میدهد و از زبانهای اصلیِ برنامهریزیشده مانند هندی، تامیلی، تلوگو، بنگالی، کانادایی و مالایالام تا گونههای متعدد منطقهای و زبانهای قبیلهای مانند گوندی، سانتالی، کوروخ، وانچو و تنییدیه را در بر میگیرد؛ و در میان بسیاری دیگر.
ترکیب مجموعهداده و ویژگیهای کلیدی
VAANI در مجموع شامل حدود 21,500 ساعت صوت است و آن را به یکی از بزرگترین پیکرههای گفتارِ چندزبانهٔ متمرکز بر زبانهای هندی تبدیل میکند. از این میزان، 835 ساعت رونویسی شده است و برای بخشی از مجموعه، حاشیهنویسی متنیِ «واقعیتِ زمینی» فراهم میکند. این مجموعهداده همچنین عناصر چندوجهی را نیز در خود جای داده و آن را برای استفاده فراتر از وظایف رایجِ گفتار آماده میکند.
ویژگیهای کلیدی مجموعهداده عبارتاند از:
- پوشش 86 زبان و گویش، شامل بسیاری از گونههای کممنبع و قبیلهای
- مشارکت حدود 110,000 گویشور در پسزمینههای جغرافیایی و جمعیتشناختی متنوع
- 21,500 ساعت صوتِ کل با 835 ساعت گفتارِ رونویسیشده
- ضبطهای میدانی در 120 ناحیه در 22 ایالت هند
- انتشار تحت مجوز CC BY 4.0 که امکان استفادهٔ گسترده را با ذکر نسبت فراهم میکند
- پشتیبانی از کاربردهای پژوهشی تکوجهی و چندوجهی
وظایف پشتیبانیشده و موارد استفاده
VAANI برای آن طراحی شده است که بهعنوان منبعی برای طیف گستردهای از وظایف پردازش گفتار و زبان به کار رود. پژوهشگران و توسعهدهندگان میتوانند از آن برای آموزش و ارزیابی سامانههای تشخیص خودکار گفتار (ASR)، سنتز گفتار به متن (TTS)، شناسایی گویشور و مدلهای شناسایی زبان استفاده کنند. این مجموعهداده همچنین از کار روی بهبود/تقویت گفتار و توسعهٔ مدلهای زبانی بزرگ چندوجهی (LLMها) پشتیبانی میکند. گسترهٔ پوشش زبانهای آن، آن را بهویژه برای محکزنی سامانههایی که قرار است در محیط زبانی متنوعِ هند فعالیت کنند، مرتبط میسازد.
با توجه به گنجاندن بسیاری از زبانها و گویشهای کممنبع که برای آنها دادهٔ گفتارِ اندک یا هیچ دادهٔ قبلی وجود ندارد، VAANI برای پژوهشگرانی که بر ساخت فناوریهای زبانی فراگیر تمرکز دارند ارزش ویژهای دارد. این مجموعهداده بستری برای توسعهٔ ابزارهای ASR و پردازش زبان طبیعی فراهم میکند؛ ابزارهایی که میتوانند به جوامعی خدمت کنند که زبانهایشان بهطور تاریخی در توسعهٔ اصلیِ هوش مصنوعی حضور نداشته است.
اهمیت برای فناوری زبانِ هند
مقیاس و تنوع زبانیِ VAANI آن را به یک مشارکت قابلتوجه در حوزهٔ پژوهشِ گفتارِ چندزبانه تبدیل میکند، بهخصوص در چارچوب زبانهای جنوب آسیا. با مستندسازی گونههای گفتاری از جوامع قبیلهای، روستایی و منطقهای در کنار زبانهای رایجتر، این مجموعهداده بُعدی از میراث زبانی هند را ثبت میکند که بهندرت در منابع محاسباتی بازنمایی میشود. مجوز متنباز آن استفاده توسط مؤسسات دانشگاهی، نهادهای دولتی و پژوهشگران صنعتی را که در جهت فناوریهای گفتاری فراگیرتر و نمایندهتر فعالیت میکنند تسهیل میکند.