۲۱٬۵۰۰ hours CC-BY 4.0 Training همهٔ زبان‌ها

تم‌ها

voice audionlp

VAANI یک مجموعه‌داده بزرگ چندزبانهٔ گفتار است که توسط مؤسسه علوم هند (IISc) در بنگلور توسعه یافته و شامل حدود ۲۱٬۵۰۰ ساعت دادهٔ صوتی جمع‌آوری‌شده از حدود ۱۱۰٬۰۰۰ گوینده در ۱۲۰ ناحیه در ۲۲ ایالت هند است. این مجموعه ۸۶ زبان و گویش را پوشش می‌دهد که در سراسر هند صحبت می‌شوند؛ از جمله زبان‌های اصلیِ برنامه‌ریزی‌شده و همچنین انواع متعدد منطقه‌ای و قبیله‌ای، با ۸۳۵ ساعت گفتارِ دارای رونویسی.

این مجموعه‌داده برای پشتیبانی از مجموعه‌ای از وظایف گفتار و زبان طراحی شده است؛ از جمله تشخیص خودکار گفتار، تولید گفتار از متن، شناسایی گوینده، شناسایی زبان، بهبود گفتار و توسعهٔ مدل‌های زبانی چندوجهی. این مجموعه تحت مجوز CC BY 4.0 منتشر شده و در درجهٔ اول برای آموزش و بنچمارک‌کردن سامانه‌های هوش مصنوعی در نظر گرفته شده است؛ به‌ویژه برای پژوهشگران و توسعه‌دهندگانی که روی زبان‌های هندی کم‌منبع و کمترنمایندگی‌شده کار می‌کنند.

پیشینه و توسعه

VAANI (که در چند زبان هندی به معنی «صدا» یا «گفتار» است) توسط مؤسسهٔ علوم هند (IISc) در بنگلور، به‌عنوان بخشی از تلاشی برای رفع شکاف قابل‌توجه در منابع دادهٔ گفتار برای زبان‌های هندی ایجاد شد. چشم‌انداز زبانی هند از متنوع‌ترین‌ها در جهان است و شامل صدها زبان و هزاران گویش می‌شود، با این حال بیشترِ مجموعه‌داده‌های گفتارِ موجود بر مجموعه‌ای محدود از زبان‌های با منابع کافی تمرکز دارند. VAANI برای گسترش در دسترس بودن داده‌های آموزشی در این فضای زبانیِ کمترپوشش‌داده، با انجام گردآوری دادهٔ میدانی در مقیاس بزرگ در مناطقِ از نظر جغرافیایی و زبانی متنوعِ کشور توسعه یافت.

داده‌ها از حدود 110,000 گویشور که در 120 ناحیه در 22 ایالت هند پراکنده بودند گردآوری شد؛ این کار نشان‌دهندهٔ تلاش آگاهانه برای ثبت تفاوت‌های واقعی منطقه‌ای و گویشی، نه تکیه بر ضبط‌های کنترل‌شدهٔ استودیویی. این مجموعه‌داده 86 زبان و گویش را پوشش می‌دهد و از زبان‌های اصلیِ برنامه‌ریزی‌شده مانند هندی، تامیلی، تلوگو، بنگالی، کانادایی و مالایالام تا گونه‌های متعدد منطقه‌ای و زبان‌های قبیله‌ای مانند گوندی، سانتالی، کوروخ، وانچو و تنییدیه را در بر می‌گیرد؛ و در میان بسیاری دیگر.

ترکیب مجموعه‌داده و ویژگی‌های کلیدی

VAANI در مجموع شامل حدود 21,500 ساعت صوت است و آن را به یکی از بزرگ‌ترین پیکره‌های گفتارِ چندزبانهٔ متمرکز بر زبان‌های هندی تبدیل می‌کند. از این میزان، 835 ساعت رونویسی شده است و برای بخشی از مجموعه، حاشیه‌نویسی متنیِ «واقعیتِ زمینی» فراهم می‌کند. این مجموعه‌داده همچنین عناصر چندوجهی را نیز در خود جای داده و آن را برای استفاده فراتر از وظایف رایجِ گفتار آماده می‌کند.

ویژگی‌های کلیدی مجموعه‌داده عبارت‌اند از:

  • پوشش 86 زبان و گویش، شامل بسیاری از گونه‌های کم‌منبع و قبیله‌ای
  • مشارکت حدود 110,000 گویشور در پس‌زمینه‌های جغرافیایی و جمعیت‌شناختی متنوع
  • 21,500 ساعت صوتِ کل با 835 ساعت گفتارِ رونویسی‌شده
  • ضبط‌های میدانی در 120 ناحیه در 22 ایالت هند
  • انتشار تحت مجوز CC BY 4.0 که امکان استفادهٔ گسترده را با ذکر نسبت فراهم می‌کند
  • پشتیبانی از کاربردهای پژوهشی تک‌وجهی و چندوجهی

وظایف پشتیبانی‌شده و موارد استفاده

VAANI برای آن طراحی شده است که به‌عنوان منبعی برای طیف گسترده‌ای از وظایف پردازش گفتار و زبان به کار رود. پژوهشگران و توسعه‌دهندگان می‌توانند از آن برای آموزش و ارزیابی سامانه‌های تشخیص خودکار گفتار (ASR)، سنتز گفتار به متن (TTS)، شناسایی گویشور و مدل‌های شناسایی زبان استفاده کنند. این مجموعه‌داده همچنین از کار روی بهبود/تقویت گفتار و توسعهٔ مدل‌های زبانی بزرگ چندوجهی (LLMها) پشتیبانی می‌کند. گسترهٔ پوشش زبان‌های آن، آن را به‌ویژه برای محک‌زنی سامانه‌هایی که قرار است در محیط زبانی متنوعِ هند فعالیت کنند، مرتبط می‌سازد.

با توجه به گنجاندن بسیاری از زبان‌ها و گویش‌های کم‌منبع که برای آن‌ها دادهٔ گفتارِ اندک یا هیچ دادهٔ قبلی وجود ندارد، VAANI برای پژوهشگرانی که بر ساخت فناوری‌های زبانی فراگیر تمرکز دارند ارزش ویژه‌ای دارد. این مجموعه‌داده بستری برای توسعهٔ ابزارهای ASR و پردازش زبان طبیعی فراهم می‌کند؛ ابزارهایی که می‌توانند به جوامعی خدمت کنند که زبان‌هایشان به‌طور تاریخی در توسعهٔ اصلیِ هوش مصنوعی حضور نداشته است.

اهمیت برای فناوری زبانِ هند

مقیاس و تنوع زبانیِ VAANI آن را به یک مشارکت قابل‌توجه در حوزهٔ پژوهشِ گفتارِ چندزبانه تبدیل می‌کند، به‌خصوص در چارچوب زبان‌های جنوب آسیا. با مستندسازی گونه‌های گفتاری از جوامع قبیله‌ای، روستایی و منطقه‌ای در کنار زبان‌های رایج‌تر، این مجموعه‌داده بُعدی از میراث زبانی هند را ثبت می‌کند که به‌ندرت در منابع محاسباتی بازنمایی می‌شود. مجوز متن‌باز آن استفاده توسط مؤسسات دانشگاهی، نهادهای دولتی و پژوهشگران صنعتی را که در جهت فناوری‌های گفتاری فراگیرتر و نماینده‌تر فعالیت می‌کنند تسهیل می‌کند.

گزارش