الفئات
الموضوعات
VAANI هو مجموعة بيانات صوتية متعددة اللغات على نطاق واسع تم تطويرها بواسطة المعهد الهندي للعلوم (IISc) في بنغالور، تحتوي على حوالي 21,500 ساعة من الصوت تم جمعها من حوالي 110,000 متحدث عبر 120 منطقة في 22 ولاية هندية. تغطي 86 لغة ولهجة تتحدث في الهند، بما في ذلك اللغات المجدولة الرئيسية بالإضافة إلى العديد من الأنواع الإقليمية والقبلية، مع 835 ساعة من الكلام المنسوخ.
تم تصميم مجموعة البيانات لدعم مجموعة من المهام المتعلقة بالكلام واللغة بما في ذلك التعرف التلقائي على الكلام، وتوليد الكلام من النص، وتحديد المتحدث، وتحديد اللغة، وتعزيز الكلام، وتطوير نماذج اللغة متعددة الوسائط. تم إصدارها بموجب ترخيص CC BY 4.0، وهي مخصصة بشكل أساسي لتدريب وتقييم أنظمة الذكاء الاصطناعي، مع أهمية خاصة للباحثين والمطورين الذين يعملون على اللغات الهندية ذات الموارد المحدودة والممثلة تمثيلاً ناقصًا.
الخلفية والتطوير
VAANI (التي تعني "الصوت" أو "الكلام" في عدة لغات هندية) تم إنشاؤها بواسطة المعهد الهندي للعلوم (IISc) في بنغالور كجزء من جهد لمعالجة الفجوة الكبيرة في موارد بيانات الكلام للغات الهندية. يتمتع المشهد اللغوي في الهند بتنوع كبير بين دول العالم، حيث يشمل مئات اللغات وآلاف اللهجات، ومع ذلك تركز الغالبية العظمى من مجموعات بيانات الكلام الحالية على مجموعة ضيقة من اللغات ذات الموارد الجيدة. تم تطوير VAANI لتوسيع توفر بيانات التدريب لهذه المساحة اللغوية غير المخدومة من خلال إجراء جمع بيانات ميدانية على نطاق واسع عبر مناطق جغرافية ولغوية متنوعة في البلاد.
تم جمع البيانات من حوالي 110,000 متحدث موزعين عبر 120 منطقة في 22 ولاية هندية، مما يعكس جهدًا متعمدًا لالتقاط التنوع الإقليمي واللهجي الحقيقي بدلاً من الاعتماد على تسجيلات الاستوديو المسيطر عليها. تمتد مجموعة البيانات لتشمل 86 لغة ولهجة، تتراوح بين اللغات الرئيسية المجدولة مثل الهندية، والتاميلية، والتيلوجو، والبنغالية، والكانادا، والملايالامية إلى العديد من الأنواع الإقليمية واللغات القبلية بما في ذلك الجوندي، والسانتالي، والكورخ، والوانشو، والتينييد، من بين العديد من الآخرين.
تركيب مجموعة البيانات والميزات الرئيسية
تتكون VAANI من حوالي 21,500 ساعة من الصوت في المجموع، مما يجعلها واحدة من أكبر مجموعات بيانات الكلام متعددة اللغات التي تركز على اللغات الهندية. من بين ذلك، تم نسخ 835 ساعة، مما يوفر نصوصًا حقيقية لمجموعة فرعية من المجموعة. تتضمن مجموعة البيانات أيضًا عناصر متعددة الوسائط، مما يجعلها مناسبة للاستخدام خارج المهام التقليدية للكلام.
تشمل الخصائص الرئيسية لمجموعة البيانات:
- تغطية 86 لغة ولهجة، بما في ذلك العديد من الأنواع ذات الموارد المنخفضة والقبلية
- مساهمات من حوالي 110,000 متحدث من خلفيات جغرافية وديموغرافية متنوعة
- 21,500 ساعة إجمالية من الصوت مع 835 ساعة من الكلام المنسوخ
- تسجيلات ميدانية تمتد عبر 120 منطقة في 22 ولاية هندية
- تم إصدارها بموجب ترخيص CC BY 4.0، مما يسمح بإعادة الاستخدام الواسع مع الإشارة إلى المصدر
- دعم لكل من التطبيقات البحثية أحادية الوسائط ومتعددة الوسائط
المهام المدعومة وحالات الاستخدام
تم تصميم VAANI لتكون موردًا لمجموعة واسعة من مهام معالجة الكلام واللغة. يمكن للباحثين والمطورين استخدامها لتدريب وتقييم أنظمة التعرف التلقائي على الكلام (ASR)، وتوليد النص إلى كلام (TTS)، وتحديد المتحدثين، ونماذج تحديد اللغة. تدعم مجموعة البيانات أيضًا العمل على تحسين الكلام وتطوير نماذج اللغة الكبيرة متعددة الوسائط (LLMs). تجعل شمولية تغطية اللغات منها ذات صلة خاصة لاختبار الأنظمة التي تهدف إلى العمل عبر البيئة اللغوية المتنوعة في الهند.
نظرًا لتضمين العديد من اللغات واللهجات ذات الموارد المنخفضة التي لا توجد لها بيانات كلام سابقة أو تكاد تكون معدومة، فإن VAANI تحمل قيمة خاصة للباحثين الذين يركزون على بناء تقنيات لغوية شاملة. إنها توفر أساسًا لتطوير أدوات ASR ومعالجة اللغة الطبيعية التي يمكن أن تخدم المجتمعات التي كانت لغاتها تاريخيًا غائبة عن تطوير الذكاء الاصطناعي السائد.
الأهمية لتقنية اللغة الهندية
تجعل نطاق VAANI وتنوعها اللغوي مساهمة بارزة في مجال أبحاث الكلام متعددة اللغات، خاصة في سياق اللغات جنوب الآسيوية. من خلال توثيق الأنواع المحكية من المجتمعات القبلية والريفية والإقليمية إلى جانب اللغات الأكثر شيوعًا، تلتقط مجموعة البيانات بُعدًا من التراث اللغوي الهندي الذي نادرًا ما يتم تمثيله في الموارد الحاسوبية. يسهل ترخيصها المفتوح استخدامها من قبل المؤسسات الأكاديمية والهيئات الحكومية وباحثي الصناعة الذين يعملون نحو تقنيات كلام أكثر شمولية وتمثيلًا.