21,500 hours CC-BY 4.0 Training Бүх хэл

Загварууд

voice audionlp

VAANI нь Bangalore дахь Indian Institute of Science (IISc)-ийн боловсруулсан, Энэтхэгийн 22 мужийн 120 дүүргээс цуглуулсан ойролцоогоор 110,000 яригчийн 21,500 цаг орчим аудио агуулсан, өргөн цар хүрээтэй олон хэлний ярианы өгөгдлийн сан юм. Энэ нь Энэтхэг даяар хэрэглэгддэг 86 хэл, аялгыг хамардаг бөгөөд үүнд албан ёсоор хүлээн зөвшөөрөгдсөн томоохон хэлнүүдээс гадна бүс нутгийн болон омгийн олон хувилбар багтдаг. Мөн 835 цагийн транскрипцтэй ярианы өгөгдөлтэй.

Энэхүү өгөгдлийн сан нь автомат яриа таних, бичвэрээс яриа үүсгэх, яригч таних, хэл таних, ярианы чанар сайжруулах, олон төрлийн өгөгдөлд суурилсан хэлний загвар хөгжүүлэх зэрэг яриа, хэлний өргөн хүрээний даалгаврыг дэмжихээр бүтээгдсэн. CC BY 4.0 лицензээр нийтлэгдсэн энэ сан нь үндсэндээ AI системийг сургах болон жишиг тогтооход зориулагдсан бөгөөд ялангуяа нөөц багатай, хангалттай төлөөлөгдөөгүй Энэтхэг хэлнүүд дээр ажилладаг судлаачид, хөгжүүлэгчдэд онцгой ач холбогдолтой.

Үндэслэл ба хөгжүүлэлт

VAANI (энэ нь Энэтхэгийн хэд хэдэн хэлэнд “дуу хоолой” эсвэл “яриа” гэсэн утгатай) нь Энэтхэгийн хэлнүүдийн ярианы өгөгдлийн нөөцийн томоохон дутагдлыг арилгах зорилгын хүрээнд Bangalore дахь Indian Institute of Science (IISc)-ээс бүтээгдсэн. Энэтхэгийн хэл шинжлэлийн орчин нь дэлхийн хамгийн олон янзын нэг бөгөөд хэдэн зуун хэл, хэдэн мянган аялгыг хамардаг ч одоо байгаа ярианы өгөгдлийн сангуудын ихэнх нь нөөц сайтай цөөн хэдэн хэл дээр төвлөрдөг. VAANI нь улсын газарзүйн болон хэл шинжлэлийн хувьд олон янзын бүс нутгуудаар өргөн цар хүрээтэй талбарын өгөгдөл цуглуулах замаар хангалттай үйлчилгээ авч чаддаггүй энэ хэлний орон зайд сургалтын өгөгдлийн хүртээмжийг нэмэгдүүлэхээр хөгжүүлэгдсэн.

Өгөгдлийг студийн хяналттай бичлэгт түшиглэхийн оронд бүс нутгийн болон аялгын бодит ялгааг тусгах зорилготойгоор Энэтхэгийн 22 мужийн 120 дүүрэгт тархсан ойролцоогоор 110,000 яригчаас цуглуулсан. Энэхүү өгөгдлийн сан нь Hindi, Tamil, Telugu, Bengali, Kannada, Malayalam зэрэг томоохон албан ёсны хэлнүүдээс эхлээд Gondi, Santali, Kurukh, Wancho, Tenyidie зэрэг олон бүс нутгийн хувилбар болон омгийн хэлнүүдийг багтаасан нийт 86 хэл, аялгыг хамардаг.

Өгөгдлийн сангийн бүтэц ба гол онцлогууд

VAANI нь нийтдээ ойролцоогоор 21,500 цагийн аудиог агуулдаг бөгөөд энэ нь Энэтхэгийн хэлнүүдэд төвлөрсөн хамгийн том олон хэлт ярианы корпусуудын нэг болгож байна. Үүнээс 835 цагийг хөрвүүлэн бичиж, цуглуулгын нэг хэсэгт ground-truth текст тайлбаруудыг өгсөн. Мөн энэхүү өгөгдлийн сан нь multimodal элементүүдийг багтаасан тул уламжлалт ярианы даалгавраас давсан хэрэглээнд ашиглах боломжтой.

Өгөгдлийн сангийн гол шинжүүдэд дараах зүйлс орно:

  • 86 хэл, аялгыг хамарсан, үүнд нөөц багатай болон омгийн олон хувилбар багтсан
  • Газарзүйн болон хүн ам зүйн хувьд олон янзын орчноос ирсэн ойролцоогоор 110,000 яригчийн хувь нэмэр
  • Нийт 21,500 цагийн аудио, үүнээс 835 цаг нь хөрвүүлэн бичсэн яриа
  • Энэтхэгийн 22 мужийн 120 дүүргийг хамарсан талбарын бичлэгүүд
  • CC BY 4.0 лицензээр гаргасан бөгөөд эх сурвалжийг дурдсан нөхцөлд өргөн хүрээтэй дахин ашиглахыг зөвшөөрдөг
  • Unimodal болон multimodal судалгааны хэрэглээг хоёуланг нь дэмждэг

Дэмжигддэг даалгавар ба хэрэглээний тохиолдлууд

VAANI нь яриа болон хэл боловсруулалтын өргөн хүрээний даалгаварт зориулсан нөөц байхаар бүтээгдсэн. Судлаачид болон хөгжүүлэгчид үүнийг автомат яриа таних (ASR) систем, текстээс яриа үүсгэх (TTS), яригч таних, хэл таних загваруудыг сургах болон үнэлэхэд ашиглаж болно. Мөн энэхүү өгөгдлийн сан нь ярианы сайжруулалт болон multimodal large language models (LLMs)-ийг хөгжүүлэх ажлыг дэмждэг. Хэлний хамрах хүрээ өргөн тул Энэтхэгийн олон янзын хэлний орчинд ажиллах системүүдийг жишиг тогтоон үнэлэхэд онцгой ач холбогдолтой.

Өмнө нь ярианы өгөгдөл маш бага эсвэл огт байгаагүй олон нөөц багатай хэл, аялгыг багтаасныг харгалзан үзвэл VAANI нь хүртээмжтэй хэлний технологи бүтээхэд төвлөрдөг судлаачдад онцгой үнэ цэнтэй. Энэ нь түүхийн туршид үндсэн урсгалын AI хөгжүүлэлтэд бараг тусгагдаагүй хэлтэй олон нийтэд үйлчлэх ASR болон байгалийн хэл боловсруулалтын хэрэгслүүдийг хөгжүүлэх суурь болж өгдөг.

Энэтхэгийн хэлний технологид үзүүлэх ач холбогдол

VAANI-ийн цар хүрээ болон хэлний олон янз байдал нь ялангуяа Өмнөд Азийн хэлнүүдийн хүрээнд олон хэлт ярианы судалгааны салбарт онцлохуйц хувь нэмэр болж байна. Өргөн хэрэглэгддэг хэлнүүдийн зэрэгцээ омгийн, хөдөө орон нутгийн, бүс нутгийн нийгэмлэгүүдийн ярианы хувилбаруудыг баримтжуулснаар энэхүү өгөгдлийн сан нь тооцооллын нөөцөд ховорхон тусгагддаг Энэтхэгийн хэлний өвийн нэгэн чухал хэмжээсийг хадгалж байна. Нээлттэй лиценз нь илүү хүртээмжтэй, төлөөлөл сайтай ярианы технологи хөгжүүлэхээр ажиллаж буй академик байгууллагууд, төрийн байгууллагууд, салбарын судлаачдад ашиглах боломжийг бүрдүүлдэг.

Тайлан