ብዝተፈጠረ ብሓደ ሰብ Indian Institute of Science

21,500 hours CC-BY 4.0 Training ኩሉ ቋንቋታት

ቴማታት

voice audionlp

VAANI ብ Indian Institute of Science (IISc), Bangalore ዝተማዕበለ ዓቢ መጠን ዘለዎ ብዙሕ ቋንቋታት ዝሓቖፈ ናይ ድምፂ ዳታሴት እዩ፣ ኣብ 22 ሃገራት ህንዲ ዝርከቡ 120 ወረዳታት ካብ ኣስታት 110,000 ተዛረብቲ ዝተኣከበ ኣስታት 21,500 ሰዓታት ኦድዮ ይሓዝ። እዚ ዳታሴት ኣብ ምሉእ ህንዲ ዝዝረቡ 86 ቋንቋታትን ላህጃታትን ይሽፍን፣ እዚ ድማ ዓበይቲ ብሕጊ ዝተፈልጡ ቋንቋታት ከምኡውን ብዙሓት ዞባዊን ዓሌታዊን ዓይነታት የጠቓልል፣ ካብዚ 835 ሰዓታት ዝተጽሓፈ ንግግር እውን ኣሎ።

እቲ ዳታሴት ንዝተፈላለዩ ናይ ድምፂን ቋንቋን ዕማማት ንምድጋፍ ዝተነድፈ እዩ፣ እዚ ድማ automatic speech recognition፣ text-to-speech synthesis፣ speaker identification፣ language identification፣ speech enhancement፣ ከምኡውን multimodal language model development የጠቓልል። ብ CC BY 4.0 license ዝተለቐቐ እዚ ዳታሴት፣ ብቐዳምነት ንምልማድን ንምዕቃንን ናይ AI ስርዓታት ዝተወሰነ እዩ፣ ብፍላይ ድማ ኣብ ሓጺር ምንጪ ዘለወንን ውክልና ዝጐደለን ህንዳውያን ቋንቋታት ዝሰርሑ ተመራመርትን ኣማዕበልትን ኣገዳሲ እዩ።

ድሕረ ባይታን ምዕባለን

VAANI (ኣብ ብዙሓት ህንዳውያን ቋንቋታት “ድምፂ” ወይ “ንግግር” ማለት እዩ) ኣብ Bangalore ዝርከብ Indian Institute of Science (IISc) ብኣካል ናይ ጻዕሪ ንምፍታሕ እቲ ዓቢ ክፍተት ኣብ ምንጭታት ዳታ ንግግር ናይ ህንዳውያን ቋንቋታት ተፈጢሩ። ናይ ህንዲ ቋንቋዊ መልክዕ ካብቶም ኣብ ዓለም ዝበዝሑ ዝተፈላለዩ እዩ፣ ሚእታት ቋንቋታትን ኣሽሓት ላሕጃታትን ይሓቁፍ፣ እንተኾነ ግን መብዛሕትኦም ዘለዉ ስብስባት ዳታ ንግግር ኣብ ጽቡቕ ምንጭ ዘለዎም ውሱናት ቋንቋታት ጥራይ ይተኩሩ። VAANI ነዚ ዘይተገልገለ ቋንቋዊ መስክ ብስፍሓት ዝተዘርግሐ ምእካብ ዳታ መስክ ኣብ ጂኦግራፍያዊን ቋንቋዊን ብዙሕ ዝተፈላለዩ ዞባታት ናይታ ሃገር ብምክያድ ንምስፋሕ ተማዕቢሉ።

ዳታ ካብ ኣስታት 110,000 ተዛረብቲ ኣብ 120 ወረዳታት ናይ 22 ግዝኣታት ህንዲ ዝተዘርግሑ ተኣኪቡ፣ እዚ ድማ ካብ ቁጽጽር ዘለዎ ስቱድዮ ቅዳሓት ንላዕሊ ሓቀኛ ዞባዊን ላሕጃዊን ፍልልይ ንምሓዝ ዝተገብረ ብግልጺ ጻዕሪ የንጸባርቕ። እቲ ስብስብ ዳታ 86 ቋንቋታትን ላሕጃታትን ይሸፍን፣ ካብ ዓበይቲ ዝተመዝገቡ ቋንቋታት ከም Hindi, Tamil, Telugu, Bengali, Kannada, እና Malayalam ክሳብ ብዙሓት ዞባዊ ዓይነታትን ናይ ዓሌታት ቋንቋታትን ከም Gondi, Santali, Kurukh, Wancho, እና Tenyidie ኣብ ሓደ ካብ ብዙሓት ካልኦት ይዝርጋሕ።

ቅንብር ስብስብ ዳታን ቀንዲ ባህርያትን

VAANI ብድምሩ ኣስታት 21,500 ሰዓታት ኣውድዮ ይሓቁፍ፣ እዚ ድማ ኣብ ህንዳውያን ቋንቋታት ዘተኮረ ካብ ዝዓበዩ ብዙሕ ቋንቋታት ናይ ንግግር ኮርፖራ ሓደ ይገብሮ። ካብዚ 835 ሰዓታት ተጽሒፉ ኣሎ፣ እዚ ድማ ንክፍሊ እቲ ስብስብ ሓቀኛ ጽሑፋዊ ምልክታት ይህብ። እቲ ስብስብ ዳታ እውን ብዙሕ መዳያዊ ኣካላት የካትት፣ እዚ ድማ ካብ ልሙድ ዕማማት ንግግር ንላዕሊ ንጥቕሚ ክውዕል የኽእሎ።

ቀንዲ ባህርያት እቲ ስብስብ ዳታ እዚ ይርከቡ:

  • ሽፋን 86 ቋንቋታትን ላሕጃታትን፣ ብዙሓት ትሑት ምንጪ ዘለዎምን ናይ ዓሌት ዓይነታትን ሓዊሱ
  • ካብ ኣስታት 110,000 ተዛረብቲ ኣብ ዝተፈላለዩ ጂኦግራፍያዊን ዲሞግራፍያዊን ድሕረ ባይታታት ዝመጹ ኣበርክቶታት
  • 21,500 ጠቕላላ ሰዓታት ኣውድዮ ምስ 835 ሰዓታት ዝተጽሓፈ ንግግር
  • ናይ መስክ ቅዳሓት ኣብ 120 ወረዳታት ናይ 22 ግዝኣታት ህንዲ ዝዝርጋሕ
  • ብትሕቲ CC BY 4.0 ፍቓድ ዝተለቐቐ፣ ምስ ምጥቃስ ምንጪ ሰፊሕ ዳግማይ ኣጠቓቕማ ዝፈቅድ
  • ድጋፍ ንሁለቱ ሓደ-መዳያዊን ብዙሕ-መዳያዊን መተግበሪታት ምርምር

ዝድገፉ ዕማማትን ናይ ኣጠቓቕማ ኩነታትን

VAANI ከም ምንጪ ንሰፊሕ ዝርዝር ዕማማት ምስራሕ ንግግርን ቋንቋን ክገልግል ተነዲፉ እዩ። ተመራመርትን ኣማዕበልትን ንምልማድን ምግምጋምን ናይ ኣውቶማቲክ ምልላይ ንግግር (ASR) ስርዓታት፣ ጽሑፍ-ናብ-ንግግር (TTS) ምፍጣር፣ ምልላይ ተዛራባይ፣ እና ሞዴላት ምልላይ ቋንቋ ክጥቀሙሉ ይኽእሉ። እቲ ስብስብ ዳታ እውን ስራሕ ኣብ ምምሕያሽ ንግግርን ምዕባለ ብዙሕ-መዳያዊ ዓበይቲ ሞዴላት ቋንቋ (LLMs) ይድግፍ። ስፍሓት ሽፋን ቋንቋታቱ ንስርዓታት ኣብ ዝተፈላለየ ቋንቋዊ ከባቢ ህንዲ ንክሰርሑ ዝተዓለሙ ብፍላይ ጠቓሚ ይገብሮ።

ብምኽንያት ምእታው ብዙሓት ትሑት ምንጪ ዘለዎም ቋንቋታትን ላሕጃታትን ቅድሚ ሕጂ ትንሽ ወይ ከቶ ዘይነበሮም ዳታ ንግግር፣ VAANI ንተመራመርቲ ኣብ ምህናጽ ኣካታቲ ቴክኖሎጂታት ቋንቋ ዝተኮሩ ፍሉይ ዋጋ ኣለዎ። ንምዕባለ ASR እና መሳርሒታት ምስራሕ ተፈጥሯዊ ቋንቋ መሰረት ይህብ፣ እዚ ድማ ነቶም ቋንቋታቶም ብታሪኽ ካብ ዋና ምዕባለ AI ወጻኢ ዝነበሩ ማሕበረሰባት ክገልግል ይኽእል።

ኣገዳስነቱ ንቴክኖሎጂ ቋንቋታት ህንዲ

ስፍሓቱን ቋንቋዊ ብዙሕነቱን ናይ VAANI ኣብ መስክ ምርምር ብዙሕ ቋንቋታት ንግግር ፍሉጥ ኣበርክቶ ይገብሮ፣ ብፍላይ ኣብ ኩነታት ቋንቋታት ደቡብ እስያ። እቲ ስብስብ ዳታ ካብ ናይ ዓሌት፣ ገጠር፣ እና ዞባዊ ማሕበረሰባት ዝተዛረቡ ዓይነታት ምስ ብዝያዳ ዝዝረቡ ቋንቋታት ብሓባር ብምስናድ፣ ኣብ ኮምፒዩተራዊ ምንጭታት ሳሕቲ ዝውከል መዳይ ናይ ቋንቋዊ ርስቲ ህንዲ ይሕዝ። እቲ ክፉት ፍቓዱ ብትምህርታዊ ትካላት፣ መንግስታዊ ኣካላት፣ እና ናይ ኢንዱስትሪ ተመራመርቲ ናብ ዝያዳ ኣካታቲን ወካሊን ቴክኖሎጂታት ንግግር ዝሰርሑ ኣጠቓቕማ የቃልል።

ሪፖርት