Датасеты

All Тэкст і NLP Выявы і зрок Аўдыё і маўленне Відэа Мультымадальны Таблічнае і структураванае Сінтэтычныя даныя

BLOOM

BLOOM — гэта адкрытая мадэль шматмоўнай мовы з 176 млрд параметраў, якая можа генерыраваць тэкст на 46 натуральных мовах і 13 мовах праграмавання. Яна была р...

Dataset

IndicST

IndicST — гэта вялікая база дадзеных мовы, распрацаваная Олай Крутрым, прызначаная для падтрымкі аўтаматычнага распазнавання мовы (ASR), аўтаматычнага перакл...

Dataset

AI Kosh Indic Synthetic Training Datasets

AI Kosh Indic Synthetic Training Datasets — гэта зборнік з 14 сінтэтычных набораў даных агульным аб’ёмам прыблізна 12 млрд токенаў, прызначаны для падтрымкі...

Dataset

VAANI

VAANI — гэта вялікамаштабны шматмоўны набор даных пра маўленне, распрацаваны Індыйскім інстытутам навукі (IISc) у Бангалоры. Ён змяшчае прыкладна 21 500 гадз...

Dataset

BRAX

BRAX — гэта масштабны бразільскі набор даных рэнтгенаграфіі грудной клеткі, апублікаваны ў 2022 годзе і размешчаны на PhysioNet. Ён змяшчае рэнтгеналагічныя...

Dataset

Pirá

Pirá — це двомовний (португальська та англійська) набір даних для відповідей на запитання, орієнтований на океанічну та кліматичну науку, створений Паулу Пір...

Dataset

CORAA

CORAA — це масштабний датасет бразильської португальської мови для навчання та оцінювання систем автоматичного розпізнавання мовлення (ASR). Опублікований у...

Dataset

Jabuticaba

Jabuticaba — це масштабний датасет текстів португаломовного корпусу, який містить понад 139 мільярдів токенів на 669 ГБ очищених і дедуплікованих даних, випу...

Dataset

COLNER_Ollama

COLNER_Ollama — гэта датасет іспанскай мовы, прызначаны для задач выяўлення іменаваных сутнасцей (NER), з акцэнтам на сутнасці месцазнаходжання (LOC) у геагр...

Dataset

PRISM Alignment Dataset

PRISM Alignment Dataset - гэта вялікі набор тэкстаў, прызначаны для падтрымкі даследаванняў у галіне выраўноўвання ІІ, навучання перавагам і дакладнай наладк...

Dataset