Датасеты

BLOOM

BLOOM

BLOOM — гэта адкрытая мадэль шматмоўнай мовы з 176 млрд параметраў, якая можа генерыраваць тэкст на 46 натуральных мовах і 13 мовах праграмавання. Яна была р...

Dataset
IndicST

IndicST

IndicST — гэта вялікая база дадзеных мовы, распрацаваная Олай Крутрым, прызначаная для падтрымкі аўтаматычнага распазнавання мовы (ASR), аўтаматычнага перакл...

Dataset
AI Kosh Indic Synthetic Training Datasets

AI Kosh Indic Synthetic Training Datasets

AI Kosh Indic Synthetic Training Datasets — гэта зборнік з 14 сінтэтычных набораў даных агульным аб’ёмам прыблізна 12 млрд токенаў, прызначаны для падтрымкі...

Dataset
VAANI

VAANI

VAANI — гэта вялікамаштабны шматмоўны набор даных пра маўленне, распрацаваны Індыйскім інстытутам навукі (IISc) у Бангалоры. Ён змяшчае прыкладна 21 500 гадз...

Dataset
BRAX

BRAX

BRAX — гэта масштабны бразільскі набор даных рэнтгенаграфіі грудной клеткі, апублікаваны ў 2022 годзе і размешчаны на PhysioNet. Ён змяшчае рэнтгеналагічныя...

Dataset
Pirá

Pirá

Pirá — це двомовний (португальська та англійська) набір даних для відповідей на запитання, орієнтований на океанічну та кліматичну науку, створений Паулу Пір...

Dataset
CORAA

CORAA

CORAA — це масштабний датасет бразильської португальської мови для навчання та оцінювання систем автоматичного розпізнавання мовлення (ASR). Опублікований у...

Dataset
Jabuticaba

Jabuticaba

Jabuticaba — це масштабний датасет текстів португаломовного корпусу, який містить понад 139 мільярдів токенів на 669 ГБ очищених і дедуплікованих даних, випу...

Dataset
COLNER_Ollama

COLNER_Ollama

COLNER_Ollama — гэта датасет іспанскай мовы, прызначаны для задач выяўлення іменаваных сутнасцей (NER), з акцэнтам на сутнасці месцазнаходжання (LOC) у геагр...

Dataset
PRISM Alignment Dataset

PRISM Alignment Dataset

PRISM Alignment Dataset - гэта вялікі набор тэкстаў, прызначаны для падтрымкі даследаванняў у галіне выраўноўвання ІІ, навучання перавагам і дакладнай наладк...

Dataset