BLOOM
BLOOM — гэта адкрытая мадэль шматмоўнай мовы з 176 млрд параметраў, якая можа генерыраваць тэкст на 46 натуральных мовах і 13 мовах праграмавання. Яна была р...
Dataset
BLOOM — гэта адкрытая мадэль шматмоўнай мовы з 176 млрд параметраў, якая можа генерыраваць тэкст на 46 натуральных мовах і 13 мовах праграмавання. Яна была р...
Dataset
IndicST — гэта вялікая база дадзеных мовы, распрацаваная Олай Крутрым, прызначаная для падтрымкі аўтаматычнага распазнавання мовы (ASR), аўтаматычнага перакл...
Dataset
AI Kosh Indic Synthetic Training Datasets — гэта зборнік з 14 сінтэтычных набораў даных агульным аб’ёмам прыблізна 12 млрд токенаў, прызначаны для падтрымкі...
Dataset
VAANI — гэта вялікамаштабны шматмоўны набор даных пра маўленне, распрацаваны Індыйскім інстытутам навукі (IISc) у Бангалоры. Ён змяшчае прыкладна 21 500 гадз...
Dataset
BRAX — гэта масштабны бразільскі набор даных рэнтгенаграфіі грудной клеткі, апублікаваны ў 2022 годзе і размешчаны на PhysioNet. Ён змяшчае рэнтгеналагічныя...
Dataset
Pirá — це двомовний (португальська та англійська) набір даних для відповідей на запитання, орієнтований на океанічну та кліматичну науку, створений Паулу Пір...
Dataset
CORAA — це масштабний датасет бразильської португальської мови для навчання та оцінювання систем автоматичного розпізнавання мовлення (ASR). Опублікований у...
Dataset
Jabuticaba — це масштабний датасет текстів португаломовного корпусу, який містить понад 139 мільярдів токенів на 669 ГБ очищених і дедуплікованих даних, випу...
Dataset
COLNER_Ollama — гэта датасет іспанскай мовы, прызначаны для задач выяўлення іменаваных сутнасцей (NER), з акцэнтам на сутнасці месцазнаходжання (LOC) у геагр...
Dataset
PRISM Alignment Dataset - гэта вялікі набор тэкстаў, прызначаны для падтрымкі даследаванняў у галіне выраўноўвання ІІ, навучання перавагам і дакладнай наладк...
Dataset