BLOOM
BLOOM je vícejazyčný jazykový model s otevřeným přístupem o 176 miliardách parametrů, který dokáže generovat text ve 46 přirozených jazycích a 13 programovac...
Dataset
BLOOM je vícejazyčný jazykový model s otevřeným přístupem o 176 miliardách parametrů, který dokáže generovat text ve 46 přirozených jazycích a 13 programovac...
Dataset
IndicST je rozsáhlý dataset pro rozpoznávání řeči vyvinutý Olou Krutrimem, navržený na podporu automatického rozpoznávání řeči (ASR), automatického překladu...
Dataset
AI Kosh Indic Synthetic Training Datasets je kolekce 14 syntetických datových sad o celkovém rozsahu přibližně 12 miliard tokenů, navržená na podporu trénová...
Dataset
VAANI je rozsáhlá vícejazyčná databáze řeči vyvinutá Indickým institutem vědy (IISc) v Bangalore, která obsahuje přibližně 21 500 hodin audia shromážděného o...
Dataset
BRAX je rozsáhlý brazilský soubor snímků hrudníku z rentgenového vyšetření, publikovaný v roce 2022 a hostovaný na PhysioNetu. Obsahuje radiografické snímky...
Dataset
Pirá je dvojjazyčný (portugalský a anglický) datový soubor pro zodpovídání otázek zaměřený na oceánografii a klimatickou vědu, vytvořený Paulem Pirozellim a...
Dataset
CORAA je rozsáhlý dataset pro brazilskou portugalštinu ve formě řečových nahrávek určený pro trénování a vyhodnocování systémů automatického rozpoznávání řeč...
Dataset
Jabuticaba je rozsáhlý textový datový soubor v portugalštině, který obsahuje více než 139 miliard tokenů na 669 GB vyčištěných a deduplikovaných dat, vydaný...
Dataset
COLNER_Ollama je dataset v španělském jazyce určený pro úlohy rozpoznávání pojmenovaných entit (NER), konkrétně zaměřený na entity typu lokace (LOC) v kolumb...
Dataset
PRISM Alignment Dataset je rozsáhlý textový dataset určený k podpoře výzkumu v oblasti zarovnávání (alignment) umělé inteligence, učení preferencí a jemného...
Dataset