Datasets

All Text a NLP Image & Vision Zvuk a řeč Video Multimodální Tabulkové a strukturované Syntetická data

BLOOM

BLOOM je vícejazyčný jazykový model s otevřeným přístupem o 176 miliardách parametrů, který dokáže generovat text ve 46 přirozených jazycích a 13 programovac...

Dataset

IndicST

IndicST je rozsáhlý dataset pro rozpoznávání řeči vyvinutý Olou Krutrimem, navržený na podporu automatického rozpoznávání řeči (ASR), automatického překladu...

Dataset

AI Kosh Indic Synthetic Training Datasets

AI Kosh Indic Synthetic Training Datasets je kolekce 14 syntetických datových sad o celkovém rozsahu přibližně 12 miliard tokenů, navržená na podporu trénová...

Dataset

VAANI

VAANI je rozsáhlá vícejazyčná databáze řeči vyvinutá Indickým institutem vědy (IISc) v Bangalore, která obsahuje přibližně 21 500 hodin audia shromážděného o...

Dataset

BRAX

BRAX je rozsáhlý brazilský soubor snímků hrudníku z rentgenového vyšetření, publikovaný v roce 2022 a hostovaný na PhysioNetu. Obsahuje radiografické snímky...

Dataset

Pirá

Pirá je dvojjazyčný (portugalský a anglický) datový soubor pro zodpovídání otázek zaměřený na oceánografii a klimatickou vědu, vytvořený Paulem Pirozellim a...

Dataset

CORAA

CORAA je rozsáhlý dataset pro brazilskou portugalštinu ve formě řečových nahrávek určený pro trénování a vyhodnocování systémů automatického rozpoznávání řeč...

Dataset

Jabuticaba

Jabuticaba je rozsáhlý textový datový soubor v portugalštině, který obsahuje více než 139 miliard tokenů na 669 GB vyčištěných a deduplikovaných dat, vydaný...

Dataset

COLNER_Ollama

COLNER_Ollama je dataset v španělském jazyce určený pro úlohy rozpoznávání pojmenovaných entit (NER), konkrétně zaměřený na entity typu lokace (LOC) v kolumb...

Dataset

PRISM Alignment Dataset

PRISM Alignment Dataset je rozsáhlý textový dataset určený k podpoře výzkumu v oblasti zarovnávání (alignment) umělé inteligence, učení preferencí a jemného...

Dataset