Datasets

BLOOM

BLOOM

BLOOM je odprtokodni večjezični jezikovni model z 176 milijardami parametrov, ki lahko ustvarja besedilo v 46 naravnih jezikih in 13 programskih jezikih. Raz...

Dataset
IndicST

IndicST

IndicST je obsežen podatkovni niz za govor, ki ga je razvila Ola Krutrim, zasnovan za podporo avtomatskemu prepoznavanju govora (ASR), avtomatskemu prevajanj...

Dataset
VAANI

VAANI

VAANI je obsežen večjezični govorni podatkovni nabor, ki ga je razvil Indian Institute of Science (IISc), Bangalore, in vsebuje približno 21.500 ur zvočnih p...

Dataset
BRAX

BRAX

BRAX je obsežen brazilski nabor podatkov rentgenskih posnetkov prsnega koša, objavljen leta 2022 in gostovan na PhysioNetu. Vsebuje radiografske slike, združ...

Dataset
Pirá

Pirá

Pirá je dvojezični (portugalski in angleški) nabor podatkov za odgovarjanje na vprašanja, osredotočen na ocean in podnebno znanost, ki sta ga ustvarila Paulo...

Dataset
CORAA

CORAA

CORAA je obsežen nabor podatkov za govor v brazilskem portugalskem jeziku, zasnovan za usposabljanje in ocenjevanje sistemov samodejnega prepoznavanja govora...

Dataset
Jabuticaba

Jabuticaba

Jabuticaba je obsežen podatkovni nabor besedil v portugalskem jeziku, ki vsebuje več kot 139 milijard tokenov na 669 GB očiščenih in dedupliciranih podatkov,...

Dataset
COLNER_Ollama

COLNER_Ollama

COLNER_Ollama je nabor podatkov v španskem jeziku, zasnovan za naloge prepoznavanja imenovanih entitet (NER), posebej osredotočen na lokacijske entitete (LOC...

Dataset
PRISM Alignment Dataset

PRISM Alignment Dataset

Nabor podatkov PRISM Alignment Dataset je obsežen besedilni nabor podatkov, zasnovan za podporo raziskavam usklajevanja AI, učenja preferenc in fine-tuning v...

Dataset