Datasets

All Besedilo in NLP Slika in vizija Zvok in govor Videoposnetek Večmodalni Tabelarični in strukturirani Sintetični podatki

BLOOM

BLOOM je odprtokodni večjezični jezikovni model z 176 milijardami parametrov, ki lahko ustvarja besedilo v 46 naravnih jezikih in 13 programskih jezikih. Raz...

Dataset

IndicST

IndicST je obsežen podatkovni niz za govor, ki ga je razvila Ola Krutrim, zasnovan za podporo avtomatskemu prepoznavanju govora (ASR), avtomatskemu prevajanj...

Dataset

AI Kosh Indic Synthetic Training Datasets

AI Kosh Indic Synthetic Training Datasets je zbirka 14 sintetičnih naborov podatkov, ki skupaj obsegajo približno 12 milijard tokenov in so namenjeni podpori...

Dataset

VAANI

VAANI je obsežen večjezični govorni podatkovni nabor, ki ga je razvil Indian Institute of Science (IISc), Bangalore, in vsebuje približno 21.500 ur zvočnih p...

Dataset

BRAX

BRAX je obsežen brazilski nabor podatkov rentgenskih posnetkov prsnega koša, objavljen leta 2022 in gostovan na PhysioNetu. Vsebuje radiografske slike, združ...

Dataset

Pirá

Pirá je dvojezični (portugalski in angleški) nabor podatkov za odgovarjanje na vprašanja, osredotočen na ocean in podnebno znanost, ki sta ga ustvarila Paulo...

Dataset

CORAA

CORAA je obsežen nabor podatkov za govor v brazilskem portugalskem jeziku, zasnovan za usposabljanje in ocenjevanje sistemov samodejnega prepoznavanja govora...

Dataset

Jabuticaba

Jabuticaba je obsežen podatkovni nabor besedil v portugalskem jeziku, ki vsebuje več kot 139 milijard tokenov na 669 GB očiščenih in dedupliciranih podatkov,...

Dataset

COLNER_Ollama

COLNER_Ollama je nabor podatkov v španskem jeziku, zasnovan za naloge prepoznavanja imenovanih entitet (NER), posebej osredotočen na lokacijske entitete (LOC...

Dataset

PRISM Alignment Dataset

Nabor podatkov PRISM Alignment Dataset je obsežen besedilni nabor podatkov, zasnovan za podporo raziskavam usklajevanja AI, učenja preferenc in fine-tuning v...

Dataset