BLOOM
BLOOM je odprtokodni večjezični jezikovni model z 176 milijardami parametrov, ki lahko ustvarja besedilo v 46 naravnih jezikih in 13 programskih jezikih. Raz...
Dataset
BLOOM je odprtokodni večjezični jezikovni model z 176 milijardami parametrov, ki lahko ustvarja besedilo v 46 naravnih jezikih in 13 programskih jezikih. Raz...
Dataset
IndicST je obsežen podatkovni niz za govor, ki ga je razvila Ola Krutrim, zasnovan za podporo avtomatskemu prepoznavanju govora (ASR), avtomatskemu prevajanj...
Dataset
AI Kosh Indic Synthetic Training Datasets je zbirka 14 sintetičnih naborov podatkov, ki skupaj obsegajo približno 12 milijard tokenov in so namenjeni podpori...
Dataset
VAANI je obsežen večjezični govorni podatkovni nabor, ki ga je razvil Indian Institute of Science (IISc), Bangalore, in vsebuje približno 21.500 ur zvočnih p...
Dataset
BRAX je obsežen brazilski nabor podatkov rentgenskih posnetkov prsnega koša, objavljen leta 2022 in gostovan na PhysioNetu. Vsebuje radiografske slike, združ...
Dataset
Pirá je dvojezični (portugalski in angleški) nabor podatkov za odgovarjanje na vprašanja, osredotočen na ocean in podnebno znanost, ki sta ga ustvarila Paulo...
Dataset
CORAA je obsežen nabor podatkov za govor v brazilskem portugalskem jeziku, zasnovan za usposabljanje in ocenjevanje sistemov samodejnega prepoznavanja govora...
Dataset
Jabuticaba je obsežen podatkovni nabor besedil v portugalskem jeziku, ki vsebuje več kot 139 milijard tokenov na 669 GB očiščenih in dedupliciranih podatkov,...
Dataset
COLNER_Ollama je nabor podatkov v španskem jeziku, zasnovan za naloge prepoznavanja imenovanih entitet (NER), posebej osredotočen na lokacijske entitete (LOC...
Dataset
Nabor podatkov PRISM Alignment Dataset je obsežen besedilni nabor podatkov, zasnovan za podporo raziskavam usklajevanja AI, učenja preferenc in fine-tuning v...
Dataset