Datasets

UK Biobank

UK Biobank

UK Biobank, 2006 ve 2010 yılları arasında Büyük Britanya genelinde işe alınan 40-69 yaş arası yaklaşık 500.000 gönüllü katılımcının sağlıkla ilgili verilerin...

Dataset
common-voice-fr

common-voice-fr

Common Voice Fr, Mozilla’nın Common Voice girişimi için Fransızca veri kümeleri üretmeye yönelik bir araç projesidir. Otomatik konuşma tanıma uygulamaları iç...

Dataset
bloom

bloom

BLOOM, 46 doğal dilde ve 13 programlama dilinde metin üretebilen 176 milyar parametreli açık erişimli çok dilli bir dil modelidir. BigScience projesi aracılı...

Dataset
Compar:IA

Compar:IA

Compar:IA, Kültür Bakanlığı bünyesinde geliştirilen ve aynı adı taşıyan platform aracılığıyla toplanan Fransızca insan tercihleri veri kümesidir. Kullanıcıla...

Dataset
VNHSGE

VNHSGE

VNHSGE (Vietnamese High School Graduation Examination Dataset for Large Language Models), Vietnam Ulusal Lise Mezuniyet Sınavları ve benzer değerlendirmelerd...

Dataset
Turkish MMLU

Turkish MMLU

Turkish MMLU, M. Ali Bayram tarafından 2024 yılında oluşturulmuş, Türkçe dilinde 293.468 örnekten oluşan özgün bir veri kümesidir. 67 bölüm ve 800 konuyu kap...

Dataset
Orinoquía Camera Traps

Orinoquía Camera Traps

Orinoquía Kamera Tuzakları, Kolombiya'nın Orinoquía bölgesinde Ocak ve Temmuz 2020 tarihleri arasında toplanan 104.782 fotoğraftan oluşan bir kamera tuzağı g...

Dataset
IndicST

IndicST

IndicST, Ola Krutrim tarafından geliştirilen büyük ölçekli bir konuşma veri setidir ve otomatik konuşma tanıma (ASR), otomatik konuşma çevirisi (AST) ve konu...

Dataset
BRATECA

BRATECA

BRATECA (Brezilya Eğitim Hastaneleri Klinik Verileri), PhysioNet platformunda kullanıma sunulan, Brezilya üniversite hastanelerine kabul edilen hastaların kl...

Dataset
VAANI

VAANI

VAANI, Indian Institute of Science (IISc), Bangalore tarafından geliştirilen, Hindistan’ın 22 eyaletindeki 120 ilçede yaklaşık 110.000 konuşmacıdan toplanmış...

Dataset
BellaTurca

BellaTurca

BellaTurca, Türkçe doğal dil işleme modellerinin ön eğitimi için tasarlanmış büyük ölçekli bir veri setidir. turkish-nlp-suite tarafından geliştirilen bu v...

Dataset
Turkish Math 186K

Turkish Math 186K

Turkish Math 186K, 186.000 Türkçe matematik problemi ve çözümünden oluşan bir veri setidir. 2024 yılında ituperceptron tarafından oluşturulan bu veri seti, s...

Dataset
de-nlp-train-set

de-nlp-train-set

de-nlp-train-set veri kümesi, Almanca Wikipedia'daki metinlere dayalı metin sınıflandırma görevleri için Almanca dilinde bir eğitim koleksiyonudur. 533.842 e...

Dataset
es-ultrachat

es-ultrachat

es-ultrachat, latam-gpt kuruluşu tarafından geliştirilen ve 2023 yılında yayınlanan, dil modellerine ince ayar yapmak için tasarlanmış İspanyolca bir veri kü...

Dataset
Türkçe Saldırgan Dil Veri Kümesi

Türkçe Saldırgan Dil Veri Kümesi

Türkçe Saldırgan Dil Veri Seti, Twitter'dan derlenen Türkçe metinlerden oluşan ve saldırgan dil ile nefret söylemi tespitine yönelik bir eğitim veri setidir....

Dataset
The German Commons

The German Commons

German Commons, coral-nlp ekibi tarafından geliştirilen ve yaklaşık 154 milyar token içeren büyük bir Almanca veri seti paketidir. Almanca dilinde büyük dil...

Dataset
BRAX

BRAX

BRAX, 2022 yılında yayımlanan ve PhysioNet’te barındırılan, büyük ölçekli bir Brezilya göğüs röntgeni veri setidir. Radyografik görüntüleri, tablolaştırılmış...

Dataset
Pirá

Pirá

Pirá, okyanus ve iklim bilimine odaklanan, Portekizce ve İngilizce olmak üzere iki dilli bir soru yanıtlama veri kümesidir. Paulo Pirozelli tarafından oluştu...

Dataset
FreedomIntelligence

FreedomIntelligence

evol-instruct-portuguese, FreedomIntelligence tarafından 2023 yılında geliştirilen ve Brezilya Portekizcesi dil modellerine ince ayar yapmayı amaçlayan konuş...

Dataset
ToLD-Br

ToLD-Br

ToLD-Br, Ağustos 2019’da toplanan yaklaşık 21.000 tweetten oluşan ve toksik dil tespiti ile çok etiketli sınıflandırma görevleri için tasarlanmış bir Brezily...

Dataset
Nemotron-Personas-Brazil

Nemotron-Personas-Brazil

Nemotron-Personas-Brezilya, Brezilya'daki gerçek demografik ve coğrafi dağılımlara dayanan, yapay olarak oluşturulmuş yaklaşık 6 milyon kişiden oluşan sentet...

Dataset
Bagaço

Bagaço

Bagaço, Avrupa Portekizcesi için bir ön eğitim metin veri setidir; yaklaşık 16 milyon doküman ve yaklaşık 9 milyar belirteçten oluşur. FineWeb2’den, .pt alan...

Dataset
Precio de Bolsa Nacional - Colombia (XM)

Precio de Bolsa Nacional - Colombia (XM)

Bu veri seti, XM tarafından Sinergox platformu aracılığıyla yayınlanan Kolombiya'daki Ulusal Elektrik Değişim Fiyatının geçmişini içerir. Kayıtlar saatlik fr...

Dataset
LatamQA Artículos ES-LA

LatamQA Artículos ES-LA

Bu veri kümesi, Latin Amerika popüler ve sosyal kültürleri hakkında bölgedeki 20 ülkeyi kapsayan 26.000'den fazla İspanyolca Wikipedia makalesinin meta veril...

Dataset
Pearl

Pearl

Pearl, Arap kültürel bağlamlarında büyük dilbilimsel modelleri ayarlamak ve değerlendirmek için tasarlanmış Arapça çok modlu bir veri kümesidir. Katar, Suudi...

Dataset
NRC-GAMMA

NRC-GAMMA

NRC-GAMMA, Kanada Ulusal Araştırma Konseyi tarafından 2021 yılında yayınlanan ve otomatik sayaç okumaya odaklanan bilgisayarla görme modellerini eğitmek için...

Dataset
OLID-BR

OLID-BR

OLID-BR (Portekizce Brezilya için Saldırgan Dil Tanımlama Veri Kümesi), 7.943 örnek içeren; YouTube, Twitter ve ilgili mevcut veri kümelerinden toplanarak 13...

Dataset
Samambas

Samambas

Human_vs_AI_Portuguese, Portekizce dilinde insan tarafından yazılmış ve yapay zekâ tarafından üretilmiş içerikleri ayırt edebilen modellerin eğitimini destek...

Dataset
CORAA

CORAA

CORAA, otomatik konuşma tanıma (ASR) sistemlerini eğitmek ve değerlendirmek için tasarlanmış, ölçek olarak büyük bir Brezilya Portekizcesi konuşma veri setid...

Dataset
Aroeira

Aroeira

Aroeira, Itau-Unibanco tarafından oluşturulmuş, öncelikle dil modellerini ön-eğitmek için tasarlanmış büyük ölçekli bir Portekizce metin veri kümesidir. Yakl...

Dataset
ClassiCC-PT

ClassiCC-PT

ClassiCC-PT, Common Crawl web verilerinden türetilmiş, Portekizce dilinde büyük ölçekli bir metin veri setidir; yaklaşık 106 milyon doküman ve yaklaşık 125 m...

Dataset
ExtraGLUE-Instruct

ExtraGLUE-Instruct

ExtraGLUE-Instruct, PORTULAN tarafından 2024 yılında oluşturulan Portekizce dilinde bir yönergeye dayalı ince ayar (instruction-tuning) veri kümesidir. Doğal...

Dataset
Jabuticaba

Jabuticaba

Jabuticaba, 2025 yılında büyük dil modellerini ön eğitmek için yayımlanan, temizlenmiş ve yinelenen içeriklerden arındırılmış 669 GB veriye yayılan 139 milya...

Dataset
DanNet

DanNet

DanNet, Danimarkaca WordNet’tir; adlandırılmış ilişkisel bağlantılar aracılığıyla kelimeleri ve anlamlarını düzenleyen, leksiko-semantik bir ağdır. Danimarka...

Dataset
Domsdatabasen.dk

Domsdatabasen.dk

Domsdatabasen.dk, 2022'nin başlarında başlatılan kamuya açık domsdatabasen.dk veri tabanından çıkarılan takma isimli Danimarka mahkeme kararlarından oluşan b...

Dataset
EpaDB

EpaDB

EpaDB, otomatik telaffuz sistemlerinin değerlendirilmesi ve eğitimi için tasarlanmış bir ses ve metin veri kümesidir. 16 kHz'de float32 formatında ses ile 50...

Dataset
PoliDriving

PoliDriving

PoliDriving, Ekvador'un Quito şehrinde toplanan ve CUV, van ve sedan olmak üzere üç tip araçta 5 farklı sürücü ile 18 saatlik sürüş sırasında elde edilen yak...

Dataset
RedPajama ES HQ

RedPajama ES HQ

Bu veri kümesi, büyük ölçekli dil modellerinin ön eğitimi için tasarlanmış yüksek kaliteli bir İspanyolca metin koleksiyonudur. Yaklaşık 129 milyon satır içe...

Dataset
Colombian Spanish Cyberbullying Dataset

Colombian Spanish Cyberbullying Dataset

FelipeGuerra tarafından oluşturulan ve 2023 yılında yayınlanan bu veri kümesi, siber zorbalık tespit modellerini eğitmek amacıyla sosyal medya platformlarınd...

Dataset
COLNER_Ollama

COLNER_Ollama

COLNER_Ollama, özellikle Kolombiya ile ilgili coğrafi varlıklara (LOC) odaklanarak, adlandırılmış varlık tanıma (NER) modellerinin eğitimi için tasarlanmış İ...

Dataset
PRISM Alignment Dataset

PRISM Alignment Dataset

PRISM Hizalama Veri Kümesi, yapay zeka hizalama araştırmalarını, tercih öğrenimini ve büyük dil modellerinin ince ayarını desteklemek için tasarlanmış büyük...

Dataset