Datasets

All Metin ve NLP İmaj ve Vizyon Ses ve Konuşma Video Çok Modlu Tabular ve Yapılandırılmış Sentetik Veri

UK Biobank

UK Biobank, 2006 ve 2010 yılları arasında Büyük Britanya genelinde işe alınan 40-69 yaş arası yaklaşık 500.000 gönüllü katılımcının sağlıkla ilgili verilerin...

Dataset

common-voice-fr

Common Voice Fr, Mozilla’nın Common Voice girişimi için Fransızca veri kümeleri üretmeye yönelik bir araç projesidir. Otomatik konuşma tanıma uygulamaları iç...

Dataset

bloom

BLOOM, 46 doğal dilde ve 13 programlama dilinde metin üretebilen 176 milyar parametreli açık erişimli çok dilli bir dil modelidir. BigScience projesi aracılı...

Dataset

Compar:IA

Compar:IA, Kültür Bakanlığı bünyesinde geliştirilen ve aynı adı taşıyan platform aracılığıyla toplanan Fransızca insan tercihleri veri kümesidir. Kullanıcıla...

Dataset

VNHSGE

VNHSGE (Vietnamese High School Graduation Examination Dataset for Large Language Models), Vietnam Ulusal Lise Mezuniyet Sınavları ve benzer değerlendirmelerd...

Dataset

Turkish MMLU

Turkish MMLU, M. Ali Bayram tarafından 2024 yılında oluşturulmuş, Türkçe dilinde 293.468 örnekten oluşan özgün bir veri kümesidir. 67 bölüm ve 800 konuyu kap...

Dataset

Réservoir utile des sols de la France métropolitaine

INRAE (Info&Sols) tarafından 2021 yılında yayınlanan ve 1.2 versiyonu mevcut olan bu veri seti, Fransa anakarasındaki toprakların yararlı su rezervuarının bi...

Dataset

Orinoquía Camera Traps

Orinoquía Kamera Tuzakları, Kolombiya'nın Orinoquía bölgesinde Ocak ve Temmuz 2020 tarihleri arasında toplanan 104.782 fotoğraftan oluşan bir kamera tuzağı g...

Dataset

IndicST

IndicST, Ola Krutrim tarafından geliştirilen büyük ölçekli bir konuşma veri setidir ve otomatik konuşma tanıma (ASR), otomatik konuşma çevirisi (AST) ve konu...

Dataset

COVID-19 Hospital Demographic, Clinical and Outcome Dataset

Bu veri seti, Kasım 2020 ile Mart 2021 arasında Acil Servis aracılığıyla Trillium Health Partners'a kabul edilen ve tümü COVID-19 tanısı almış 509 hasta ziya...

Dataset

BRATECA

BRATECA (Brezilya Eğitim Hastaneleri Klinik Verileri), PhysioNet platformunda kullanıma sunulan, Brezilya üniversite hastanelerine kabul edilen hastaların kl...

Dataset

Conjunto de Datos de Imágenes Satelitales Multimodales para el Análisis de Salud Pública en Colombia

Bu veri seti, Kolombiya'da halk sağlığı analizi için tasarlanmış 12.636 multispektral uydu görüntüsü ile birlikte ilgili tablo verilerini içerir. Açık erişim...

Dataset

AI Kosh Indic Synthetic Training Datasets

AI Kosh Indic Sentetik Eğitim Veri Setleri, toplamda yaklaşık 12 milyar token içeren 14 sentetik veri setinden oluşmaktadır ve on Hint dilinde dil modellerin...

Dataset

VAANI

VAANI, Indian Institute of Science (IISc), Bangalore tarafından geliştirilen, Hindistan’ın 22 eyaletindeki 120 ilçede yaklaşık 110.000 konuşmacıdan toplanmış...

Dataset

BellaTurca

BellaTurca, Türkçe doğal dil işleme modellerinin ön eğitimi için tasarlanmış büyük ölçekli bir veri setidir. turkish-nlp-suite tarafından geliştirilen bu v...

Dataset

Turkish Math 186K

Turkish Math 186K, 186.000 Türkçe matematik problemi ve çözümünden oluşan bir veri setidir. 2024 yılında ituperceptron tarafından oluşturulan bu veri seti, s...

Dataset

de-nlp-train-set

de-nlp-train-set veri kümesi, Almanca Wikipedia'daki metinlere dayalı metin sınıflandırma görevleri için Almanca dilinde bir eğitim koleksiyonudur. 533.842 e...

Dataset

Compar:IA - Jeu de données de préférences francophones

Compar:IA, farklı dil modelleri (LLM) tarafından üretilen yanıt çiftlerinin körlemesine karşılaştırılmasıyla toplanan 263.625 oydan oluşan Fransızca dilinde...

Dataset

FLAIR - French Land cover from Aerospace ImageRy

FLAIR (French Land cover from Aerospace ImageRy), Institut national de l'information géographique et forestière (IGN) tarafından arazi örtüsü sınıflandırması...

Dataset

es-ultrachat

es-ultrachat, latam-gpt kuruluşu tarafından geliştirilen ve 2023 yılında yayınlanan, dil modellerine ince ayar yapmak için tasarlanmış İspanyolca bir veri kü...

Dataset

Türkçe Saldırgan Dil Veri Kümesi

Türkçe Saldırgan Dil Veri Seti, Twitter'dan derlenen Türkçe metinlerden oluşan ve saldırgan dil ile nefret söylemi tespitine yönelik bir eğitim veri setidir....

Dataset

The German Commons

German Commons, coral-nlp ekibi tarafından geliştirilen ve yaklaşık 154 milyar token içeren büyük bir Almanca veri seti paketidir. Almanca dilinde büyük dil...

Dataset

BRAX

BRAX, 2022 yılında yayımlanan ve PhysioNet’te barındırılan, büyük ölçekli bir Brezilya göğüs röntgeni veri setidir. Radyografik görüntüleri, tablolaştırılmış...

Dataset

Pirá

Pirá, okyanus ve iklim bilimine odaklanan, Portekizce ve İngilizce olmak üzere iki dilli bir soru yanıtlama veri kümesidir. Paulo Pirozelli tarafından oluştu...

Dataset

FreedomIntelligence

evol-instruct-portuguese, FreedomIntelligence tarafından 2023 yılında geliştirilen ve Brezilya Portekizcesi dil modellerine ince ayar yapmayı amaçlayan konuş...

Dataset

ToLD-Br

ToLD-Br, Ağustos 2019’da toplanan yaklaşık 21.000 tweetten oluşan ve toksik dil tespiti ile çok etiketli sınıflandırma görevleri için tasarlanmış bir Brezily...

Dataset

Nemotron-Personas-Brazil

Nemotron-Personas-Brezilya, Brezilya'daki gerçek demografik ve coğrafi dağılımlara dayanan, yapay olarak oluşturulmuş yaklaşık 6 milyon kişiden oluşan sentet...

Dataset

Bagaço

Bagaço, Avrupa Portekizcesi için bir ön eğitim metin veri setidir; yaklaşık 16 milyon doküman ve yaklaşık 9 milyar belirteçten oluşur. FineWeb2’den, .pt alan...

Dataset

Precio de Bolsa Nacional - Colombia (XM)

Bu veri seti, XM tarafından Sinergox platformu aracılığıyla yayınlanan Kolombiya'daki Ulusal Elektrik Değişim Fiyatının geçmişini içerir. Kayıtlar saatlik fr...

Dataset

LatamQA Artículos ES-LA

Bu veri kümesi, Latin Amerika popüler ve sosyal kültürleri hakkında bölgedeki 20 ülkeyi kapsayan 26.000'den fazla İspanyolca Wikipedia makalesinin meta veril...

Dataset

Pearl

Pearl, Arap kültürel bağlamlarında büyük dilbilimsel modelleri ayarlamak ve değerlendirmek için tasarlanmış Arapça çok modlu bir veri kümesidir. Katar, Suudi...

Dataset

NRC-GAMMA

NRC-GAMMA, Kanada Ulusal Araştırma Konseyi tarafından 2021 yılında yayınlanan ve otomatik sayaç okumaya odaklanan bilgisayarla görme modellerini eğitmek için...

Dataset

Conjunto de Dados de Fala de Call Center em Português (Brasil) para BFSI

Bu veri kümesi, FutureBeeAI tarafından oluşturulan ve Yugo platformu üzerinden toplanan; bankacılık, finansal hizmetler ve sigorta (BFSI) sektörünü kapsayan...

Dataset

OLID-BR

OLID-BR (Portekizce Brezilya için Saldırgan Dil Tanımlama Veri Kümesi), 7.943 örnek içeren; YouTube, Twitter ve ilgili mevcut veri kümelerinden toplanarak 13...

Dataset

Samambas

Human_vs_AI_Portuguese, Portekizce dilinde insan tarafından yazılmış ve yapay zekâ tarafından üretilmiş içerikleri ayırt edebilen modellerin eğitimini destek...

Dataset

CORAA

CORAA, otomatik konuşma tanıma (ASR) sistemlerini eğitmek ve değerlendirmek için tasarlanmış, ölçek olarak büyük bir Brezilya Portekizcesi konuşma veri setid...

Dataset

Aroeira

Aroeira, Itau-Unibanco tarafından oluşturulmuş, öncelikle dil modellerini ön-eğitmek için tasarlanmış büyük ölçekli bir Portekizce metin veri kümesidir. Yakl...

Dataset

ClassiCC-PT

ClassiCC-PT, Common Crawl web verilerinden türetilmiş, Portekizce dilinde büyük ölçekli bir metin veri setidir; yaklaşık 106 milyon doküman ve yaklaşık 125 m...

Dataset

ExtraGLUE-Instruct

ExtraGLUE-Instruct, PORTULAN tarafından 2024 yılında oluşturulan Portekizce dilinde bir yönergeye dayalı ince ayar (instruction-tuning) veri kümesidir. Doğal...

Dataset

Jabuticaba

Jabuticaba, 2025 yılında büyük dil modellerini ön eğitmek için yayımlanan, temizlenmiş ve yinelenen içeriklerden arındırılmış 669 GB veriye yayılan 139 milya...

Dataset

DanNet

DanNet, Danimarkaca WordNet’tir; adlandırılmış ilişkisel bağlantılar aracılığıyla kelimeleri ve anlamlarını düzenleyen, leksiko-semantik bir ağdır. Danimarka...

Dataset

Domsdatabasen.dk

Domsdatabasen.dk, 2022'nin başlarında başlatılan kamuya açık domsdatabasen.dk veri tabanından çıkarılan takma isimli Danimarka mahkeme kararlarından oluşan b...

Dataset

EpaDB

EpaDB, otomatik telaffuz sistemlerinin değerlendirilmesi ve eğitimi için tasarlanmış bir ses ve metin veri kümesidir. 16 kHz'de float32 formatında ses ile 50...

Dataset

PoliDriving

PoliDriving, Ekvador'un Quito şehrinde toplanan ve CUV, van ve sedan olmak üzere üç tip araçta 5 farklı sürücü ile 18 saatlik sürüş sırasında elde edilen yak...

Dataset

RedPajama ES HQ

Bu veri kümesi, büyük ölçekli dil modellerinin ön eğitimi için tasarlanmış yüksek kaliteli bir İspanyolca metin koleksiyonudur. Yaklaşık 129 milyon satır içe...

Dataset

Colombian Spanish Cyberbullying Dataset

FelipeGuerra tarafından oluşturulan ve 2023 yılında yayınlanan bu veri kümesi, siber zorbalık tespit modellerini eğitmek amacıyla sosyal medya platformlarınd...

Dataset

COLNER_Ollama

COLNER_Ollama, özellikle Kolombiya ile ilgili coğrafi varlıklara (LOC) odaklanarak, adlandırılmış varlık tanıma (NER) modellerinin eğitimi için tasarlanmış İ...

Dataset

PRISM Alignment Dataset

PRISM Hizalama Veri Kümesi, yapay zeka hizalama araştırmalarını, tercih öğrenimini ve büyük dil modellerinin ince ayarını desteklemek için tasarlanmış büyük...

Dataset