UK Biobank
UK Biobank, 2006 ve 2010 yılları arasında Büyük Britanya genelinde işe alınan 40-69 yaş arası yaklaşık 500.000 gönüllü katılımcının sağlıkla ilgili verilerin...
Dataset
UK Biobank, 2006 ve 2010 yılları arasında Büyük Britanya genelinde işe alınan 40-69 yaş arası yaklaşık 500.000 gönüllü katılımcının sağlıkla ilgili verilerin...
Dataset
Common Voice Fr, Mozilla’nın Common Voice girişimi için Fransızca veri kümeleri üretmeye yönelik bir araç projesidir. Otomatik konuşma tanıma uygulamaları iç...
Dataset
BLOOM, 46 doğal dilde ve 13 programlama dilinde metin üretebilen 176 milyar parametreli açık erişimli çok dilli bir dil modelidir. BigScience projesi aracılı...
Dataset
Compar:IA, Kültür Bakanlığı bünyesinde geliştirilen ve aynı adı taşıyan platform aracılığıyla toplanan Fransızca insan tercihleri veri kümesidir. Kullanıcıla...
Dataset
VNHSGE (Vietnamese High School Graduation Examination Dataset for Large Language Models), Vietnam Ulusal Lise Mezuniyet Sınavları ve benzer değerlendirmelerd...
Dataset
Turkish MMLU, M. Ali Bayram tarafından 2024 yılında oluşturulmuş, Türkçe dilinde 293.468 örnekten oluşan özgün bir veri kümesidir. 67 bölüm ve 800 konuyu kap...
Dataset
INRAE (Info&Sols) tarafından 2021 yılında yayınlanan ve 1.2 versiyonu mevcut olan bu veri seti, Fransa anakarasındaki toprakların yararlı su rezervuarının bi...
Dataset
Orinoquía Kamera Tuzakları, Kolombiya'nın Orinoquía bölgesinde Ocak ve Temmuz 2020 tarihleri arasında toplanan 104.782 fotoğraftan oluşan bir kamera tuzağı g...
Dataset
IndicST, Ola Krutrim tarafından geliştirilen büyük ölçekli bir konuşma veri setidir ve otomatik konuşma tanıma (ASR), otomatik konuşma çevirisi (AST) ve konu...
Dataset
Bu veri seti, Kasım 2020 ile Mart 2021 arasında Acil Servis aracılığıyla Trillium Health Partners'a kabul edilen ve tümü COVID-19 tanısı almış 509 hasta ziya...
Dataset
BRATECA (Brezilya Eğitim Hastaneleri Klinik Verileri), PhysioNet platformunda kullanıma sunulan, Brezilya üniversite hastanelerine kabul edilen hastaların kl...
Dataset
Bu veri seti, Kolombiya'da halk sağlığı analizi için tasarlanmış 12.636 multispektral uydu görüntüsü ile birlikte ilgili tablo verilerini içerir. Açık erişim...
Dataset
AI Kosh Indic Sentetik Eğitim Veri Setleri, toplamda yaklaşık 12 milyar token içeren 14 sentetik veri setinden oluşmaktadır ve on Hint dilinde dil modellerin...
Dataset
VAANI, Indian Institute of Science (IISc), Bangalore tarafından geliştirilen, Hindistan’ın 22 eyaletindeki 120 ilçede yaklaşık 110.000 konuşmacıdan toplanmış...
Dataset
BellaTurca, Türkçe doğal dil işleme modellerinin ön eğitimi için tasarlanmış büyük ölçekli bir veri setidir. turkish-nlp-suite tarafından geliştirilen bu v...
Dataset
Turkish Math 186K, 186.000 Türkçe matematik problemi ve çözümünden oluşan bir veri setidir. 2024 yılında ituperceptron tarafından oluşturulan bu veri seti, s...
Dataset
de-nlp-train-set veri kümesi, Almanca Wikipedia'daki metinlere dayalı metin sınıflandırma görevleri için Almanca dilinde bir eğitim koleksiyonudur. 533.842 e...
Dataset
Compar:IA, farklı dil modelleri (LLM) tarafından üretilen yanıt çiftlerinin körlemesine karşılaştırılmasıyla toplanan 263.625 oydan oluşan Fransızca dilinde...
Dataset
FLAIR (French Land cover from Aerospace ImageRy), Institut national de l'information géographique et forestière (IGN) tarafından arazi örtüsü sınıflandırması...
Dataset
es-ultrachat, latam-gpt kuruluşu tarafından geliştirilen ve 2023 yılında yayınlanan, dil modellerine ince ayar yapmak için tasarlanmış İspanyolca bir veri kü...
Dataset
Türkçe Saldırgan Dil Veri Seti, Twitter'dan derlenen Türkçe metinlerden oluşan ve saldırgan dil ile nefret söylemi tespitine yönelik bir eğitim veri setidir....
Dataset
German Commons, coral-nlp ekibi tarafından geliştirilen ve yaklaşık 154 milyar token içeren büyük bir Almanca veri seti paketidir. Almanca dilinde büyük dil...
Dataset
BRAX, 2022 yılında yayımlanan ve PhysioNet’te barındırılan, büyük ölçekli bir Brezilya göğüs röntgeni veri setidir. Radyografik görüntüleri, tablolaştırılmış...
Dataset
Pirá, okyanus ve iklim bilimine odaklanan, Portekizce ve İngilizce olmak üzere iki dilli bir soru yanıtlama veri kümesidir. Paulo Pirozelli tarafından oluştu...
Dataset
evol-instruct-portuguese, FreedomIntelligence tarafından 2023 yılında geliştirilen ve Brezilya Portekizcesi dil modellerine ince ayar yapmayı amaçlayan konuş...
Dataset
ToLD-Br, Ağustos 2019’da toplanan yaklaşık 21.000 tweetten oluşan ve toksik dil tespiti ile çok etiketli sınıflandırma görevleri için tasarlanmış bir Brezily...
Dataset
Nemotron-Personas-Brezilya, Brezilya'daki gerçek demografik ve coğrafi dağılımlara dayanan, yapay olarak oluşturulmuş yaklaşık 6 milyon kişiden oluşan sentet...
Dataset
Bagaço, Avrupa Portekizcesi için bir ön eğitim metin veri setidir; yaklaşık 16 milyon doküman ve yaklaşık 9 milyar belirteçten oluşur. FineWeb2’den, .pt alan...
Dataset
Bu veri seti, XM tarafından Sinergox platformu aracılığıyla yayınlanan Kolombiya'daki Ulusal Elektrik Değişim Fiyatının geçmişini içerir. Kayıtlar saatlik fr...
Dataset
Bu veri kümesi, Latin Amerika popüler ve sosyal kültürleri hakkında bölgedeki 20 ülkeyi kapsayan 26.000'den fazla İspanyolca Wikipedia makalesinin meta veril...
Dataset
Pearl, Arap kültürel bağlamlarında büyük dilbilimsel modelleri ayarlamak ve değerlendirmek için tasarlanmış Arapça çok modlu bir veri kümesidir. Katar, Suudi...
Dataset
NRC-GAMMA, Kanada Ulusal Araştırma Konseyi tarafından 2021 yılında yayınlanan ve otomatik sayaç okumaya odaklanan bilgisayarla görme modellerini eğitmek için...
Dataset
Bu veri kümesi, FutureBeeAI tarafından oluşturulan ve Yugo platformu üzerinden toplanan; bankacılık, finansal hizmetler ve sigorta (BFSI) sektörünü kapsayan...
Dataset
OLID-BR (Portekizce Brezilya için Saldırgan Dil Tanımlama Veri Kümesi), 7.943 örnek içeren; YouTube, Twitter ve ilgili mevcut veri kümelerinden toplanarak 13...
Dataset
Human_vs_AI_Portuguese, Portekizce dilinde insan tarafından yazılmış ve yapay zekâ tarafından üretilmiş içerikleri ayırt edebilen modellerin eğitimini destek...
Dataset
CORAA, otomatik konuşma tanıma (ASR) sistemlerini eğitmek ve değerlendirmek için tasarlanmış, ölçek olarak büyük bir Brezilya Portekizcesi konuşma veri setid...
Dataset
Aroeira, Itau-Unibanco tarafından oluşturulmuş, öncelikle dil modellerini ön-eğitmek için tasarlanmış büyük ölçekli bir Portekizce metin veri kümesidir. Yakl...
Dataset
ClassiCC-PT, Common Crawl web verilerinden türetilmiş, Portekizce dilinde büyük ölçekli bir metin veri setidir; yaklaşık 106 milyon doküman ve yaklaşık 125 m...
Dataset
ExtraGLUE-Instruct, PORTULAN tarafından 2024 yılında oluşturulan Portekizce dilinde bir yönergeye dayalı ince ayar (instruction-tuning) veri kümesidir. Doğal...
Dataset
Jabuticaba, 2025 yılında büyük dil modellerini ön eğitmek için yayımlanan, temizlenmiş ve yinelenen içeriklerden arındırılmış 669 GB veriye yayılan 139 milya...
Dataset
DanNet, Danimarkaca WordNet’tir; adlandırılmış ilişkisel bağlantılar aracılığıyla kelimeleri ve anlamlarını düzenleyen, leksiko-semantik bir ağdır. Danimarka...
Dataset
Domsdatabasen.dk, 2022'nin başlarında başlatılan kamuya açık domsdatabasen.dk veri tabanından çıkarılan takma isimli Danimarka mahkeme kararlarından oluşan b...
Dataset
EpaDB, otomatik telaffuz sistemlerinin değerlendirilmesi ve eğitimi için tasarlanmış bir ses ve metin veri kümesidir. 16 kHz'de float32 formatında ses ile 50...
Dataset
PoliDriving, Ekvador'un Quito şehrinde toplanan ve CUV, van ve sedan olmak üzere üç tip araçta 5 farklı sürücü ile 18 saatlik sürüş sırasında elde edilen yak...
Dataset
Bu veri kümesi, büyük ölçekli dil modellerinin ön eğitimi için tasarlanmış yüksek kaliteli bir İspanyolca metin koleksiyonudur. Yaklaşık 129 milyon satır içe...
Dataset
FelipeGuerra tarafından oluşturulan ve 2023 yılında yayınlanan bu veri kümesi, siber zorbalık tespit modellerini eğitmek amacıyla sosyal medya platformlarınd...
Dataset
COLNER_Ollama, özellikle Kolombiya ile ilgili coğrafi varlıklara (LOC) odaklanarak, adlandırılmış varlık tanıma (NER) modellerinin eğitimi için tasarlanmış İ...
Dataset
PRISM Hizalama Veri Kümesi, yapay zeka hizalama araştırmalarını, tercih öğrenimini ve büyük dil modellerinin ince ayarını desteklemek için tasarlanmış büyük...
Dataset