Teuken-7B

Teuken-7B: ევროპის სუვერენული ღია კოდის LLM სრულყოფილდება

2026 წლის იანვარში Deutsche Telekom-მა გამოაცხადა SOOFI პროექტი — მასშტაბური ინიციატივა, რომლის მიზანია Teuken-7B-ის 100-მილიარდპარამეტრიანი მემკვიდრის შექმნა. ამ უზარმაზარი ახალი მოდელის გაწვრთნა იწყება მიმდინარე თვეში, 2026 წლის მარტში, Nvidia DGX B200 სისტემებზე. ეს OpenGPT-X კონსორციუმისთვის სწრაფ ევოლუციას აღნიშნავს. მას შემდეგ, რაც Teuken-7B 2024 წლის ბოლოს გაეშვა, ის ევროპული ციფრული სუვერენიტეტის ერთ-ერთ საყრდენად იქცა. მსხვილმა cloud პროვაიდერებმა, მათ შორის IONOS-მა, 2025 წელს მოდელი თავიანთ AI ჰაბებში ინტეგრირეს. Deutsche Telekom-მა ასევე გაუშვა მოდელზე დაფუძნებული პირველი კომერციული enterprise შეთავაზებები. მანქანური სწავლების ინჟინრებისთვის Teuken-7B კვლავაც მეტად რელევანტური, production-ready 7-მილიარდპარამეტრიანი მოდელია, რომელიც ოპტიმიზებულია ევროკავშირის 24 ოფიციალური ენისთვის.

არქიტექტურა და გაწვრთნის მეთოდოლოგია

Teuken-7B არის transformer-ზე დაფუძნებული, მხოლოდ decoder-ის ტიპის დიდი ენობრივი მოდელი. მას აქვს 4096-ტოკენიანი კონტექსტური ფანჯარა, 32 attention head და Grouped Query Attention (GQA). მკვლევრებმა მოდელი ნულიდან გაწვრთნეს Forschungszentrum Jülich-ის JUWELS Booster სუპერკომპიუტერზე Nvidia A100 GPU-ების გამოყენებით.

სასწავლო მონაცემები Teuken-7B-ს ამერიკელი კონკურენტებისგან მკაფიოდ განასხვავებს. საბაზისო მოდელმა (v0.4) 4 ტრილიონი ტოკენი შეითვისა, ხოლო განახლებულმა v0.6 საბაზისო მოდელმა ეს მოცულობა 6 ტრილიონ ტოკენამდე გაზარდა. იმ მოდელებისგან განსხვავებით, რომლებიც მრავალენოვან შესაძლებლობებს fine-tuning-ის გზით ამატებენ, Teuken-7B ბუნებრივად მრავალენოვანია. მისი pre-training კორპუსი დაახლოებით 50% არაინგლისურ ევროპულ ტექსტს და 40% ინგლისურ ტექსტს შეიცავს, კოდთან ერთად. შედარებისთვის, Meta-ს Llama 3.1 8B მხოლოდ 8% არაინგლისურ მონაცემებს შეიცავს.

ამ მონაცემების ეფექტიანად დასამუშავებლად OpenGPT-X გუნდმა შექმნა სპეციალური მრავალენოვანი tokenizer. ეს tokenizer ევროპული ენებისთვის გამოთვლით დანახარჯს მკვეთრად ამცირებს. Teuken tokenizer-ით გერმანული ტექსტის დამუშავება ინგლისურთან შედარებით მხოლოდ 22%-იან დამატებით დანახარჯს მოითხოვს, რაც სტანდარტულ, ინგლისურზე ორიენტირებულ tokenizer-ებთან შედარებით ეფექტიანობის უზარმაზარი გაუმჯობესებაა.

ბენჩმარკების შედეგები და ძირითადი მეტრიკები

Teuken-7B ენობრივ საზღვრებს მიღმაც ძალიან სტაბილურ შედეგებს აჩვენებს. OpenGPT-X გუნდმა მოდელი შეაფასა European LLM Leaderboard-ის გამოყენებით, რომელიც ARC, HellaSwag, TruthfulQA და MMLU-ის მსგავს სტანდარტულ ბენჩმარკებს ევროკავშირის 21 ენაზე თარგმნის.

instruction-tuned შეფასებებში Teuken-7B აქტიურად ეჯიბრება Mistral-7B-Instruct-v0.3-სა და Meta-Llama-3.1-8B-Instruct-ს. ევროპული ენებისთვის HellaSwag-ისა და TruthfulQA-ის ბენჩმარკებში Teuken-7B ხშირად სჯობნის თავის ანალოგებს. კიდევ უფრო მნიშვნელოვანია, რომ მოდელი სხვადასხვა ენაზე საოცრად დაბალ სტანდარტულ გადახრას ავლენს. ეს ნიშნავს, რომ ბულგარულად ან რუმინულად დაწერილი prompt ისეთივე ლოგიკურ თანმიმდევრულობასა და სიზუსტეს იძლევა, როგორსაც ინგლისურად ან გერმანულად დაწერილი prompt.

2025 წლის შუა პერიოდში გამოშვებულმა Teuken-7B v0.6-მა თავდაპირველ v0.4 ვერსიასთან შედარებით საშუალოდ 7%-იანი წარმადობის ზრდა მოიტანა. ამ განახლებამ მნიშვნელოვნად გააუმჯობესა მდგრადობა და სანდოობა ყველა ტესტირებულ ენაზე.

მხარდაჭერილი ამოცანები და მოდალობები

Teuken-7B არის text-to-text მოდელი, რომელიც enterprise ინტეგრაციისთვისაა შექმნილი. ის გამოირჩევა Retrieval-Augmented Generation (RAG)-ში, დოკუმენტების შეჯამებაში, ინფორმაციის ამოღებასა და conversational AI-ში.

რადგან მოდელს ბუნებრივად ესმის ევროპული კულტურული კონტექსტები და ადმინისტრაციული ნიუანსები, ის განსაკუთრებით ეფექტიანია საჯარო სექტორისა და მკაცრად რეგულირებული ინდუსტრიებისთვის. Deutsche Telekom ამჟამად Teuken-7B-ს იყენებს სამედიცინო გეგმების ავტომატიზაციისა და მოქალაქეთა სოციალური დახმარების განაცხადების დასამუშავებლად. მოდელი პირდაპირ ინტეგრირდება Gaia-X ინფრასტრუქტურასთან, რაც უზრუნველყოფს, რომ მგრძნობიარე კორპორაციული და სამთავრობო მონაცემები ევროპული მონაცემთა დაცვის მკაცრ რეგულაციებთან შესაბამისობაში იყოს.

ლიცენზირება და წვდომის ვარიანტები

OpenGPT-X კონსორციუმი Teuken-7B-ს Hugging Face-ისა და Ollama-ს მეშვეობით ავრცელებს, საფეხურებრივი სალიცენზიო სტრუქტურით, რათა სხვადასხვა გამოყენების შემთხვევა დაფაროს:

Teuken-7B-instruct-commercial: გამოშვებულია მოქნილი Apache 2.0 ლიცენზიით. ეს ვერსია სრულად დამტკიცებულია enterprise დანერგვისა და კომერციული გამოყენებისთვის.
Teuken-7B-instruct-research: შეზღუდულია აკადემიური და კვლევითი გამოყენებით. ის ოდნავ უფრო მაღალ ბენჩმარკ შედეგებს აღწევს (1-2%-ით უკეთესს), რადგან მოიცავს instruction-tuning მონაცემთა ნაკრებებს, რომლებიც კომერციულ გამოყენებას კრძალავს.
Teuken-7B-base: ფუნდამენტური წინასწარ გაწვრთნილი მოდელი, ხელმისაწვდომია CC BY-NC 4.0 ლიცენზიით არაკომერციული fine-tuning-ისთვის.

სუვერენული AI ალტერნატივა

ევროპული ბაზრისთვის აპლიკაციების შემქმნელი ML გუნდებისთვის Teuken-7B წარმოადგენს გამჭვირვალე, ღია კოდის ალტერნატივას black-box კომერციული API-ების მიმართ. ის თავს არიდებს იმ კულტურულ და ენობრივ მიკერძოებებს, რომლებიც ინგლისურზე ორიენტირებულ მოდელებს ახასიათებს. მაშინ, როცა OpenGPT-X კონსორციუმი წელს ყურადღებას 100-მილიარდპარამეტრიან SOOFI მოდელზე გადააქვს, 7B ვარიანტი კვლავაც რჩება მეტად ეფექტიან და ხარჯთეფექტურ საფუძვლად ლოკალური დანერგვისა და სპეციალიზებული fine-tuning-ისთვის.

შეყვანა

გამოტანა

კატეგორიები

თემები