Teuken-7B

Teuken-7B: Zrenie európskeho suverénneho open-source LLM

V januári 2026 spoločnosť Deutsche Telekom oznámila projekt SOOFI, veľkú iniciatívu na vybudovanie nástupcu Teuken-7B s 100 miliardami parametrov. Tréning pre tento masívny nový model sa začína tento mesiac, v marci 2026, na systémoch Nvidia DGX B200. Ide o rýchly vývoj pre konzorcium OpenGPT-X. Od spustenia Teuken-7B koncom roku 2024 sa stal pilierom európskej digitálnej suverenity. Významní poskytovatelia cloudových služieb, vrátane IONOS, integrovali model do svojich AI hubov v roku 2025. Deutsche Telekom zároveň spustil prvé komerčné ponuky pre podniky založené na tomto modeli. Pre inžinierov strojového učenia zostáva Teuken-7B aj naďalej vysoko relevantným, pripraveným na produkciu modelom s 7 miliardami parametrov, optimalizovaným pre 24 oficiálnych jazykov Európskej únie.

Architektúra a metodika tréningu

Teuken-7B je veľký jazykový model typu transformer založený na dekodéri. Má kontextové okno s dĺžkou 4096 tokenov, 32 hláv pozornosti a Grouped Query Attention (GQA). Výskumníci model trénovali od začiatku na superpočítači JUWELS Booster vo Forschungszentrum Jülich pomocou GPU Nvidia A100.

Tréningové dátové sady odlišujú Teuken-7B od amerických konkurentov. Základný model (v0.4) pohltil 4 bilióny tokenov, zatiaľ čo aktualizovaný základný model v0.6 rozšíril toto množstvo na 6 biliónov tokenov. Na rozdiel od modelov, ktoré pridávajú viacjazyčné schopnosti prostredníctvom doškoľovania, je Teuken-7B prirodzene viacjazyčný. Jeho predtrénovací korpus obsahuje približne 50 % neanglického európskeho textu a 40 % anglického textu, spolu s kódom. Pre porovnanie, Meta Llama 3.1 8B obsahuje iba 8 % dát v neanglických jazykoch.

Aby tím OpenGPT-X dokázal tieto dáta spracovať efektívne, vybudoval vlastný viacjazyčný tokenizér. Tento tokenizér výrazne znižuje výpočtovú réžiu pre európske jazyky. Spracovanie nemeckého textu pomocou tokenizéra Teuken má len o 22 % vyššie náklady než spracovanie angličtiny, čo predstavuje obrovský nárast efektivity oproti štandardným tokenizérom orientovaným na angličtinu.

Výkon v benchmarkoch a kľúčové metriky

Teuken-7B poskytuje veľmi stabilný výkon naprieč jazykovými hranicami. Tím OpenGPT-X vyhodnocoval model pomocou European LLM Leaderboard, ktoré prekladá štandardné benchmarky ako ARC, HellaSwag, TruthfulQA a MMLU do 21 jazykov EÚ.

V hodnoteniach zameraných na inštrukcie si Teuken-7B vedie agresívne proti Mistral-7B-Instruct-v0.3 a Meta-Llama-3.1-8B-Instruct. Teuken-7B často prekonáva svoje rovesnícke modely v benchmarkoch HellaSwag a TruthfulQA pre európske jazyky. Ešte dôležitejšie je, že model vykazuje pozoruhodne nízku štandardnú odchýlku naprieč rôznymi jazykmi. To znamená, že prompt napísaný v bulharčine alebo rumunčine prináša rovnakú logickú konzistentnosť a presnosť ako prompt napísaný v angličtine alebo nemčine.

Stredoročné vydanie Teuken-7B v0.6 prinieslo v priemere 7 % nárast výkonu oproti pôvodnému vydaniu v0.4. Táto aktualizácia výrazne zlepšila robustnosť a spoľahlivosť vo všetkých testovaných jazykoch.

Podporované úlohy a modality

Teuken-7B je model typu text-to-text navrhnutý na integráciu do podnikov. Vyniká v Retrieval-Augmented Generation (RAG), sumarizácii dokumentov, extrakcii informácií a konverzačnej AI.

Keďže model prirodzene chápe európske kultúrne kontexty a administratívne nuansy, je mimoriadne účinný pre verejný sektor a vysoko regulované odvetvia. Deutsche Telekom v súčasnosti nasadzuje Teuken-7B na automatizáciu zdravotných plánov a spracovanie žiadostí o sociálne dávky občanov. Model sa priamo integruje do infraštruktúry Gaia-X, čím sa zabezpečuje, že citlivé firemné a vládne údaje sú v súlade s prísnymi európskymi predpismi na ochranu údajov.

Lincencie a možnosti prístupu

Konzorcium OpenGPT-X distribuuje Teuken-7B prostredníctvom Hugging Face a Ollama podľa stupňovitej licenčnej štruktúry, aby vyhovelo rôznym scenárom použitia:

Teuken-7B-instruct-commercial: Vydaný pod benevolentnou licenciu Apache 2.0. Táto verzia je plne schválená pre nasadenie v podnikoch a komerčné aplikácie.
Teuken-7B-instruct-research: Obmedzený na akademické a výskumné použitie. Dosahuje o niečo vyššie skóre v benchmarkoch (o 1–2 % lepšie), pretože obsahuje inštrukčno-doškoľovacie dátové sady, ktoré zakazujú komerčné použitie.
Teuken-7B-base: Základný predtrénovaný model, dostupný pod licenciou CC BY-NC 4.0 pre nekomerčné doškoľovanie.

Suverénna alternatíva k AI

Pre tímy ML, ktoré vyvíjajú aplikácie pre európsky trh, Teuken-7B ponúka transparentnú open-source alternatívu k uzavretým komerčným API. Vyhýba sa kultúrnym a jazykovým predsudkom, ktoré sú vlastné modelom orientovaným na angličtinu ako východiskový jazyk. Keďže konzorcium OpenGPT-X tento rok presúva pozornosť na model SOOFI s 100 miliardami parametrov, 7B variant zostáva vysoko efektívnym, nákladovo efektívnym základom pre lokálne nasadenie a špecializované doškoľovanie.

Vstup

Výstup

Kategórie

Témy