Teuken-7B
Vstup
Výstup
Kategórie
Témy
Teuken-7B je jazykový model založený na transformeroch s 7 miliardami parametrov vyvinutý spoločnosťami OpenGPT-X a Fraunhofer IAIS v Nemecku, navrhnutý tak, aby podporoval všetkých 24 oficiálnych jazykov Európskej únie. Trénovaný od nuly s približne 50 % neanglických údajov na predtrénovanie je výrazne zameraný na viacjazyčné európske použitia, namiesto toho, aby sa spoliehal na prístupy k trénovaniu orientované na angličtinu, ktoré sú bežné v mnohých veľkých jazykových modeloch.
Model je dostupný v základných aj inštrukčne doladených variantoch, pričom verzie boli vydané pod licenciou Apache 2.0 na komerčné použitie, výskumnou licenciou na akademické účely a CC BY-NC 4.0 na nekomerčné aplikácie. Zamýšľané prípady použitia zahŕňajú generovanie s rozšírením o vyhľadávanie (retrieval-augmented generation), sumarizáciu dokumentov, generovanie textu, extrakciu informácií a konverzačné aplikácie, vďaka čomu je relevantný pre organizácie a vývojárov, ktorí pôsobia v viacjazyčných európskych kontextoch.
Teuken-7B: Zrenie európskeho suverénneho open-source LLM
V januári 2026 spoločnosť Deutsche Telekom oznámila projekt SOOFI, veľkú iniciatívu na vybudovanie nástupcu Teuken-7B s 100 miliardami parametrov. Tréning pre tento masívny nový model sa začína tento mesiac, v marci 2026, na systémoch Nvidia DGX B200. Ide o rýchly vývoj pre konzorcium OpenGPT-X. Od spustenia Teuken-7B koncom roku 2024 sa stal pilierom európskej digitálnej suverenity. Významní poskytovatelia cloudových služieb, vrátane IONOS, integrovali model do svojich AI hubov v roku 2025. Deutsche Telekom zároveň spustil prvé komerčné ponuky pre podniky založené na tomto modeli. Pre inžinierov strojového učenia zostáva Teuken-7B aj naďalej vysoko relevantným, pripraveným na produkciu modelom s 7 miliardami parametrov, optimalizovaným pre 24 oficiálnych jazykov Európskej únie.
Architektúra a metodika tréningu
Teuken-7B je veľký jazykový model typu transformer založený na dekodéri. Má kontextové okno s dĺžkou 4096 tokenov, 32 hláv pozornosti a Grouped Query Attention (GQA). Výskumníci model trénovali od začiatku na superpočítači JUWELS Booster vo Forschungszentrum Jülich pomocou GPU Nvidia A100.
Tréningové dátové sady odlišujú Teuken-7B od amerických konkurentov. Základný model (v0.4) pohltil 4 bilióny tokenov, zatiaľ čo aktualizovaný základný model v0.6 rozšíril toto množstvo na 6 biliónov tokenov. Na rozdiel od modelov, ktoré pridávajú viacjazyčné schopnosti prostredníctvom doškoľovania, je Teuken-7B prirodzene viacjazyčný. Jeho predtrénovací korpus obsahuje približne 50 % neanglického európskeho textu a 40 % anglického textu, spolu s kódom. Pre porovnanie, Meta Llama 3.1 8B obsahuje iba 8 % dát v neanglických jazykoch.
Aby tím OpenGPT-X dokázal tieto dáta spracovať efektívne, vybudoval vlastný viacjazyčný tokenizér. Tento tokenizér výrazne znižuje výpočtovú réžiu pre európske jazyky. Spracovanie nemeckého textu pomocou tokenizéra Teuken má len o 22 % vyššie náklady než spracovanie angličtiny, čo predstavuje obrovský nárast efektivity oproti štandardným tokenizérom orientovaným na angličtinu.
Výkon v benchmarkoch a kľúčové metriky
Teuken-7B poskytuje veľmi stabilný výkon naprieč jazykovými hranicami. Tím OpenGPT-X vyhodnocoval model pomocou European LLM Leaderboard, ktoré prekladá štandardné benchmarky ako ARC, HellaSwag, TruthfulQA a MMLU do 21 jazykov EÚ.
V hodnoteniach zameraných na inštrukcie si Teuken-7B vedie agresívne proti Mistral-7B-Instruct-v0.3 a Meta-Llama-3.1-8B-Instruct. Teuken-7B často prekonáva svoje rovesnícke modely v benchmarkoch HellaSwag a TruthfulQA pre európske jazyky. Ešte dôležitejšie je, že model vykazuje pozoruhodne nízku štandardnú odchýlku naprieč rôznymi jazykmi. To znamená, že prompt napísaný v bulharčine alebo rumunčine prináša rovnakú logickú konzistentnosť a presnosť ako prompt napísaný v angličtine alebo nemčine.
Stredoročné vydanie Teuken-7B v0.6 prinieslo v priemere 7 % nárast výkonu oproti pôvodnému vydaniu v0.4. Táto aktualizácia výrazne zlepšila robustnosť a spoľahlivosť vo všetkých testovaných jazykoch.
Podporované úlohy a modality
Teuken-7B je model typu text-to-text navrhnutý na integráciu do podnikov. Vyniká v Retrieval-Augmented Generation (RAG), sumarizácii dokumentov, extrakcii informácií a konverzačnej AI.
Keďže model prirodzene chápe európske kultúrne kontexty a administratívne nuansy, je mimoriadne účinný pre verejný sektor a vysoko regulované odvetvia. Deutsche Telekom v súčasnosti nasadzuje Teuken-7B na automatizáciu zdravotných plánov a spracovanie žiadostí o sociálne dávky občanov. Model sa priamo integruje do infraštruktúry Gaia-X, čím sa zabezpečuje, že citlivé firemné a vládne údaje sú v súlade s prísnymi európskymi predpismi na ochranu údajov.
Lincencie a možnosti prístupu
Konzorcium OpenGPT-X distribuuje Teuken-7B prostredníctvom Hugging Face a Ollama podľa stupňovitej licenčnej štruktúry, aby vyhovelo rôznym scenárom použitia:
- Teuken-7B-instruct-commercial: Vydaný pod benevolentnou licenciu Apache 2.0. Táto verzia je plne schválená pre nasadenie v podnikoch a komerčné aplikácie.
- Teuken-7B-instruct-research: Obmedzený na akademické a výskumné použitie. Dosahuje o niečo vyššie skóre v benchmarkoch (o 1–2 % lepšie), pretože obsahuje inštrukčno-doškoľovacie dátové sady, ktoré zakazujú komerčné použitie.
- Teuken-7B-base: Základný predtrénovaný model, dostupný pod licenciou CC BY-NC 4.0 pre nekomerčné doškoľovanie.
Suverénna alternatíva k AI
Pre tímy ML, ktoré vyvíjajú aplikácie pre európsky trh, Teuken-7B ponúka transparentnú open-source alternatívu k uzavretým komerčným API. Vyhýba sa kultúrnym a jazykovým predsudkom, ktoré sú vlastné modelom orientovaným na angličtinu ako východiskový jazyk. Keďže konzorcium OpenGPT-X tento rok presúva pozornosť na model SOOFI s 100 miliardami parametrov, 7B variant zostáva vysoko efektívnym, nákladovo efektívnym základom pre lokálne nasadenie a špecializované doškoľovanie.