Transformer 7B-13B CC-BY-SA 4.0 4K Yes
English

შეყვანა

text

გამოტანა

text

კატეგორიები

თემები

generative ainlp

StableLM Base Alpha 7B v2 არის ღია წვდომის (open-weights) ტრანსფორმერზე დაფუძნებული ენობრივი მოდელი, რომელიც შექმნილია Stability AI-ის მიერ და გამოქვეყნდა 2023 წლის აგვისტოში. ის შეიცავს 7 მილიარდ პარამეტრს და განკუთვნილია ტექსტის გენერაციის ამოცანებისთვის, კონტექსტის სიგრძით 4 096 ტოკენი.

მოდელი გაწვრთნილი იყო დაახლოებით 1,1 ტრილიონ ტოკენზე, რომლებიც აღებულია რამდენიმე დიდ მონაცემთა ნაკრებიდან, მათ შორის Falcon RefinedWeb, RedPajama-Data-1T, StarCoderData და სხვები; არქიტექტურული მახასიათებლებით, მათ შორის SwiGLU აქტივაციებითა და Rotary Position Embeddings (RoPE)-ით.

გამოშვებულია CC BY-SA 4.0 ლიცენზიით და განკუთვნილია მკვლევრებისთვის და დეველოპერებისთვის, რომლებიც ეძებენ ნებართვიანად ლიცენზირებულ საბაზისო მოდელს შემდგომი ფაინთიუნინგისთვის ან ექსპერიმენტებისთვის; ის ხელმისაწვდომია Hugging Face-ზე transformers ბიბლიოთეკის მეშვეობით.

ფონი და განვითარება

StableLM Base Alpha 7B v2 არის Stability AI-ის StableLM Base Alpha სერიის მეორე იტერაცია, რომელიც გამოვიდა 2023 წლის 4 აგვისტოს, ხოლო შემდგომი განახლება განხორციელდა 2023 წლის 11 სექტემბერს. Stability AI, აშშ-ში დაფუძნებული ხელოვნური ინტელექტის კომპანია, რომელიც ცნობილია ღია გენერაციულ მოდელებზე მუშაობით, ამ მოდელს ამზადებდა როგორც თავისი უფრო ფართო ძალისხმევის ნაწილი, რათა კვლევისა და დეველოპერების საზოგადოებისთვის ხელმისაწვდომი, ღიად ლიცენზირებული ენობრივი მოდელები მიეწოდებინა.

მოდელი აგებულია ტრანსფორმერის დეკოდერის არქიტექტურაზე 7 მილიარდი პარამეტრით, რაც მას საშუალო ზომის კატეგორიაში ათავსებს და შესაფერისია ექსპერიმენტებისა და ფაინთიუნინგისთვის ისე, რომ არ მოითხოვდეს უფრო დიდი მოდელების მიერ დაწესებულ გამოთვლით რესურსებს. იგი მხარს უჭერს 4,096 ტოკენის კონტექსტურ ფანჯარას და შექმნილია ექსკლუზიურად ინგლისურენოვანი ტექსტის გენერაციის ამოცანებისთვის.

არქიტექტურა და სწავლება

StableLM Base Alpha 7B v2 იყენებს რამდენიმე არქიტექტურულ გადაწყვეტილებას, რომელიც დამახასიათებელია თანამედროვე დიდი ენობრივი მოდელებისთვის. მისი ძირითადი სტრუქტურული მახასიათებლებია:

  • 32 ტრანსფორმერის ფენა 4,096 დამალული ზომით
  • 32 ყურადღების თავი
  • SwiGLU აქტივაციის ფუნქცია, რომელიც ნაჩვენებია, რომ აუმჯობესებს სასწავლო ეფექტიანობას შედარებად მოდელებში
  • Rotary Position Embeddings (RoPE) პოზიციური ინფორმაციის კოდირებისთვის

მოდელი გაწვრთნილი იქნა დაახლოებით 1.1 ტრილიონ ტოკენზე, რომელიც მიღებულია დიდი, საჯაროდ ხელმისაწვდომი მონაცემთა ნაკრების კომბინაციიდან. მათ შორისაა Falcon RefinedWeb, RedPajama-Data-1T, CarperAI-ის PILEv2, BigCode-ის StarCoderData და MiniPile. StarCoderData-ის ჩართვა ნიშნავს, რომ მოდელს აქვს პროგრამირებასთან დაკავშირებული კონტენტის ზემოქმედება ზოგად ტექსტთან ერთად, რაც აფართოებს მის პოტენციურ გამოყენებადობას მხოლოდ ბუნებრივი ენის ამოცანების მიღმა.

ლიცენზირება და ხელმისაწვდომობა

StableLM Base Alpha 7B v2 გამოშვებულია Creative Commons Attribution-ShareAlike 4.0 (CC BY-SA 4.0) ლიცენზიით. ეს შედარებით შემწყნარებელი ლიცენზიაა მისი მასშტაბის მოდელისთვის, რაც მომხმარებლებს საშუალებას აძლევს გამოიყენონ, შეცვალონ და გადაანაწილონ მოდელი იმ პირობით, რომ მითითებულია ავტორობა და წარმოებული ნამუშევრები გაზიარებულია იმავე ლიცენზიით. ლიცენზირების ეს მიდგომა განასხვავებს მას ზოგიერთი იმდროინდელი მოდელისგან, რომლებიც უფრო მკაცრ გამოყენების პირობებს აწესებენ.

მოდელის წონები საჯაროდ ხელმისაწვდომია Hugging Face-ზე იდენტიფიკატორით stabilityai/stablelm-base-alpha-7b-v2 და თავსებადია Hugging Face-ის transformers ბიბლიოთეკასთან, რაც ამცირებს ბარიერს წვდომისთვის იმ პრაქტიკოსებისთვის, რომლებიც უკვე მუშაობენ ამ ეკოსისტემაში. ხელმისაწვდომ მონაცემებზე დაყრდნობით, მოდელმა პლატფორმაზე დააგროვა დაახლოებით 79,000 ჩამოტვირთვა.

დანიშნულება და მოსაზრებები

როგორც საბაზო მოდელი, StableLM Base Alpha 7B v2 არ არის ინსტრუქციებზე მორგებული ან გასწორებული საუბრისთვის „გამოსაყენებლად მზა“ სახით. იგი ძირითადად განკუთვნილია როგორც საფუძველი შემდგომი ფაინთიუნინგისთვის, რათა მკვლევრებმა და დეველოპერებმა შეძლონ მისი ადაპტირება კონკრეტულ ქვედა დონის ამოცანებზე, როგორიცაა ტექსტის შევსების (completion) მილსადენები, შეჯამების პროცესები ან დომენზე სპეციფიკური აპლიკაციები. Stability AI-მ ცალკე გამოუშვა ინსტრუქციებზე მორგებული ვარიანტები იმ მომხმარებლებისთვის, რომლებიც ეძებენ უფრო მყისიერად ინტერაქტიულ მოდელს.

მოდელის ღია-წონიანი ბუნება და შემწყნარებელი ლიცენზირება მას სიცოცხლისუნარიან ვარიანტად აქცევს აკადემიური კვლევისთვის, პროტოტიპირებისთვის და კომერციული ფაინთიუნინგის პროექტებისთვის, სადაც გამჭვირვალობა და წონებზე წვდომა პრიორიტეტებია. თუმცა, როგორც ყველა საბაზო ენობრივ მოდელთან, რომელიც სწავლობს დიდ ვებ-საფუძველზე აგებულ კორპუსებზე, გამოსვლები შესაძლოა ასახავდეს მიკერძოებებს, რომლებიც არსებობს ძირეულ სასწავლო მონაცემებში, ამიტომ რეკომენდებულია შესაბამისი შეფასება და უსაფრთხოების ზომები ნებისმიერი წარმოების კონტექსტში განთავსებამდე.

ანგარიში