Meta-მ გამოუშვა Llama 4, ხელოვნური ინტელექტის ფლაგმანური მოდელების ახალი სერია

კომპანია Meta-მ გამოუშვა ხელოვნური ინტელექტის მოდელების ახალი კოლექცია Llama 4, Llama-ს ოჯახიდან – და ეს შაბათს მოხდა. სულ ოთხი ახალი მოდელია: Llama 4 Scout, Llama 4 Maverick და Llama 4 Behemoth. ყველა მათგანი გაწვრთნილი იყო „არამარკირებული ტექსტური, გრაფიკული და ვიდეო მონაცემების დიდ მოცულობაზე“, რათა მათთვის მიეცათ „ფართო ვიზუალური გაგება“, ამბობს Meta.

არსებული ინფორმაციით, ჩინური ხელოვნური ინტელექტის ლაბორატორია DeepSeek-ის ღია მოდელების წარმატებამ, რომლებიც Meta-ს წინა ფლაგმანური Llama მოდელების დონეზე ან უკეთესად მუშაობენ, Llama-ს განვითარება აიძულა დაჩქარებულიყო. ამბობენ, რომ Meta-მ სამხედრო ოთახები მოაწყო, რათა გაერკვია, როგორ შეამცირა DeepSeek-მა ისეთი მოდელების გაშვებისა და განლაგების ღირებულება, როგორიცაა R1 და V3.

Scout და Maverick ღია წვდომით არის ხელმისაწვდომი Llama.com-ზე და Meta-ს პარტნიორებთან, მათ შორის AI-ს განვითარების პლატფორმა Hugging Face-თან, ხოლო Behemoth ჯერ კიდევ სწავლის პროცესშია. Meta იუწყება, რომ Meta AI, მისი AI-ზე დაფუძნებული ასისტენტი აპლიკაციებში, WhatsApp, Messenger და Instagram-ის ჩათვლით, განახლდა Llama 4-ის გამოსაყენებლად 40 ქვეყანაში. მულტიმოდალური ფუნქციები ამ დროისთვის შეერთებული შტატებით შემოიფარგლება ინგლისურ ენაზე.

ზოგიერთ დეველოპერს შესაძლოა პრობლემები შეექმნას Llama 4-ის ლიცენზიასთან დაკავშირებით. მომხმარებლებსა და კომპანიებს, რომლებიც „ცხოვრობენ“ ან აქვთ „ბიზნესის ძირითადი ადგილი“ ევროკავშირში, ეკრძალებათ მოდელების გამოყენება ან გავრცელება, რაც, სავარაუდოდ, არის AI-ს და მონაცემთა კონფიდენციალურობის შესახებ რეგიონული კანონებით დაწესებული მართვის მოთხოვნების შედეგი. (წარსულში Meta გმობდა ამ კანონებს, როგორც ზედმეტად დამამძიმებელს.) გარდა ამისა, როგორც Llama-ს წინა გამოშვებების შემთხვევაში, კომპანიებმა, რომლებსაც თვეში 700 მილიონზე მეტი აქტიური მომხმარებელი ჰყავთ, Meta-სგან სპეციალური ლიცენზია უნდა მოითხოვონ, რომლის გაცემა ან უარყოფა Meta-ს შეუძლია საკუთარი შეხედულებისამებრ.

“ეს Llama 4 მოდელები აღნიშნავს ახალი ეპოქის დასაწყისს Llama-ს ეკოსისტემისთვის”, – წერს Meta თავის ბლოგში. “ეს მხოლოდ დასაწყისია Llama 4-ის კოლექციისთვის.”

Meta ამტკიცებს, რომ Llama 4 არის მოდელების პირველი კოჰორტა, რომელიც იყენებს შერეული ექსპერტების (MoE) არქიტექტურას, რომელიც უფრო ეფექტურია გამოთვლების თვალსაზრისით სწავლებისა და მოთხოვნებზე პასუხის გასაცემად. MoE არქიტექტურები ძირითადად ყოფს მონაცემთა დამუშავების ამოცანებს ქვეამოცანებად და შემდეგ დელეგირებას უკეთებენ მათ სპეციალიზებულ “ექსპერტ” მოდელებს.

მაგალითად, Maverick-ს აქვს მხოლოდ 400 მილიარდი პარამეტრი, მაგრამ მხოლოდ 17 მილიარდი აქტიური პარამეტრი 128 „ექსპერტს“ შორის. (პარამეტრები დაახლოებით შეესაბამება მოდელის პრობლემების გადაჭრის უნარებს.) Scout-ს აქვს 17 მილიარდი აქტიური პარამეტრი, 16 ექსპერტი და 109 მილიარდი საერთო პარამეტრი.

Meta-ს შიდა ტესტირების თანახმად, Maverick, რომელიც, კომპანიის თქმით, საუკეთესოდ შეეფერება “საერთო ასისტენტს და ჩეთს”, მაგალითად, შემოქმედებით წერას, აჭარბებს ისეთ მოდელებს, როგორიცაა OpenAI GPT-4o და Google Gemini 2.0, ზოგიერთი კოდირების, მსჯელობის, მრავალენოვნების, გრძელი კონტექსტისა და სურათების მაჩვენებლებით. თუმცა, Maverick ჩამორჩება უფრო ეფექტურ ბოლო მოდელებს, როგორიცაა Google Gemini 2.5 Pro, Anthropic Claude 3.7 Sonnet და OpenAI GPT-4.5.

Scout-ის ძლიერი მხარე მდგომარეობს ისეთ ამოცანებში, როგორიცაა დოკუმენტების შეჯამება და მსჯელობა დიდი კოდების ბაზების მიხედვით. უნიკალურია ის, რომ მას აქვს ძალიან დიდი კონტექსტური ფანჯარა: 10 მილიონი ტოკენი. („ტოკენები“ წარმოადგენს უმი ტექსტის ფრაგმენტებს — მაგალითად, სიტყვა „fantastic“ იყოფა „fan“, „tas“ და „tic“.) მარტივად რომ ვთქვათ, Scout-ს შეუძლია აღიქვას სურათები და მილიონამდე სიტყვა, რაც მას საშუალებას აძლევს დაამუშაოს და იმუშაოს უკიდურესად გრძელ დოკუმენტებთან.

Meta-ს გათვლებით, Scout-ს შეუძლია იმუშაოს ერთ Nvidia H100 გრაფიკულ პროცესორზე, მაშინ როდესაც Maverick-ს სჭირდება Nvidia H100 DGX სისტემა ან ექვივალენტი.

Meta-ს გამოუშვებელ Behemoth-ს კიდევ უფრო მძლავრი აპარატურა დასჭირდება. კომპანიის მონაცემებით, Behemoth-ს აქვს 288 მილიარდი აქტიური პარამეტრი, 16 ექსპერტი და თითქმის ორი ტრილიონი საერთო პარამეტრი. Meta-ს შიდა ბენჩმარკინგმა აჩვენა, რომ Behemoth აღემატება GPT-4.5-ს, Claude 3.7 Sonnet-სა და Gemini 2.0 Pro-ს (მაგრამ არა 2.5 Pro-ს) რამდენიმე შეფასებით, რომლებიც ზომავენ STEM-ის უნარებს, როგორიცაა მათემატიკური ამოცანების გადაჭრა.

აღსანიშნავია, რომ Llama 4-ის არცერთი მოდელი არ არის სრულფასოვანი „მსჯელობის“ მოდელი OpenAI-ს o1-ისა და o3-mini-ის ტიპის. მსჯელობის მოდელები ამოწმებენ ფაქტებს თავიანთ პასუხებში და, როგორც წესი, უფრო საიმედოდ პასუხობენ კითხვებს, მაგრამ, შედეგად, მათ უფრო მეტი დრო სჭირდებათ, ვიდრე ტრადიციულ „არამსჯელობის“ მოდელებს პასუხების გასაცემად.

საინტერესოა, რომ Meta ამბობს, რომ Llama 4-ის ყველა მოდელი დაარეგულირა ისე, რომ ნაკლებად თქვან უარი „საკამათო“ კითხვებზე პასუხის გაცემაზე. კომპანიის თქმით, Llama 4 პასუხობს „განხილვად“ პოლიტიკურ და სოციალურ თემებზე, რომლებზეც Llama-ს წინა მოდელები არ რეაგირებდნენ. გარდა ამისა, კომპანია ამბობს, რომ Llama 4 არის „მნიშვნელოვნად უფრო დაბალანსებული“ და მოთხოვნის შემთხვევაში აშკარად არ გაერთობა.

“თქვენ შეგიძლიათ დაეყრდნოთ Llama 4-ს, რომ მიიღოთ სასარგებლო, ფაქტობრივი პასუხები განსჯის გარეშე”, – განუცხადა Meta-ს წარმომადგენელმა TechCrunch-ს. „ჩვენ ვაგრძელებთ Llama-ს უფრო მეტად რეაგირებას, რათა მან უპასუხოს უფრო მეტ კითხვას, შეძლოს სხვადასხვა თვალსაზრისის გათვალისწინება და არ მიანიჭოს უპირატესობა ერთ თვალსაზრისს მეორეზე.“

ეს ცვლილებები მოხდა თეთრი სახლის ზოგიერთი მოკავშირის ბრალდებების ფონზე, რომ ხელოვნურ ინტელექტზე დაფუძნებული ჩეთბოტები ძალიან „გაღვიძებულნი“ არიან პოლიტიკურად.

პრეზიდენტ დონალდ ტრამპის ბევრმა გარემოცვამ, მათ შორის მილიარდერმა ილონ მასკმა და „კრიპტოვალუტის მეფემ“ და AI დევიდ საქსმა, განაცხადეს, რომ პოპულარული AI ჩეთბოტები ცენზურას უწევენ კონსერვატიულ შეხედულებებს. საქსმა ისტორიულად გამოყო OpenAI-ს ChatGPT, როგორც „პროგრამირებული გასაღვიძებლად“ და მატყუარად პოლიტიკურ საკითხებში.

სინამდვილეში, AI-ში მიკერძოებულობა გადაუჭრელი ტექნიკური პრობლემაა. მასკის საკუთარი AI კომპანია, xAI, ყველანაირად ცდილობდა შეექმნა ჩეთბოტი, რომელიც არ დაუჭერდა მხარს ზოგ პოლიტიკურ შეხედულებას სხვის საზიანოდ. ამან ხელი არ შეუშალა კომპანიებს, მათ შორის OpenAI-ს, შეესწორებინათ თავიანთი AI მოდელები, რათა ეპასუხათ უფრო მეტ კითხვაზე, ვიდრე ადრე, კერძოდ, საკითხებზე, რომლებიც საკამათო თემებს ეხებოდა.

Meta-მ გამოუშვა Llama 4, ხელოვნური ინტელექტის ფლაგმანური მოდელების ახალი სერია

გაზიარება:

Tags:

დაკავშირებული პოსტები

ათეისტი ევოლუციონისტი მეცნიერი Anthropic-ის Claude-ს 72 საათის განმავლობაში ესაუბრა და ახლა სჯერა, რომ ის ცნობიერია

სემ ალტმანის პროექტი World ვერიფიკაციის ტექნოლოგიას გაცნობის აპლიკაციებში ნერგავს

CERN-ში მონაცემთა მასივების გასაფილტრად ჩიპებში ინტეგრირებულ სპეციალურ AI-მოდელებს იყენებენ

Anthropic: DeepSeek-ი, Moonshot-ი და MiniMax-ი ფარულად წვრთნიდნენ თავიანთ მოდელებს Claude-ის პასუხებზე

Google თავის საუკეთესო პროდუქტიულობის ინსტრუმენტებს ფასიანს ხდის

კომენტარები

ახალი კომენტარის დაწერა