DeepSeek V4 შესაძლოა უკვე იტესტება OpenRouter-ზე — "სტელს-მოდელს" 1 ტრილიონი პარამეტრი და 1M კონტექსტური ფანჯარა აქვს

11 მარტს OpenRouter-ის პლატფორმაზე ყოველგვარი ანონსის გარეშე გამოჩნდა ორი უფასო AI-მოდელი — Hunter Alpha და Healer Alpha. არც პრესრელიზი, არც პოსტი ბლოგში, არც დეველოპერის მითითება — მხოლოდ აღნიშვნა „სტელს-მოდელი“. ერთ კვირაში Hunter Alpha-მ 160 მილიარდზე მეტი ტოკენი დაამუშავა, დეველოპერების საზოგადოებაში კი დისკუსია გაჩაღდა: ხომ არ ტესტავს DeepSeek თავის მომავალი თაობის მოდელს პირდაპირ ყველას თვალწინ?

Hunter Alpha-ს გვერდზე მითითებულია, რომ ეს არის მოდელი 1 ტრილიონი პარამეტრით და 1 მილიონი ტოკენის მოცულობის კონტექსტური ფანჯრით, რომელიც გათვლილია აგენტურ გამოყენებაზე — გრძელვადიან დაგეგმვაზე, რთულ მსჯელობებსა და მრავალსაფეხურიანი ამოცანების შესრულებაზე. მისი კომპანიონი Healer Alpha პოზიციონირებს როგორც მულტიმოდალური მოდელი ტექსტის, გამოსახულებისა და აუდიოს მხარდაჭერით და 262 ათასი ტოკენის კონტექსტით — სავარაუდოდ, საუბარია მოდელის Lite-ვერსიაზე. როდესაც Reuters-ის ჟურნალისტებმა გატესტეს ჩატბოტი, მან საკუთარ თავს უწოდა “ჩინური AI-მოდელი, რომელიც ძირითადად ჩინურ ენაზეა გაწვრთნილი”, მონაცემების აქტუალობის თარიღად კი 2025 წლის მაისი დაასახელა, რაც ემთხვევა DeepSeek-ის წინა ვერსიების პარამეტრებს. შემქმნელის შესახებ კითხვაზე ბოტმა უპასუხა: “მე ვიცი მხოლოდ ჩემი სახელი, პარამეტრების რაოდენობა და კონტექსტური ფანჯრის სიგრძე”.

Hunter Alpha-ს მახასიათებლები ემთხვევა მოლოდინებს DeepSeek V4-ის მიმართ — მომავალი თაობის მოდელისა, რომლის გამოშვებასაც ჩინური მედია უკვე აპრილში პროგნოზირებს. AI-ინჟინერი დანიელ დიუჰერსტი, რომელმაც მოდელი გააანალიზა, მთავარ სიგნალად მსჯელობის ჯაჭვის (chain of reasoning) პატერნს მიიჩნევს: “მსჯელობის სტილის შენიღბვა რთულია — ის ასახავს იმას, თუ როგორ იწვრთნებოდა მოდელი”. გარდა ამისა, მომხმარებლებმა სისტემურ პრომპტებში აღმოაჩინეს ფრაზა “ჩინური კანონმდებლობის მკაცრად დაცვის” აუცილებლობის შესახებ — ეს ჩინური მოდელებისთვის დამახასიათებელი ტიპური მოთხოვნაა, რომელიც დასავლელ დეველოპერებს არ აქვთ. კიდევ ერთი მინიშნება: Hunter Alpha-ს გამოჩენამდე რამდენიმე დღით ადრე DeepSeek-ის საიტზე მცირე ხნით გაელვა V4 Lite ვერსიამ.

თუმცა, ყველა არ ეთანხმება ამ ვერსიას. უმურ ოზკული, რომელიც დამოუკიდებელ შეფასებებს ატარებს, მიიჩნევს, რომ Hunter Alpha, სავარაუდოდ, არ არის DeepSeek V4, და ამის მიზეზად ტოკენების ქცევასა და არქიტექტურულ პატერნებში არსებულ განსხვავებებს ასახელებს. ზოგიერთი ტესტერი აღნიშნავს უფრო ძლიერ ცენზურას და სუსტ მათემატიკას DeepSeek-ის წინა მოდელებთან შედარებით. არსებობს ალტერნატიული ჰიპოთეზაც: OpenRouter-ზე პროვაიდერის იმავე ანონიმურმა ანგარიშმა ადრე გამოუშვა Pony Alpha მოდელი, რომელიც ხუთი დღის შემდეგ Zhipu AI-ის GLM-5-ის ადრეული ვერსია აღმოჩნდა. ამიტომ, Hunter Alpha შესაძლოა იყოს Zhipu-ს შემდეგი მოდელი — GLM-6, ხოლო Healer Alpha — მისი მულტიმოდალური ვერსია.

ვინც არ უნდა აღმოჩნდეს ავტორი, ანონიმურმა გაშვებამ უკვე გამოიღო შედეგი: 160 მილიარდი ტოკენი ერთ კვირაში, ძირითადი ტრაფიკი ისეთი აგენტური ფრეიმვორკებიდან, როგორიცაა OpenClaw, და უფასო წვდომა ტრილიონი პარამეტრის მქონე მოდელზე გიგანტური კონტექსტური ფანჯრით — კომბინაცია, რომელსაც ინჟინერი ნაბილ ჰაუამი უპრეცედენტოს უწოდებს ფრონტირული კლასის მოდელებისთვის. მოდელის ყველა პრომპტი და პასუხი იწერება პროვაიდერის მიერ “მოდელის გასაუმჯობესებლად” — ეს სტელს-გაშვებების სტანდარტული პრაქტიკაა მიუკერძოებელი უკუკავშირის შესაგროვებლად.

DeepSeek V4 შესაძლოა უკვე იტესტება OpenRouter-ზე — “სტელს-მოდელს” 1 ტრილიონი პარამეტრი და 1M კონტექსტური ფანჯარა აქვს

გაზიარება:

Tags:

დაკავშირებული პოსტები

სემ ალტმანის პროექტი World ვერიფიკაციის ტექნოლოგიას გაცნობის აპლიკაციებში ნერგავს

CERN-ში მონაცემთა მასივების გასაფილტრად ჩიპებში ინტეგრირებულ სპეციალურ AI-მოდელებს იყენებენ

Anthropic: DeepSeek-ი, Moonshot-ი და MiniMax-ი ფარულად წვრთნიდნენ თავიანთ მოდელებს Claude-ის პასუხებზე

Google თავის საუკეთესო პროდუქტიულობის ინსტრუმენტებს ფასიანს ხდის

სტარტაპმა Taalas-მა ნეიროქსელი ჩიპში ჩააშენა და რეკორდული 17 000 ტოკენი წამში მიიღო

კომენტარები

ახალი კომენტარის დაწერა