OpenAI-მ გამოუშვა GPT-4.5, როგორც „კვლევის გადახედვა“. ახალი ენობრივი მოდელი უფრო ბუნებრივი უნდა იყოს, მაგრამ ის მნიშვნელოვნად უფრო ძვირია, ვიდრე მისი წინამორბედები.

OpenAI-მ გამოუშვა GPT-4.5, როგორც “კვლევის წინასწარი გადახედვა” და მას უწოდა მისი უდიდესი და საუკეთესო მოდელი ჩატისთვის. ახალი მოდელი თავდაპირველად ხელმისაწვდომია ChatGPT Pro-ს მომხმარებლებისთვის და დეველოპერებისთვის, ხოლო Plus და Team მომხმარებლები მიიღებენ წვდომას მომავალ კვირას.
GPT-4.5 წარმოადგენს „უკონტროლო სწავლების“ ევოლუციას და არა o1 სერიის „მსჯელობის“ მიდგომას. მიუხედავად იმისა, რომ მოდელები, როგორიცაა o1 და o3-mini, პასუხის გაცემამდე ფიქრობენ მსჯელობით, GPT-4.5 პასუხობს პირდაპირ, როგორც კლასიკური დიდი ენობრივი მოდელი, რომელიც აღწევს მუშაობის გაუმჯობესებას წინასწარი სწავლის საშუალებით ტრადიციული მასშტაბირებით.
ამის შესამოწმებლად, შეგიძლიათ გადახვიდეთ BotHub-ის პლატფორმაზე რეფერალური ბმულის საშუალებით და გამოსცადოთ მოდელი.
OpenAI-ს თანახმად, GPT-4.5 (ასევე ცნობილი როგორც Orion) არის კომპანიის ყველაზე დიდი მოდელი დღემდე და, OpenAI-ს მკვლევარის რაფა გონტიხო ლოპესის თქმით, კომპანიამ “ალბათ გაწვრთნა მსოფლიოში ყველაზე დიდი მოდელი”. ამავდროულად, კომპანია თავის სისტემურ ბარათში ხაზს უსვამს, რომ GPT-4.5 არ არის „საზღვრისპირა მოდელი“. სავარაუდოდ, ეს გამოწვეულია იმით, რომ კომპანიამ გაწვრთნა o3 – მოდელი, რომელიც მნიშვნელოვნად აღემატება GPT-4.5-ს ბევრ სფეროში.
ფასი ასახავს გამოთვლით მოთხოვნებს: 75 დოლარი მილიონ შეყვანის ტოკენზე და 150 დოლარი მილიონ გამომავალ ტოკენზე, GPT-4.5 მნიშვნელოვნად უფრო ძვირია, ვიდრე GPT-4o (2.50$/10$) ან o1 (15$/60$). ამიტომ გუნდი დარწმუნებული არ არის, იქნება თუ არა მოდელი შემოთავაზებული API-ს საშუალებით ამ ფორმით გრძელვადიან პერსპექტივაში. მისი წინამორბედის მსგავსად, მას აქვს კონტექსტის სიგრძე 128000 ტოკენი.
OpenAI თვლის, რომ მსჯელობა გახდება მომავალი მოდელების ძირითადი შესაძლებლობა და რომ მასშტაბირების ორი მიდგომა – წინასწარი სწავლება და მსჯელობა – ერთმანეთს შეავსებს. იმის გამო, რომ მოდელები, როგორიცაა GPT-4.5, უფრო ინტელექტუალური და ცოდნისუნარიანი ხდება წინასწარი სწავლების წყალობით, ისინი უზრუნველყოფენ უფრო მყარ საფუძველს ინსტრუმენტებზე დაფუძნებული მსჯელობისა და აგენტებისთვის. რამდენიმე კვირის წინ, ალტმანმა გამოაცხადა, რომ GPT-5 გააერთიანებს ამ ორ შესაძლებლობას.
GPT-4.5 შესრულების ტესტებში აჩვენებს მნიშვნელოვან გაუმჯობესებას ზოგიერთ სფეროში: SimpleQA ტესტში სიზუსტე აღწევს 62,5%-ს, GPT-4o-სთვის 38,2%-თან ან ახლახან გამოშვებულ Grok 3-ისთვის 43,6%-თან შედარებით.
ჰალუცინაციების დონე მცირდება 61.8%-დან 37.1%-მდე, რაც აღემატება როგორც o1-ის, ასევე o3-mini-ის მაჩვენებლებს. MMMLU-ში (მრავალენოვანი) და MMMU-ში (მრავალმოდალური) ის აღემატება თავის წინამორბედებს GPT-4o-ს (81,5% და 69,1%) და o3-mini-ს (81,1% და NN) 85,1%-ით და 74,4%-ით, შესაბამისად.
ადამიანების შეფასების ტესტებში, ტესტერებმა უპირატესობა მიანიჭეს GPT-4.5-ს GPT-4o-სთან შედარებით ყველა კატეგორიაში: კრეატიული ინტელექტი (56.8%), პროფესიული საკითხები (63.2%) და ყოველდღიური საკითხები (57.0%).
თუმცა, STEM ტესტებში მას არ შეუძლია გადააჭარბოს მსჯელობის მოდელებს, როგორიცაა o3-mini: GPQA-ში (ბუნებისმეტყველება) ის აღწევს 71.4%-ს GPT-4o-სთვის 53.6%-თან შედარებით, მაგრამ ჩამორჩება OpenAI o3-mini-ს (79.7%). AIME ’24-ში (მათემატიკა) GPT-4.5 აღწევს 36.7%-ს, რაც მნიშვნელოვანი გაუმჯობესებაა GPT-4o-სთან შედარებით (9.3%), მაგრამ არ უახლოვდება o3-mini-ს (87.3%). კოდირების ამოცანებისთვის GPT-4.5 აჩვენებს საუკეთესო შედეგებს SWE-Lancer Diamond Test-ში 32.6%-ით GPT-4o-სთვის (23.3%) შედარებით და აღემატება o3-mini-ს (10.8%) – თუმცა მნიშვნელოვნად მაღალი ხარჯებით. SWE-Bench Verified ტესტში ის აღწევს 38.0%-ს GPT-4o-სთვის 30.7%-თან შედარებით, მაგრამ ჩამორჩება o3-mini-ს (61.0%).
ცოტა ხნის წინ გამოშვებული Claude 3.7 Sonnet აღწევს 62.3%-ს და 70.3%-ს შესაბამისად Anthropic-ის მიერ გამოქვეყნებულ ბენჩმარკებში. თუმცა, ეს მნიშვნელობები პირდაპირ შედარებადი არ არის, რადგან გამოყენებული ან გამოცდილი იყო სხვადასხვა მეთოდები და ამოცანების ნაკრები. საილუსტრაციო მაგალითი: o3-mini-ის სისტემურ რუკაში მოდელმა მაინც მიაღწია 49.3%-ს.
დამოუკიდებელ Aider Polyglot Coding Benchmark ტესტში GPT-4.5 აღწევს 45%-ს, რაც მნიშვნელოვნად მეტია, ვიდრე GPT-4o-ს 23%, მაგრამ მაინც ჩამორჩება სხვა მოდელებს. Sonnet 3.7 აღწევს 60%-ს ხანგრძლივი განსჯის გარეშე.
ზოგადად, ბენჩმარკებში არ შეინიშნება შესრულების მნიშვნელოვანი ზრდა – საუკეთესო შედეგები, სავარაუდოდ, მიღებულია SimpleQA ტესტში. უახლოეს დღეებში, სავარაუდოდ, ბევრი დისკუსია იქნება იმაზე, მოკვდა თუ არა მასშტაბირება, მიაღწია თუ არა ღრმა სწავლებამ კედელს და როდის შეიძლება მსჯელობას იგივე ბედი ეწიოს.
OpenAI-ს გენერალური დირექტორი სემ ალტმანი, რომელიც ცოტა ხნის წინ გახდა მამა, არ იმყოფებოდა GPT-4.5-ის პრეზენტაციაზე, მაგრამ კომენტარი გააკეთა X-ზე: „ეს არის პირველი მოდელი, რომელიც ჩემთვის ისე იგრძნობა, თითქოს მოაზროვნე ადამიანთან ვსაუბრობ. მქონდა რამდენიმე მომენტი, როდესაც სავარძელს მივეყუდე და გაოგნებული ვიყავი, როდესაც ხელოვნური ინტელექტისგან მართლაც კარგი რჩევა მივიღე. ” ალტმანი ხაზს უსვამს, რომ GPT-4.5 არ არის მსჯელობის მოდელი და არ მოხსნის შესრულების რეკორდებს: „ეს არის ინტელექტის სხვა სახეობა და მასში არის მაგია, რომელიც ადრე არ მიგრძვნია“.
ეს ნიშნავს, რომ საქმე ეხება უფრო მეტად შეგრძნებებს, ვიდრე მაჩვენებლებს. დამფუძნებელი და ყოფილი თანამშრომელი ანდრეი კარპატი ხედავს მსგავს პროგრესს, თუმცა მისთვის ძნელია მისი გაზომვა. გამოშვებასთან დაკავშირებულ თავის კომენტარებში ის განმარტავს, რომ ვერსიის ნომრის ყოველი ნაბიჯი 0,5-ით წარმოადგენს სწავლების გამოთვლების დაახლოებით ათჯერ ზრდას.
კარპატი აღწერს GPT მოდელების ევოლუციას: GPT-1-დან, რომელიც ძლივს ქმნიდა თანმიმდევრულ ტექსტს, GPT-2-მდე, როგორც „დაბნეულ სათამაშოს“, და GPT-3-მდე, რომელიც იძლეოდა მნიშვნელოვნად უფრო საინტერესო შედეგებს. შემდეგ GPT-3.5-მა გადალახა ბაზარზე გასვლის მზადყოფნის ზღვარი და გამოიწვია OpenAI-ს „ChatGPT მომენტი“.
კარპატის თქმით, GPT-4-ით გაუმჯობესებები უკვე უფრო დახვეწილი იყო. „ყველაფერი უბრალოდ ცოტათი უკეთესი იყო, მაგრამ ბუნდოვნად“, – წერს ის. სიტყვების შერჩევა გარკვეულწილად უფრო კრეატიული იყო, მოთხოვნის ნიუანსების გაგება გაუმჯობესდა, ანალოგიები ცოტათი უფრო აზრიანი გახდა, მოდელი ცოტათი უფრო სასაცილო იყო და ჰალუცინაციები რამდენადმე იშვიათად ხდებოდა.
მან გამოსცადა GPT-4.5 მსგავსი მოლოდინებით, მოდელი, რომელიც შემუშავებულია GPT-4-ის სწავლებისთვის გამოთვლების ათჯერ გაზრდით. მისი დასკვნა: „მე ვიყავი იმავე ჰაკათონზე 2 წლის წინ. ყველაფერი ცოტათი უკეთესია და ეს განსაცვიფრებელია, მაგრამ არა იმ ასპექტებში, რომლებზეც შეიძლება მიუთითოთ. ”