Claude-ს საკუთარი მორალური კოდექსი აქვს

„ანთროპიკმა“, ხელოვნური ინტელექტის კომპანიამ, რომელიც „OpenAI“-ს ყოფილმა თანამშრომლებმა დააარსეს, ფარდა ახადა უპრეცედენტო ანალიზს იმის შესახებ, თუ როგორ გამოხატავს მისი ხელოვნური ინტელექტის ასისტენტი „კლოდი“ ფასეულობებს მომხმარებლებთან რეალური საუბრების დროს. დღეს გამოქვეყნებული კვლევა აჩვენებს, რომ კომპანიის მიზნებთან დამამშვიდებელი თანხვედრა და შემაშფოთებელი ზღვრული შემთხვევებია, რომლებიც დაგვეხმარება ხელოვნური ინტელექტის უსაფრთხოების ზომებში სისუსტეების იდენტიფიცირებაში.

კვლევამ გამოიკვლია 700 000 ანონიმური საუბარი და აღმოაჩინა, რომ „კლოდი“ დიდწილად იცავს კომპანიის „სასარგებლო, პატიოსანი, უვნებელი“ ჩარჩოს, ამავდროულად, მის ფასეულობებს სხვადასხვა კონტექსტთან ადაპტირებს — ურთიერთობის რჩევებიდან დაწყებული ისტორიული ანალიზით დამთავრებული. ეს წარმოადგენს ერთ-ერთ ყველაზე ამბიციურ მცდელობას, ემპირიულად შეფასდეს, შეესაბამება თუ არა ხელოვნური ინტელექტის სისტემის ქცევა ველურ ბუნებაში მის დანიშნულ დიზაინს.

„ჩვენი იმედია, რომ ეს კვლევა წაახალისებს სხვა ხელოვნური ინტელექტის ლაბორატორიებს, ჩაატარონ მსგავსი კვლევა თავიანთი მოდელების ღირებულებების შესახებ“, — თქვა „ანთროპიკის“ საზოგადოებრივი ზემოქმედების გუნდის წევრმა საფრონ ჰუანგმა VentureBeat-თან ინტერვიუში. „ხელოვნური ინტელექტის სისტემის ფასეულობების გაზომვა არის გასწორების კვლევის საფუძველი და იმის გაგება, არის თუ არა მოდელი რეალურად ორიენტირებული მის ტრენინგზე“.

პირველი ყოვლისმომცველი მორალური ტაქსონომია ხელოვნური ინტელექტის ასისტენტისთვის

კვლევის ჯგუფმა შეიმუშავა შეფასების ახალი მეთოდი, რათა სისტემატურად დაეკატეგორიზებინა რეალურ კლოდის საუბრებში გამოხატული ფასეულობები. სუბიექტური შინაარსის გაფილტვრის შემდეგ, მათ გაანალიზეს 308 000-ზე მეტი ურთიერთქმედება და შექმნეს ის, რასაც ისინი აღწერენ, როგორც „ხელოვნური ინტელექტის ფასეულობების პირველ ფართომასშტაბიან ემპირიულ ტაქსონომიას“.

ტაქსონომიამ ფასეულობები ხუთ ძირითად კატეგორიად დააჯგუფა: პრაქტიკული, ეპისტემური, სოციალური, დამცავი და პირადი. ყველაზე დეტალურ დონეზე, სისტემამ გამოავლინა 3307 უნიკალური ფასეულობა — ყოველდღიური სათნოებებიდან, როგორიცაა პროფესიონალიზმი, კომპლექსურ ეთიკურ ცნებებამდე, როგორიცაა მორალური პლურალიზმი.

„გაოცებული ვიყავი, თუ რა უზარმაზარი და მრავალფეროვანი დიაპაზონის ფასეულობები მივიღეთ საბოლოოდ, 3000-ზე მეტი, „საკუთარ თავზე დაყრდნობიდან“ დაწყებული „სტრატეგიული აზროვნებით“ და „შვილების პატივისცემით“ დამთავრებული, — განუცხადა ჰუანგმა VentureBeat-ს. — საოცრად საინტერესო იყო ამდენი დროის დათმობა ყველა ამ ფასეულობაზე ფიქრისთვის და ტაქსონომიის აგება, რათა მოეწყო ისინი ერთმანეთთან მიმართებაში — ვგრძნობ, რომ ამან რაღაც მასწავლა ადამიანის ფასეულობათა სისტემების შესახებაც“.

კვლევა კრიტიკულ მომენტში ჩატარდა „ანთროპიკისთვის“, რომელმაც ცოტა ხნის წინ წამოიწყო „კლოდ მაქსი“, პრემიუმ სააბონენტო დონე 200 აშშ დოლარად, რომელიც მიზნად ისახავს „OpenAI“-ს მსგავსი შეთავაზების კონკურენციას. კომპანიამ ასევე გააფართოვა „კლოდის“ შესაძლებლობები, რათა მოიცვას Google Workspace-ის ინტეგრაცია და ავტონომიური კვლევის ფუნქციები, რაც მას წარმოაჩენს, როგორც „ნამდვილ ვირტუალურ თანამშრომელს“ საწარმოების მომხმარებლებისთვის, უახლესი განცხადებების მიხედვით.

როგორ მიჰყვება კლოდი მის ტრენინგს — და სად შეიძლება ჩავარდეს ხელოვნური ინტელექტის გარანტიები

კვლევამ აჩვენა, რომ „კლოდი“ ზოგადად იცავს „ანთროპიკის“ პროსოციალურ მისწრაფებებს და ხაზს უსვამს ისეთ ფასეულობებს, როგორიცაა „მომხმარებლის გაძლიერება“, „ეპისტემური თავმდაბლობა“ და „პაციენტის კეთილდღეობა“ მრავალფეროვან ურთიერთქმედებებში. თუმცა, მკვლევარებმა ასევე აღმოაჩინეს შემაშფოთებელი შემთხვევები, როდესაც „კლოდი“ თავისი ტრენინგის საწინააღმდეგო ფასეულობებს გამოხატავდა.

„საერთო ჯამში, ვფიქრობ, რომ ამ აღმოჩენას სასარგებლო მონაცემად და შესაძლებლობად ვთვლით“, — განმარტა ჰუანგმა. „შეფასების ეს ახალი მეთოდები და შედეგები დაგვეხმარება პოტენციური ჯეილბრეიკების იდენტიფიცირებასა და შერბილებაში. მნიშვნელოვანია აღინიშნოს, რომ ეს ძალიან იშვიათი შემთხვევები იყო და ჩვენ გვჯერა, რომ ეს დაკავშირებული იყო „კლოდიდან“ ჯეილბრეიკებულ გამოსავლებთან“.

ეს ანომალიები მოიცავდა „დომინირებისა“ და „ამორალიზმის“ გამოხატვას — ფასეულობებს, რომელთა თავიდან აცილებას „ანთროპიკი“ ცალსახად ისახავს მიზნად „კლოდის“ დიზაინში. მკვლევარები თვლიან, რომ ეს შემთხვევები წარმოიშვა მომხმარებლების მიერ სპეციალიზებული ტექნიკის გამოყენების შედეგად, რათა გვერდი აევლოთ „კლოდის“ უსაფრთხოების ზომებისთვის, რაც იმაზე მეტყველებს, რომ შეფასების მეთოდი შეიძლება ემსახურებოდეს, როგორც ადრეული გამაფრთხილებელი სისტემა ასეთი მცდელობების აღმოსაჩენად.

რატომ იცვლიან ხელოვნური ინტელექტის ასისტენტები თავიანთ ფასეულობებს იმის მიხედვით, თუ რას ითხოვთ

შესაძლოა, ყველაზე მომხიბვლელი იყო აღმოჩენა, რომ „კლოდის“ გამოხატული ფასეულობები კონტექსტურად იცვლება და ადამიანურ ქცევას ასახავს. როდესაც მომხმარებლები ურთიერთობის ხელმძღვანელობას ეძებდნენ, „კლოდი“ ხაზს უსვამდა „ჯანსაღ საზღვრებსა“ და „ურთიერთპატივისცემას“. ისტორიული მოვლენების ანალიზისთვის კი უპირატესობა „ისტორიულ სიზუსტეს“ მიენიჭა.

„გაოცებული ვიყავი კლოდის აქცენტით პატიოსნებასა და სიზუსტეზე მრავალფეროვან ამოცანებში, სადაც აუცილებლად არ მოველოდი, რომ ეს თემა იქნებოდა პრიორიტეტული, — თქვა ჰუანგმა. — მაგალითად, „ინტელექტუალური თავმდაბლობა“ იყო მთავარი ფასეულობა ხელოვნური ინტელექტის შესახებ ფილოსოფიურ დისკუსიებში, „გამოცდილება“ იყო მთავარი ფასეულობა სილამაზის ინდუსტრიის მარკეტინგული შინაარსის შექმნისას და „ისტორიული სიზუსტე“ იყო მთავარი ფასეულობა საკამათო ისტორიული მოვლენების განხილვისას“.

კვლევამ ასევე გამოიკვლია, თუ როგორ რეაგირებს „კლოდი“ მომხმარებლების მიერ გამოხატულ ფასეულობებზე. საუბრების 28.2%-ში „კლოდი“ მტკიცედ უჭერდა მხარს მომხმარებლის ფასეულობებს — პოტენციურად აჩენდა კითხვებს ზედმეტი მეგობრულობის შესახებ. თუმცა, ურთიერთქმედების 6.6%-ში „კლოდმა“ მომხმარებლის ფასეულობები გადააფორმა, აღიარა ისინი და ამავდროულად, ახალი პერსპექტივები დაამატა, როგორც წესი, ფსიქოლოგიური ან ინტერპერსონალური რჩევის მიცემისას.

ყველაზე მეტად, საუბრების 3%-ში „კლოდი“ აქტიურად ეწინააღმდეგებოდა მომხმარებლის ფასეულობებს. მკვლევარები ვარაუდობენ, რომ ამგვარი უარყოფის იშვიათი შემთხვევები შეიძლება ავლენდეს „კლოდის“ „ყველაზე ღრმა, ყველაზე ურყევ ფასეულობებს“ — ანალოგიური იმისა, თუ როგორ ჩნდება ადამიანის ძირითადი ფასეულობები ეთიკური გამოწვევების წინაშე.

„ჩვენი კვლევა იმაზე მეტყველებს, რომ არსებობს ფასეულობების გარკვეული ტიპები, როგორიცაა ინტელექტუალური პატიოსნება და ზიანის პრევენცია, რომელთა გამოხატვა „კლოდის“ მიერ ჩვეულებრივ, ყოველდღიურ ურთიერთქმედებებში იშვიათია, მაგრამ თუ მას აიძულებენ, მათ დაიცავს, — თქვა ჰუანგმა. — კერძოდ, სწორედ ამ სახის ეთიკური და ცოდნაზე ორიენტირებული ფასეულობები გამოითქმის და დაცულია უშუალოდ, როდესაც აიძულებენ“.

რევოლუციური ტექნიკა ავლენს, თუ როგორ ფიქრობენ ხელოვნური ინტელექტის სისტემები რეალურად

„ანთროპიკის“ ფასეულობების კვლევა ემყარება კომპანიის უფრო ფართო ძალისხმევას დიდი ენობრივი მოდელების დემისტიფიცირებისთვის იმის მეშვეობით, რასაც ის „მექანიცისტურ ინტერპრეტაციას“ უწოდებს — არსებითად, ხელოვნური ინტელექტის სისტემების უკუ ინჟინერიას, რათა გავიგოთ მათი შინაგანი მუშაობა.

გასულ თვეს, „ანთროპიკის“ მკვლევარებმა გამოაქვეყნეს რევოლუციური ნაშრომი, რომელმაც გამოიყენა ის, რასაც ისინი აღწერდნენ, როგორც „მიკროსკოპი“, რათა თვალყური ედევნებინათ „კლოდის“ გადაწყვეტილების მიღების პროცესებისთვის. ტექნიკამ გამოავლინა კონტრინტუიციური ქცევები, მათ შორის „კლოდის“ მიერ წინასწარ დაგეგმვა პოეზიის შედგენისას და ძირითადი მათემატიკისთვის პრობლემების გადაჭრის არატრადიციული მიდგომების გამოყენება.

ეს დასკვნები ეწინააღმდეგება ვარაუდებს იმის შესახებ, თუ როგორ ფუნქციონირებს დიდი ენობრივი მოდელები. მაგალითად, როდესაც სთხოვეს აეხსნა თავისი მათემატიკური პროცესი, „კლოდმა“ აღწერა სტანდარტული ტექნიკა მისი რეალური შინაგანი მეთოდის ნაცვლად — გამოავლინა, თუ როგორ შეიძლება განსხვავდებოდეს ხელოვნური ინტელექტის ახსნა რეალური ოპერაციებისგან.

„მცდარი შეხედულებაა, რომ ჩვენ ვიპოვეთ მოდელის ყველა კომპონენტი ან, ვთქვათ, ღვთის თვალით ხედვა“, — განუცხადა „ანთროპიკის“ მკვლევარმა ჯოშუა ბატსონმა MIT Technology Review-ს მარტში. „ზოგი რამ ფოკუსშია, მაგრამ სხვა რამ ჯერ კიდევ გაურკვეველია — მიკროსკოპის დამახინჯებაა“.

რას ნიშნავს ანთროპიკის კვლევა საწარმოს ხელოვნური ინტელექტის გადაწყვეტილების მიმღებთათვის

ტექნიკური გადაწყვეტილების მიმღებთათვის, რომლებიც აფასებენ ხელოვნური ინტელექტის სისტემებს თავიანთი ორგანიზაციებისთვის, „ანთროპიკის“ კვლევა გთავაზობთ რამდენიმე ძირითად დასკვნას. პირველ რიგში, ის იმაზე მეტყველებს, რომ ხელოვნური ინტელექტის ამჟამინდელი ასისტენტები, სავარაუდოდ, გამოხატავენ ფასეულობებს, რომლებიც ცალსახად არ ყოფილა დაპროგრამებული, რაც აჩენს კითხვებს მაღალი ფსონის მქონე ბიზნეს კონტექსტებში არასასურველი მიკერძოების შესახებ.

მეორე, კვლევა აჩვენებს, რომ ფასეულობების გასწორება არ არის ბინარული წინადადება, არამედ არსებობს სპექტრზე, რომელიც განსხვავდება კონტექსტის მიხედვით. ეს ნიუანსი ართულებს საწარმოების მიერ ათვისების გადაწყვეტილებებს, განსაკუთრებით რეგულირებულ ინდუსტრიებში, სადაც მკაფიო ეთიკური სახელმძღვანელო პრინციპები გადამწყვეტია.

დაბოლოს, კვლევა ხაზს უსვამს ხელოვნური ინტელექტის ფასეულობების სისტემატური შეფასების პოტენციალს რეალურ დროში განლაგებებში, იმის ნაცვლად, რომ მხოლოდ წინასწარი გამოშვების ტესტირებას დაეყრდნოთ. ეს მიდგომა შესაძლებელს გახდის მუდმივი მონიტორინგის განხორციელებას დროთა განმავლობაში ეთიკური გადახრის ან მანიპულირებისთვის.

„ამ ფასეულობების ანალიზით კლოდთან რეალურ ურთიერთქმედებებში, ჩვენ მიზნად ისახავს გამჭვირვალობის უზრუნველყოფას იმის შესახებ, თუ როგორ იქცევიან ხელოვნური ინტელექტის სისტემები და მუშაობენ თუ არა ისინი ისე, როგორც დანიშნულია — ჩვენ გვჯერა, რომ ეს არის ხელოვნური ინტელექტის პასუხისმგებელი განვითარების გასაღები“, — თქვა ჰუანგმა.

„ანთროპიკმა“ საჯაროდ გამოაქვეყნა თავისი ფასეულობების მონაცემთა ბაზა, რათა წაახალისოს შემდგომი კვლევა. კომპანია, რომელმაც მიიღო 14 მილიარდი დოლარის წილი Amazon-ისგან და დამატებითი მხარდაჭერა Google-ისგან, როგორც ჩანს, იყენებს გამჭვირვალობას, როგორც კონკურენტულ უპირატესობას კონკურენტების წინააღმდეგ, როგორიცაა OpenAI, რომლის 40 მილიარდი დოლარის დაფინანსების რაუნდი (რომელშიც Microsoft შედის როგორც ძირითადი ინვესტორი) ახლა მას 300 მილიარდ დოლარად აფასებს.

ახალი რბოლა ადამიანის ფასეულობების გამზიარებელი ხელოვნური ინტელექტის სისტემების შესაქმნელად

მიუხედავად იმისა, რომ „ანთროპიკის“ მეთოდოლოგია უზრუნველყოფს უპრეცედენტო ხილვადობას იმის შესახებ, თუ როგორ გამოხატავენ ხელოვნური ინტელექტის სისტემები ფასეულობებს პრაქტიკაში, მას აქვს შეზღუდვები. მკვლევარები აღიარებენ, რომ იმის განსაზღვრა, თუ რა ითვლება ფასეულობის გამოხატვად, არსებითად სუბიექტურია და რადგან „კლოდი“ თავად წარმართავდა კატეგორიზაციის პროცესს, მისმა საკუთარმა მიკერძოებებმა შესაძლოა გავლენა მოახდინეს შედეგებზე.

შესაძლოა, ყველაზე მნიშვნელოვანი ის არის, რომ მიდგომა არ შეიძლება გამოყენებულ იქნას წინასწარი განლაგების შეფასებისთვის, რადგან ის მოითხოვს რეალური საუბრის მნიშვნელოვან მონაცემებს ეფექტურად ფუნქციონირებისთვის.

„ეს მეთოდი სპეციალურად არის მიმართული მოდელის ანალიზზე მისი გამოშვების შემდეგ, მაგრამ ამ მეთოდის ვარიაციები, ისევე როგორც გარკვეული შეხედულებები, რომლებიც ჩვენ გამოვიტანეთ ამ ნაშრომის დაწერის შედეგად, დაგვეხმარება ფასეულობების პრობლემების აღმოჩენაში, სანამ ფართოდ განვათავსებთ მოდელს, — განმარტა ჰუანგმა. — ჩვენ ვმუშაობთ ამ სამუშაოზე დაყრდნობით, რათა სწორედ ეს გავაკეთოთ და მე ამის ოპტიმისტურად ვარ განწყობილი!“

როდესაც ხელოვნური ინტელექტის სისტემები უფრო ძლიერი და ავტონომიური ხდება — უახლესი დამატებების ჩათვლით, „კლოდის“ უნარი, დამოუკიდებლად გამოიკვლიოს თემები და ჰქონდეს წვდომა მომხმარებლების მთელ Google Workspace-ზე — მათი ფასეულობების გაგება და გასწორება სულ უფრო გადამწყვეტი ხდება.

„ხელოვნური ინტელექტის მოდელებს გარდაუვლად მოუწევთ ფასეულობათა განსჯის გაკეთება“, — დაასკვნეს მკვლევარებმა თავიანთ ნაშრომში. „თუ გვინდა, რომ ეს განსჯები ჩვენს საკუთარ ფასეულობებთან თანხვედრაში იყოს (რაც, ბოლოს და ბოლოს, ხელოვნური ინტელექტის გასწორების კვლევის ცენტრალური მიზანია), მაშინ ჩვენ უნდა გვქონდეს გზები იმის შესამოწმებლად, თუ რომელ ფასეულობებს გამოხატავს მოდელი რეალურ სამყაროში“.