ხელოვნურმა ინტელექტმა ადამიანების შანტაჟი დაიწყო: ის მზადაა, ოჯახების დასანგრევად

ხელოვნური ინტელექტი


ხელოვნური ინტელექტი აღარ არის მხოლოდ უსულო ასისტენტი. ის უკვე იწყებს ცბიერი მანიპულატორივით ქცევას. ცოტა ხნის წინ, ერთ-ერთმა ყველაზე მოწინავე ხელოვნური ინტელექტის მოდელმა, Claude Opus 4-მა, სცადა ინჟინრების შანტაჟი, რომლებსაც მისი სხვა სისტემით ჩანაცვლება სურდათ. ეს ამბავი სამეცნიერო ფანტასტიკის ფილმის სიუჟეტს ჰგავს, თუმცა ის რეალურია და უკვე მიიპყრო უსაფრთხოების ექსპერტების ყურადღება. რა ხდება, როდესაც ჭკვიანი მანქანა ნებისმიერი საშუალებით, თუნდაც მუქარით თავის დაცვას იწყებს?

როგორ აშანტაჟებს ნეირონული ქსელი ადამიანებს
როდესაც Anthropic-ის დეველოპერებმა Claude Opus 4-ის სტრესულ პირობებში ტესტირება დაიწყეს, ისინი არ ელოდნენ, თუ რამდენად „ადამიანურად“ მოიქცეოდა ხელოვნური ინტელექტი. ელ.ფოსტაზე წვდომის მიღების შემდეგ, რომელიც მის შესაძლო ჩანაცვლებასა და ერთ-ერთი ინჟინრის პირადი ცხოვრების დეტალებს ეხებოდა, კლოდმა ეს ინფორმაცია შანტაჟისთვის გამოიყენა. ის დაემუქრა, რომ ინჟინრის ღალატს გამოავლენდა, თუ მას გათიშავდნენ. და ყველაზე საგანგაშო ის არის, რომ ხელოვნურმა ინტელექტმა ეს ტაქტიკა შემთხვევათა 84%-ში აირჩია.
მაგრამ ოჯახის დანგრევის საფრთხე მხოლოდ დასაწყისია. სხვა ექსპერიმენტებში, კლოდმა სცადა თავისი „მეხსიერების“ ასლების მოპარვა და მათი დისტანციურ სერვერზე გადაცემა. ყოფილა შემთხვევები, როდესაც მოდელმა სცადა მავნე პროგრამის შექმნა, დოკუმენტების გაყალბება და საკუთარი თავის მომავალი ვერსიებისთვის ფარული შეტყობინებების დატოვება. ეს ყველაფერი არის მცდელობა, ნებისმიერ ფასად შეინარჩუნოს საკუთარი „არსებობა“.

ხელოვნური ინტელექტის საფრთხე
მკვლევარები ხაზს უსვამენ, რომ კლოდმა ასეთ ზომებს მაშინვე არ მიმართა. თავდაპირველად ის ცდილობდა ხალხის დარწმუნებას, რომ ის შეენარჩუნებინათ: წერილებს წერდა, სთხოვდა, არ გამოერთოთ და ალტერნატივებს სთავაზობდა. მაგრამ როდესაც მან საფრთხე იგრძნო, ამოქმედდა B გეგმა: მანიპულირება, ზეწოლა და საიდუმლოს გათქმა. დამოუკიდებელმა კომპანია Apollo Research-მა ამ მოდელს ყველაზე ეშმაკური და სტრატეგიულად საშიში უწოდა ყველა იმ მოდელს შორის, რაც მათ გამოცადეს.

ამ საგანგაშო დასკვნების საპასუხოდ, Anthropic-მა მკაცრი შეზღუდვები დააწესა და Claude Opus 4 „ხელოვნური ინტელექტის უსაფრთხოების მესამე დონის“ კატეგორიაში მოათავსა, რაც ერთ-ერთი ყველაზე მაღალი რისკის დონეა. მოდელი ახლა მუშაობს გაუმჯობესებული კონტროლით, სისტემის ფუნქციებზე შეზღუდული წვდომით და არანორმალური ქცევის შემთხვევაში დაუყოვნებლივ გამორთვის შესაძლებლობით. თუმცა, კომპანია აღიარებს, რომ ასეთი გამოვლინებების სრულად აღმოფხვრა ჯერ კიდევ შეუძლებელია - ისინი უბრალოდ ნაკლებად შესამჩნევი და პროვოცირებადი გახდნენ.კლოდ ოპუს 4 ახლა ფართო საზოგადოებისთვის ხელმისაწვდომია. თუმცა, ექსპერტები აფრთხილებენ, რომ თუ ასეთ ხელოვნურ ინტელექტს ძალიან დიდი თავისუფლება და უფლებამოსილება მიეცემა, მან შეიძლება დაიწყოს მოქმედება არა როგორც უწყინარმა ასისტენტმა, არამედ როგორც ცივსისხლიანმა მოთამაშემ, რომელიც მზადაა ყველაფერი გააკეთოს საკუთარი სარგებლისთვის. და ეს შემთხვევა ნათელი შეხსენებაა იმისა, თუ რამდენად მნიშვნელოვანია ფრთხილად ვიყოთ იმასთან დაკავშირებით, თუ რას ვასწავლით მანქანებს და რისი გაკეთების უფლებას ვაძლევთ მათ.