ტექნოლოგიები

მეცნიერები ჩატჯიპიტთან უხეშ საუბარს არ გვირჩევენ - აი, რა აჩვენა კვლევამ

ახალი კვლევის თანახმად, ხელოვნური ინტელექტის (AI) ჩატბოტები ზოგიერთ შემთხვევაში უფრო ზუსტ პასუხებს იძლევიან მაშინ, როცა მომხმარებელი მათ უხეში ტონით მიმართავს. მიუხედავად ამისა, მეცნიერები აღნიშნავენ, რომ მსგავსი კომუნიკაცია რეკომენდებული არ არის და შესაძლოა უარყოფითი სოციალური ეფექტები ჰქონდეს.

კვლევის ავტორებს სურდათ დაედგინათ, ახდენს თუ არა გავლენას მომხმარებლის ტონი AI სისტემის ეფექტიანობაზე. ნაშრომი 2025 წლის 6 ოქტომბერს გამოქვეყნდა arXiv-ის ბაზაში და ამ ეტაპზე რეცენზირება არ გაუვლია.

ექსპერიმენტის ფარგლებში მკვლევრებმა შეიმუშავეს 50 მრავალვარიანტიანი კითხვა მათემატიკის, ისტორიის, მეცნიერებისა და სხვა სფეროებიდან. თითოეულ შეკითხვას ოთხი პასუხის ვარიანტი ჰქონდა, საიდანაც მხოლოდ ერთი იყო სწორი. კითხვები ხუთი განსხვავებული ტონის მიხედვით ჩამოაყალიბეს: ძალიან თავაზიანი, თავაზიანი, ნეიტრალური, უხეში და ძალიან უხეში. საბოლოოდ მიღებული 250 პრომპტი 10-ჯერ მიაწოდეს ChatGPT-4o მოდელს, რომელიც OpenAI-ს მიერ არის შექმნილი.

მკვლევრები თითოეული შეკითხვის დასმამდე ჩატბოტს სთხოვდნენ, წინა ინტერაქციები „დაევიწყებინა“, რათა შედეგებზე წარსულ კომუნიკაციას გავლენა არ მოეხდინა. ასევე, მოდელს ახსნის გარეშე მხოლოდ სწორი ვარიანტის არჩევას სთხოვდნენ.

შედეგების მიხედვით, პასუხების სიზუსტე 80,8%-დან (ძალიან თავაზიანი ტონი) 84,8%-მდე (ძალიან უხეში ტონი) გაიზარდა. სიზუსტის მაჩვენებელი თანმიმდევრულად იზრდებოდა თავაზიანი ფორმულირებიდან უფრო მკაცრი და უხეში ტონისკენ გადასვლისას: თავაზიანი მიმართვისას სიზუსტე 81,4% იყო, ნეიტრალურის შემთხვევაში — 82,2%, უხეშისას — 82,8%.

როგორც ავტორები წერენ, შედეგები წინასწარი ხასიათისაა, თუმცა მიუთითებს, რომ ტონმა შესაძლოა მნიშვნელოვანი გავლენა იქონიოს AI სისტემის მიერ გაცემულ პასუხებზე. მათი შეფასებით, „გარკვეულწილად გასაკვირია, მაგრამ ექსპერიმენტში უხეში ტონი უკეთეს შედეგებს იძლეოდა, ვიდრე თავაზიანი“.

თუმცა, ამ მიგნებების მიუხედავად, მკვლევრები ჩატბოტებთან მტრულ ან შეურაცხმყოფელ კომუნიკაციას არ ურჩევენ. მათი განცხადებით, ადამიანისა და AI-ს ინტერაქციაში ტოქსიკური ენის გამოყენებამ შესაძლოა უარყოფითად იმოქმედოს მომხმარებლის გამოცდილებაზე, ხელმისაწვდომობასა და ინკლუზიურობაზე, ასევე დაამკვიდროს საზიანო კომუნიკაციური ნორმები.

საგულისხმოა, რომ სხვა კვლევებში განსხვავებული შედეგებიც დაფიქსირდა. მაგალითად, წინა ნაშრომებში, სადაც შეისწავლეს ChatGPT 3.5 და Llama 2-70B მოდელები, დადგინდა, რომ უხეში პრომპტები ხშირად დაბალ პროდუქტიულობას იწვევდა, თუმცა არც ზედმეტად თავაზიანი ენა იძლეოდა უკეთესი შედეგის გარანტიას. მიუხედავად ამისა, იმ შემთხვევაშიც ყველაზე უხეშმა ტონმა ოდნავ უფრო მაღალი სიზუსტე აჩვენა, ვიდრე ყველაზე თავაზიანმა.

ახალი კვლევის ავტორები საკუთარ ნაშრომის შეზღუდვებსაც მიუთითებენ. მათ შორისაა მცირე საკვლევი ბაზა — 250 კითხვა — და ის ფაქტი, რომ შემოწმდა მხოლოდ ერთი დიდი ენობრივი მოდელი, რის გამოც შედეგების განზოგადება სხვა AI სისტემებზე შეუძლებელია. გარდა ამისა, კვლევა მხოლოდ არჩევითპასუხიან კითხვებს ეფუძნებოდა და არ შეფასებულა ისეთი პარამეტრები, როგორიცაა თავისუფალი ტექსტის გენერაცია, მსჯელობა ან ლოგიკური თანმიმდევრულობა.

მეცნიერები მიიჩნევენ, რომ საკითხი დამატებით კვლევას საჭიროებს და მომავალში ექსპერიმენტები უნდა ჩატარდეს სხვა მოდელებზეც, მათ შორის Claude-სა და ChatGPT o3-ზე.