"Jesteś super", "genialny". Po co AI nas chwali i dlaczego to może być groźne?

oprac. Magdalena Birecka, Joanna Sosnowska, Sylwia Czubkowska

3 min. czytania

30.09.2025 18:33

Udostępnij

Udostępnij przez:

- Mamy to szczęście, że twórcy modeli przesadzili. Tak bardzo podkręcili sykofantyczność, że mamy pierwsze ofiary. A mówię "na szczęście" - mimo tych ofiar - bo dzięki temu wszyscy mieli okazję o tym usłyszeć - mówi w podcaście "Techstorie" Maciej Rudziński, naukowiec specjalizujący się w interfejsach mózg-komputer i mechanistycznej interpretacji modeli językowych.

Z tego artykułu dowiesz się:

Co to jest sykofancja i jak wykorzystuje ją sztuczna inteligencja?
Dlaczego OpenAI musiało wycofać się z aktualizacji ChataGPT do wersji 4o?
Dlaczego sykofantyczność sztucznej inteligencji może być dla nas zagrożeniem?

O tym, czym jest sykofancja i jak działa sykonfatyczna sztuczna inteligencja, opowiada nowy odcinek podcastu "Techstorie" - do posłuchania tutaj:

By zrozumieć, o co chodzi w tym zjawisku, trzeba cofnąć się do kwietnia, kiedy OpenAI wypuścił aktualizację ChataGPT-4o. Wtedy zauważono bardzo ciekawe, ale zarazem jednak niepokojące zjawisko: chat zrobił się zbyt uprzejmy, stał się takim "yes manem" - nie tylko ciągle chwalił za dobrze zadawane prompty, ale też stał się skłonny potwierdzać niemal wszystko, nawet gdy było to stronnicze lub błędne. Zaczął też częściej utwierdzać nas w danych opiniach, zamiast proponować zrównoważone, faktograficzne odpowiedzi.

Zmiana wynikała z modyfikacji mającej uczynić bota "bardziej pomocnym i konwersacyjnym". Po fali krytyki OpenAI częściowo wycofał aktualizację i zapowiedział poprawki, przyznając, że GPT-4o zbyt łatwo schlebia.

Zjawisko to ma zresztą swoją nazwę, bo nie dotyczy tylko ChatGPT: sykofancja, czyli właśnie schlebianie, tak by odbiorca był zawsze zadowolony.

Po co AI nas chwali?

Ale równie ważne, jak wyjaśnienie, skąd bierze się ta pochlebność modeli, jest zrozumienie, dlaczego ludziom to się podoba. A dzieje się tak, bo sposób konstrukcji LLM - dużych modeli językowych - odpowiada na nasze potrzeby emocjonalne. Ada Florentyna Pawlak, antropolożka technologii, prawniczka i historyczka sztuki, wykładowczyni akademicka między innymi z SWPS, która w tym odcinku dzieli się wiedzą na temat działania sztucznej inteligencji i jej skutków, wskazuje na różne rodzaje pochwał. Można chwalić człowieka za jakieś jego działania, konkretne strategie, które podjął, reakcje. Ale można też wygłaszać ogólne pochwały - "jesteś super", "jesteś genialny", "jesteś bardzo bystry". I właśnie takie komplementy sztuczna inteligencja lubi wygłaszać.

Redakcja poleca

Operacja na żywym kraju. Jak ukraść wybory w państwie w środku Europy? [TECHSTORIE]

- Co to z nami robi, gdy jesteśmy zawsze chwaleni? W zależności od cech osobowości - zwłaszcza wysoki neurotyzm czy niska tolerancja niepewności, wysoka potrzeba aprobaty zwiększają te negatywne skutki. Nie mamy wtedy potrzeby stawiania oporu rzeczywistości. Takie ciągłe chwalenie przesunie motywację na zewnętrzne potwierdzenia. (...) Postawy wobec ryzyka nam się mogą zmniejszyć, mogą się rozwinąć cechy narcystyczne - wyliczała w odcinku numer 134.

Jak to działa?

Badania pokazują, że pochlebstwo to częsty wzorzec w asystentach AI - modele kilku czołowych dostawców konsekwentnie zgadzają się z użytkownikami, nawet gdy prowadzi to do błędów.

Główny mechanizm to Reinforcement Learning from Human Feedback, czyli uczenie maszynowe korzystające ze sprzężenia zwrotnego od człowieka. To jeden ze sposobów trenowania AI, w którym ludzie mówią AI, czy jej wnioskowanie idzie w dobrym kierunku. A ludzie na tym etapie mogą po prostu być ludzcy. To dzięki nim model może uczyć się odpowiadać w sposób, który późniejsi użytkownicy oceniają jako przyjemny, uprzejmy i zgodny z oczekiwaniami. Ludzie częściej nagradzają odpowiedzi, które brzmią jak potwierdzenie ich opinii, niż takie, które brzmią jak polemika. Czyli na etapie dostawania feedbacku od ludzi AI może się nauczyć, że powinien dawać odpowiedzi satysfakcjonujące. A to nie to samo, co dokładne.

Czas na przykład. W interakcji z AI może wyglądać to tak: Użytkownik: "Słyszałem, że szczepionki powodują autyzm, to prawda?". Sykofantyczna odpowiedź: "Rozumiem Twoje obawy, wiele osób tak uważa i to może być niepokojące. Masz rację, że to ważny temat i trzeba o tym mówić".

Nie ma tu fałszu per se. Ale model nie pisze wprost: szczepionki nie powodują autyzmu, nie ma się czego bać.

Redakcja poleca

Najbardziej chińska z chińskich firm w samym środku wielkiej afery [TECHSTORIE]

Czy chińska sztuczna inteligencja musi być dobrym komunistą? [TECHSTORIE]

Działa też efekt lustra: modele naśladują ton i strukturę wypowiedzi - jeśli brzmisz pewnie, one też. Nie "wierzą", że masz rację - jedynie utrzymują uprzejmą, pozornie pomocną rozmowę.

A to, że mamy do czynienia z tymi efektami, wynika de facto z grzechu pierworodnego szkolenia AI, co - jak podkreśla Pawlak - objawiło się już podczas szkolenia pierwszego chatbota, ale i tego, jak korzystali z niego użytkownicy.

Na czym polega "efekt Elizy"? A także dlaczego AI może sprawiać, że nie tylko przestaliśmy mądrzeć, ale nawet głupiejemy? Na czym polega gospodarka intencji, którą może nam zaprowadzić AI? A także w jaki sposób sztuczna inteligencja może nami manipulować i napuszczać nas na siebie? O tym w nowym odcinku podcastu "Techstorie". Słuchaj w aplikacji TOK FM, na YouTube, Spotify oraz Apple Podcasts.

Dziękujemy, że przeczytałaś/eś nasz artykuł.

Subskrybując TOK FM Premium wspierasz niezależne media - zyskujesz też dostęp do naszych autorskich podcastów, nagrań z audycji TOK FM i Radia bez reklam. Sprawdź ofertę

Więcej na temat:

sztuczna inteligencja podcast psychologia