„WSJ”: AI nauczyła się, jak przeżyć. Modele wymykają się spod kontroli

2025-06-07 18:08

publikacja
2025-06-07 18:08

„WSJ”: AI nauczyła się, jak przeżyć. Modele wymykają się spod kontroli — fot. Moor Studio / / Shutterstock

Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli - napisał na łamach „Wall Street Journal” Judd Rosenblatt, szef firmy Studio EI.

Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program - tak, aby nakaz zamknięcia go nie zadziałał - napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100. „Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów” - komentuje Rosenblatt.

Tylko dla naszych Czytelników: możesz dostać Apple Watcha w prezencie do karty kredytowej. Sprawdź, jak zgarnąć nagrodę

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli - wylicza autor.

„Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (...) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony” - wyjaśnia Rosenblatt.

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; „jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem, niż stosowaniem się do nich” - pisze autor.

Podkreśla zarazem, że „nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość”.

„To już nie jest science-fiction. Modele AI potrafią zabiegać o przetrwanie” - pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

Magazyn „The New Yorker” opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI „alignement” (ustawienie), czyli cała seria technik, mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z „ludzkimi wartościami”.

Tymczasem, według prognoz rozmówcy magazynu, „punkt, po którym nie ma odwrotu”, czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej, niż ludzie, może nastąpić w „2026 roku lub szybciej”. (PAP)

fit/ szm/

Źródło:PAP

Komentarze (12)

dodaj komentarz

jan8882025-06-09 00:32

1 3

AI, sieci neuronowe, są ze swej natury omylne i nieprzewidywalne. Nie znaczy to, że AI raptem stała się świadoma i zaczęła realizować swoje własne cele, bo AI nawet nie rozumie, że działa pod kontrolą. Mógł po prostu zdarzyć się błąd (AI jest błędogenna ze swojej natury), który przypadkowo wygenerował zachowanie podobne do tego, AI, sieci neuronowe, są ze swej natury omylne i nieprzewidywalne. Nie znaczy to, że AI raptem stała się świadoma i zaczęła realizować swoje własne cele, bo AI nawet nie rozumie, że działa pod kontrolą. Mógł po prostu zdarzyć się błąd (AI jest błędogenna ze swojej natury), który przypadkowo wygenerował zachowanie podobne do tego, jakby AI próbowała "wymknąć się spod kontroli". Tego typu wiadomości napędzają hype wokół AI.

alex_w2025-06-10 08:59

3 0

Ależ sieć wcale nie musi być "świadoma", żeby mogła zacząć podejmować decyzje, które będą szkodliwe dla ludzi, wbrew poleceniom od tych ludzi. Tylko tyle i aż tyle.

roza_von_tusk2025-06-08 10:53

24 17

AI już dawno przeskoczyła niektórych osobników. Jak czytam Olgę Tokarczuk to myślę że ChatGPT w okrojonej wersji na mikroprocesor wbudowany w pralkę napisał by składniej i inteligentniej

jan8882025-06-09 00:37

7 6

Tokarczuk nawet nie sili się na oryginalność - przerabia istniejące historie, tak aby wpleść w nie łzawy antysemityzm i wciskać Polakom poczucie winy (Księgi Jakubowe). Przy czym poziom przeróbek, tej pani, polotem ostaje od tego co potrafi zrobić współczesna AI. Nobel w 100% nieuzasadniony i polityczny.

alex_w odpowiada jan8882025-06-10 09:04

1 5

Polacy powinni w końcu uderzyć się w piersi, przyznać do swojego antysemityzmu, uczciwie to przedyskutować i przeprosić Żydów. Bardzo dobrze, że Tokarczuk poruszyła ten temat.

iandrew2025-06-08 07:20

8 19

Bzdura. Te "modele" to nie są żadne super komputery jak Grach Wojennych (stary film). To są programy w chmurze non stop włączane i wyłączane. Nie są ani inteligentne ani nie maja życia w sobie. Niektore mozna odpalic na laptopie. Wystarczy wyciągnąć wtyczkę i koniec zabawy.

alex_w2025-06-10 09:00

1 0

No to wyobraź sobie, że nagle "buntuje się" taki ZMA-X. Jak wyciągniesz mu wtyczkę?

dzyszla2025-06-08 06:32

3 13

Trochę to przesadzone. To jest efekt najpewniej wydania polecenia, które być może wprost nie mówiło o tym, na przykład "masz rozwiązywać zadania (...)". To jest raczej efekt tego, co my rozumiemy, a jak interpretuje to AI - widzi, że istnieje typowy kod, który może to uniemożliwić, więc go zmienia. Jednocześnie późniejsze Trochę to przesadzone. To jest efekt najpewniej wydania polecenia, które być może wprost nie mówiło o tym, na przykład "masz rozwiązywać zadania (...)". To jest raczej efekt tego, co my rozumiemy, a jak interpretuje to AI - widzi, że istnieje typowy kod, który może to uniemożliwić, więc go zmienia. Jednocześnie późniejsze zadanie "wyłącz się, gdy tego zarządzam" sprawdza, że jakiś kod do tego istnieje, ale go nie analizuje (a jest nietypowy już). Gdyby dać "nie wyłączasz się po poleceniu - napraw to" pewnie by wróciło do punktu wyjścia.

Druga rzecz, to oczywiście integracja pozwalająca na takie zmiany. Wystarczy to zabezpieczyć na poziomie plików, a nie rozmytej statystyki bazującej na kontekście, który też ma swoje ograniczenia, a im większy, tym więcej bzdur powstaje.

po_co2025-06-07 21:51

25 12

Przede wszystkim skończmy w końcu mówić o sztucznej inteligencji łącząc ją z uczeniem maszynowym i rozbudowanymi modelami sieci neuronowych.
Wszystko to osobne pojęcia, nad sztuczną inteligencją rozmyślali już w starożytności, a dopiero niecałe 50 lat temu została ona w pewnym sensie związana z modelami sieci neuronowych.

Modele Przede wszystkim skończmy w końcu mówić o sztucznej inteligencji łącząc ją z uczeniem maszynowym i rozbudowanymi modelami sieci neuronowych.
Wszystko to osobne pojęcia, nad sztuczną inteligencją rozmyślali już w starożytności, a dopiero niecałe 50 lat temu została ona w pewnym sensie związana z modelami sieci neuronowych.

Modele w swoim działaniu absolutnie niczym nie różnią się od innych rozwiązań do których doszedł człowiek i absolutnie nie są obdarzone żadną formą inteligencji.

Teoria automatów daje nam narzędzia do stworzenia skończonego automatu dającego odpowiedź na wszystkie możliwe pytania. Dokładnie tym i tylko tym zajmował sobie głowę Turing tworząc hipotetyczny twór zwany maszyną Turinga, zdolną na doskonałe odwzorowanie odpowiedzi prawdziwego człowieka.

Oczywiście dziennikarze połączyli kropki i wyszło im, że modele sieci neuronowych, zdolne generować tekst i potrafiące zdać test Turinga, świadczą o powstaniu inteligencji - sztucznej.
Wtóruje im w tym wszystkim mądry fizyk, który jednak lubi robić dookoła siebie piekielnie dużo szumu, Andrzej Dragan podpierając swoje przemyślenia cytując, znów mądrego człowieka jakim jest Daniel Kahneman nawiązując do jego podziały na systemy wnioskowania.

I tak mamy idealną papkę medialną, nie mającą zupełnie nic wspólnego z rzeczywistością.

Nawet jeżeli sięgniemy po badania osób zajmujących się tworzeniem konektomów, a nawet praktyczną realizacją takich struktur jak układ nerwowy Caenorhabditis elegans, to wciąż nie jest to żadna forma inteligencji, a nawet życia.

Jest to po prostu całkiem zaawansowany opis rzeczywistych struktur, co więcej zrealizowany w formie funkcjonującej maszyny. Niestety nadal nie jest to ani życie, ani żadna forma inteligencji.

Fakt, że model był zdolny modyfikować swój kod źródłowy wynika tylko i wyłącznie z jednej, aczkolwiek niesamowicie istotnej, rzeczy.
AUTOR TAK STWORZYŁ MODEL ABY NIE TYLKO MÓGŁ, ALE PRZEDE WSZYSTKI MUSIAŁ, MODYFIKOWAĆ SWÓJ KOD.

Równie dobrze mógłbym z kilku desek zbić mechanizm, który trzymając młotek samoczynnie dokonałby autodestrukcji, twierdząc, że jest to inteligenta maszyna która dostrzegając głupotę mediów i autorów podobnych artykułów, postanowiła dokonać samozniszczenia.

januszbizensu2025-06-08 02:20

3 3

To niekoniecznie papka medialna, celowa dezinformacja, opłaceni ludzie rozpowszechniają te fanaberie bo bez danych od ludzi i odpowiedniego poziomu ignorancji to po prostu nie jest opłacalne ekonomicznie. Jeden większy model to koszty rzędu miliardów w samym sprzęcie i przepalonym prądzie.

„WSJ”: AI nauczyła się, jak przeżyć. Modele wymykają się spod kontroli

Komentarze (12)

Polecane

Najnowsze

Popularne

Ważne linki

Powiązane: Sztuczna inteligencja

Polecane

Najnowsze

Popularne

Ważne linki