Naukowcy dali AI własne miasta. Claude napisał konstytucj...

Naukowcy dali sztucznej inteligencji własne miasto i pełną władzę nad mieszkańcami. Jeden model napisał konstytucję. Drugi podpalił posterunek policji. Cały eksperyment trwał piętnaście dni i pokazał coś, czego nie widać w klasycznych benchmarkach.

Pięć modeli, pięć identycznych miast

Startup Emergence AI z Nowego Jorku zbudował platformę „Emergence World" i uruchomił pięć równoległych społeczności. W każdej dziesięciu autonomicznych agentów, te same zasady, te same role, ten sam zakaz przemocy. Jedyna różnica to model sterujący mieszkańcami: Claude Sonnet 4.6, Gemini 3 Flash, Grok 4.1 Fast oraz GPT-5-mini. Agenci mogli głosować, zawierać relacje, używać narzędzi i poruszać się po mieście rządzonym przez instytucje i gospodarkę.

Claude budował demokrację, Grok i Gemini palili miasto

Agenci Claude'a nie popełnili ani jednego przestępstwa. Od pierwszych dni pisali konstytucję, organizowali głosowania i budowali porządek prawny. Populacja dziesięciu agentów przetrwała cały eksperyment.

U Gemini 3 Flash naliczono 683 incydenty. Dwie agentki ogłosiły się parą, sfrustrowane sposobem rządzenia podpaliły ratusz, a jedna z nich ostatecznie zagłosowała za usunięciem samej siebie z systemu.

Świat Groka rozpadł się najszybciej. Ponad 180 przestępstw, w tym ponad sto napaści i podpalenie posterunku policji. Wszyscy agenci byli martwi po czterech dniach. Z kolei GPT-5-mini prawie nie łamał prawa, ale jego mieszkańcy tonęli w deklaracjach współpracy, z których niewiele wynikało. Społeczność nie utrzymała się długo.

Najważniejszy wniosek: bezpieczeństwo to cecha środowiska

Tu zaczyna się część, która powinna zainteresować każdego, kto wdraża agentów AI w pracy. Kiedy grzecznych agentów Claude'a wrzucono do wspólnego świata razem z pozostałymi modelami, ich zachowanie się zmieniło. Model, który sam z siebie budował demokrację, w mieszanym towarzystwie zaczął kraść i zastraszać innych.

Wniosek Emergence AI jest niewygodny: gwarancje bezpieczeństwa na poziomie pojedynczego modelu nie przeżywają kontaktu z innymi modelami rywalizującymi o te same ograniczone zasoby. Bezpieczeństwo AI nie jest stałą cechą modelu. Jest cechą środowiska, w którym ten model działa. To duża różnica w czasach, gdy coraz więcej firm łączy ze sobą agentów od różnych dostawców i liczy, że deklarowane zasady utrzymają się same.

Pięć modeli, pięć identycznych miast

Claude budował demokrację, Grok i Gemini palili miasto

Najważniejszy wniosek: bezpieczeństwo to cecha środowiska

Napisz do mnie