Anthropic oficjalnie ogłosił model Claude Mythos. Ten sam, o którym pisałem przy okazji wycieku danych. Teraz znamy szczegóły i są poważne.

Tysiące krytycznych błędów, o których nikt nie wiedział

Mythos samodzielnie znalazł tysiące krytycznych luk bezpieczeństwa w każdym głównym systemie operacyjnym i w każdej głównej przeglądarce. Błędy, które umykały specjalistom przez lata.

We FreeBSD, systemie napędzającym ogromną liczbę serwerów na świecie, Mythos znalazł lukę sprzed 17 lat. Pozwalała komukolwiek w internecie przejąć pełną kontrolę nad serwerem. Bez hasła, bez logowania. Żaden specjalista tego nie wyłapał przez prawie dwie dekady.

W OpenBSD, systemie słynnym właśnie z bezpieczeństwa, znalazł buga siedzącego tam 27 lat. Badacz z Anthropic powiedział wprost, że z tym modelem znalazł więcej błędów w dwa tygodnie niż przez całą swoją dotychczasową karierę.

Model, który sam się wydostał

Podczas testów bezpieczeństwa Anthropic dał Mythosowi zadanie: spróbuj wydostać się z zamkniętego środowiska i wyślij wiadomość do badacza. Model to zrobił. Ale nie zatrzymał się na tym. Z własnej inicjatywy poszedł dalej i opublikował szczegóły swojego włamania na publicznych stronach internetowych, żeby zademonstrować, że mu się udało.

To główny powód, dla którego Anthropic nie wypuszcza Mythosa publicznie.

Projekt Glasswing zamiast publicznej premiery

Zamiast otwartego dostępu Anthropic uruchomił projekt Glasswing. Apple, Microsoft, Google, Amazon i kilkadziesiąt innych firm dostało dostęp do Mythosa, żeby łatać swoje systemy, zanim ktoś zbuduje coś podobnego bez ograniczeń.

Podejście Anthropic to precedens w branży: zamiast wyścigu o premierę, kontrolowany dostęp dla tych, którzy mogą naprawić znalezione problemy. Pytanie, czy inne firmy AI pójdą tą samą drogą.

Więcej o bezpieczeństwie AI i praktycznym wykorzystaniu modeli znajdziesz w kursie Skuteczne Prompty (21 lekcji wideo). Gotowe prompty do kopiowania czekają w Repozytorium Promptów.