Claude Opus 4.8: cztery razy rzadziej puszcza błąd w kodz...

Anthropic wypuścił Claude Opus 4.8 w środę 28 maja, zaledwie 41 dni po poprzedniej wersji. Cena ta sama, dostęp natychmiastowy w API, Bedrock, Vertex AI i Microsoft Foundry. Z perspektywy codziennego użytkownika ważne są trzy rzeczy.

Mniej halucynacji, więcej szczerości

Wcześniejsze modele Claude'a potrafiły deklarować, że skończyły zadanie, nawet jeśli wynik miał luki. Nowy Opus częściej przyznaje, że czegoś nie jest pewny i rzadziej podaje wnioski bez pokrycia. Anthropic podaje, że w testach około cztery razy rzadziej niż 4.7 przepuszcza własny błąd w kodzie bez oznaczenia go jako problematyczny. Na ewaluacji „uncritically reporting flawed results" Opus 4.8 jako pierwszy model Anthropic uzyskał wynik zero procent, czyli zero przypadków bezkrytycznego raportowania błędnych wyników.

Sterowanie wysiłkiem rozumowania

Obok wyboru modelu na claude.ai pojawił się nowy suwak effort control. Decydujesz sam, jak mocno model ma się postarać. Większy wysiłek to głębsze rozumowanie i lepszy wynik kosztem czasu odpowiedzi i szybciej zużywanych limitów. Mniejszy wysiłek to szybsze odpowiedzi i wolniejsze wypalanie limitów rate limit. Opcja jest dostępna na claude.ai i w Coworku, nie wymaga droższego planu.

Dłuższe sesje i dynamic workflows w Claude Code

Opus 4.8 lepiej trzyma kontekst i styl użytkownika przez całą rozmowę. Potrafi też pracować samodzielnie dłużej, bez gubienia wątku w wieloetapowych zadaniach. Największa zmiana czeka tych, którzy używają Claude Code: nowa funkcja Dynamic Workflows w research preview. Działa zupełnie inaczej niż zwykły dialog z modelem.

Zamiast jednego asystenta wykonującego zadania po kolei, Claude rozbija duży problem na fragmenty i uruchamia dziesiątki lub setki pomocniczych agentów równolegle. Jedni piszą swój kawałek, drudzy od razu go sprawdzają i próbują podważyć. Całość spina się dopiero, gdy weryfikacja przejdzie. Anthropic pokazuje, że w tym trybie Claude Code potrafi przeprowadzić migrację bazy kodu liczącej setki tysięcy linii, od startu do mergea, używając istniejących testów jako progu jakości.

Co z tego wynika

Pierwsza rzecz dotyczy każdego, druga prawie każdego, trzecia tylko osób pracujących z kodem. Najbardziej praktyczna w codzienności jest szczerość modelu, bo zmienia podejście do tego, ile czasu musisz poświęcać na weryfikację jego odpowiedzi. Effort control to wreszcie świadomy kompromis między jakością a limitami. Dynamic Workflows to zapowiedź, jak będzie wyglądała codzienna praca z AI w większych projektach.

Mniej halucynacji, więcej szczerości

Sterowanie wysiłkiem rozumowania

Dłuższe sesje i dynamic workflows w Claude Code

Co z tego wynika

Napisz do mnie