16 milionów rozmów ze sztuczną inteligencją. Tyle razy chińskie laboratoria AI wyciągnęły wiedzę z jednego amerykańskiego modelu. Anthropic właśnie opublikowało raport "Detecting and preventing distillation attacks", w którym wskazuje trzy chińskie firmy: DeepSeek, Moonshot AI i MiniMax.
Razem założyły ponad 24 tysiące fałszywych kont i prowadziły z Claude ponad 16 milionów wymian. Cel? Destylacja, czyli technika, w której słabszy model uczy się na odpowiedziach lepszego. Sam proces jest legalny, firmy używają go do tworzenia tańszych wersji własnych modeli. Problem zaczyna się wtedy, kiedy robi to konkurencja bez zgody.
Co dokładnie robiły poszczególne firmy?
DeepSeek prowadził ponad 150 tysięcy rozmów, w których prosił Claude, żeby krok po kroku wyjaśnił swoje rozumowanie. Dosłownie generowali sobie dane treningowe typu chain-of-thought. Co więcej, celowali w generowanie tzw. rubric-based grading, czyli ocenianie odpowiedzi na podstawie kryteriów. To dane bezpośrednio przydatne do budowania reward models w treningu RLHF. Na dokładkę kazali Claude tworzyć odpowiedzi bezpieczne pod kątem chińskiej cenzury na tematy o dysydentach czy autorytaryzmie.
Moonshot AI to 3,4 miliona wymian. Celowali w kodowanie, analizę danych, agentowe rozumowanie i computer use. Anthropic namierzyło ich po metadanych, które prowadziły wprost do profili pracowników Moonshota.
MiniMax to prawdziwy gigant: 13 milionów wymian. Anthropic złapało ich w trakcie akcji, zanim zdążyli wypuścić model, który trenowali. A kiedy Anthropic wydało nowy model, MiniMax w ciągu 24 godzin przekierował połowę ruchu na nową wersję, żeby przechwycić najnowsze możliwości.
Jak to ukrywali?
Anthropic opisuje infrastrukturę, którą nazywa "hydra clusters". To rozproszone sieci proxy rozsyłające ruch przez wiele platform chmurowych, bez jednego punktu awarii. Jedna taka sieć zarządzała jednocześnie ponad 20 tysięcy fałszywych kont, mieszając ruch destylacyjny ze zwykłymi zapytaniami. Wykryto identyczne wzorce, wspólne metody płatności i skoordynowane czasy, co sugerowało load balancing mający zwiększyć przepustowość i uniknąć detekcji.
Dlaczego to groźne?
Modele zbudowane przez nielegalną destylację prawdopodobnie nie zachowują zabezpieczeń bezpieczeństwa oryginalnego modelu. Oznacza to, że niebezpieczne zdolności mogą się rozprzestrzeniać z wyłączonymi zabezpieczeniami. Anthropic argumentuje, że takie modele mogłyby umożliwić "autorytarnym rządom wdrażanie AI do ofensywnych operacji cybernetycznych, kampanii dezinformacyjnych i masowej inwigilacji".
Kontekst: nie tylko Anthropic
Dwa tygodnie wcześniej OpenAI wysłało do Kongresu USA memo z podobnymi ostrzeżeniami, opisujące chińskie firmy używające wieloetapowych pipeline'ów łączących generowanie danych syntetycznych, czyszczenie danych na dużą skalę i optymalizację preferencji. OpenAI udokumentowało także sieci nieautoryzowanych resellerów odsprzedających dostęp do ich modeli.
Żadna z trzech chińskich firm nie odpowiedziała na prośby mediów o komentarz.
Walka o dominację w AI nabiera tempa, a destylacja staje się jednym z głównych pól bitwy między amerykańskimi i chińskimi laboratoriami.