Jest nowy model do obrazków w ChatGPT i jest naprawdę dobry. OpenAI wypuściło ChatGPT Images 2.0 dla wszystkich użytkowników. Dwa polskie testy pokazują, gdzie ten model robi różnicę.

Test 1: polskie menu na tablicy kredowej

Pierwszy prompt: menu polskiej karczmy na tablicy kredowej. Wynik zaskakuje. Polskie znaki zrobione poprawnie, czego dotąd brakowało większości generatorów. Model sam dorobił szyld „Karczma" w tle, lampę naftową i kwiaty w dzbanku, czyli kontekst, którego nie było w prompcie.

To duża zmiana. Wcześniejsze modele dorzucały albo angielskie napisy, albo zniekształcały „ż", „ś", „ć". Tu polski tekst wygląda jak napisany ręcznie kredą, bez literówek.

Test 2: infografika edukacyjna po polsku

Trudniejszy test: infografika, jak działa sieć neuronowa. Model wyprodukował:

  • pikselowego kota jako wejście (którego nawet nie było w prompcie)
  • mini ikonki krawędzi, kształtów i tekstur
  • wykres słupkowy z prawdopodobieństwem klas
  • trzy ponumerowane bloki wyjaśniające

Wszystko po polsku, bez literówek, z zachowaną hierarchią wizualną. Tego po prostu nie dało się zrobić jednym promptem rok temu.

Skąd ta skuteczność? Model najpierw planuje, potem rysuje

OpenAI dodało do modelu warstwę rozumienia. Model najpierw planuje układ jak projektant, dopiero potem rysuje. Podobnie działa najnowszy Gemini Pro. Może też przeszukać internet i zweryfikować fakty w locie, więc dane na infografice nie są zmyślone.

Inne nowości:

  • do ośmiu spójnych obrazów z jednego promptu
  • rozdzielczość 2K
  • postacie i produkty wyglądają tak samo na wszystkich ośmiu grafikach

Dla autorów książek, marketingowców i działów reklamy to konkretna oszczędność czasu. Wcześniej spójność postaci między grafikami wymagała setek prób albo modeli typu LoRA, teraz dostajesz to w pakiecie.

Kto dostaje co

Wersja podstawowa jest dla wszystkich, w tym dla użytkowników darmowych. Rozszerzony tryb (8 obrazów, 2K, planowanie układu) mają tylko Plus, Pro i Business. Jeśli korzystasz z ChatGPT płatnie, dostajesz to bez dopłat.

Testowałeś już Images 2.0? Jeśli chcesz rozumieć, jak pisać prompty pod nowe modele obrazkowe, zajrzyj do kursu Skuteczne Prompty (21 lekcji wideo). Sprawdzone schematy znajdziesz w Repozytorium Promptów.