GPT-5.4 API Developer Guide: Reasoning Effort, Computer Use, en Code Examples (2026)
← Powrót do aktualności

GPT-5.4 API Developer Guide: Reasoning Effort, Computer Use, en Code Examples (2026)

N

NxCode Team

11 min read

Kluczowe wnioski

  • Pięć poziomów reasoning.effort: Parametr reasoning.effort (none, low, medium, high, xhigh) kontroluje kompromis między kosztem a jakością na każde zapytanie -- none zachowuje się jak model niemyślący (najszybszy/najtańszy), podczas gdy xhigh zapewnia maksymalną głębię przy 3-5-krotnie wyższym koszcie.
  • Natywne computer use przez API: GPT-5.4 potrafi obsługiwać aplikacje desktopowe, klikać przyciski i autonomicznie nawigować po interfejsach użytkownika, osiągając wynik 75% w OSWorld (przekraczając poziom bazowy ludzkiego eksperta wynoszący 72.4%) -- funkcja dostępna poprzez przekazanie typu narzędzia computer_use.
  • Kontekst 1M+ tokens za $2.50/$15: Okno wejściowe o rozmiarze 1,050,000-token przetwarza całe bazy kodu w jednym zapytaniu, choć cena za input podwaja się powyżej 272K tokens.
  • GPT-5.4 Pro kosztuje 12x więcej: Zarezerwuj wariant Pro kosztujący $30/$180 za milion tokens dla zadań o wysokiej stawce, gdzie dokładność jest krytyczna -- dla zdecydowanej większości obciążeń roboczych korzystaj ze standardowego GPT-5.4.

GPT-5.4 API Przewodnik dla programistów: Reasoning Effort, Computer Use i przykłady kodu

March 11, 2026 -- GPT-5.4 to najbardziej zaawansowany model OpenAI do tej pory, wyposażony w funkcje API, które znacząco zmieniają sposób budowania rozwiązań. Regulowany wysiłek rozumowania (reasoning effort), natywne computer use, okno kontekstowe 1M+ tokens i znacząco usprawnione generowanie kodu -- wszystko to przez ten sam endpoint Chat Completions, który już znasz.

Ten przewodnik jest przeznaczony dla programistów, którzy chcą zacząć budować z GPT-5.4 API już dziś. Bez marketingowego lania wody. Tylko ID modeli, parametry, przykłady kodu, wyliczenia cen i praktyczne kompromisy, które musisz wziąć pod uwagę.


Szybki start

ID modeli

ModelAPI IDNajlepszy do
GPT-5.4gpt-5.4Zadania ogólnego przeznaczenia, programowanie, reasoning, computer use
GPT-5.4 Progpt-5.4-proMaksymalna dokładność w złożonych zadaniach o wysokiej stawce

Twoje pierwsze wywołanie API

from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="gpt-5.4",
    messages=[
        {"role": "user", "content": "Explain the tradeoffs between B-trees and LSM-trees for write-heavy workloads."}
    ]
)

print(response.choices[0].message.content)

To wszystko. Jeśli korzystałeś z jakiegokolwiek modelu GPT przez API Chat Completions, GPT-5.4 jest zamiennikiem typu drop-in. Różnice tkwią w nowych parametrach i możliwościach.

Cennik

ModelInputOutputUwagi
GPT-5.4$2.50 / 1M tokens$15.00 / 1M tokensInput podwaja się powyżej 272K tokens
GPT-5.4 Pro$30.00 / 1M tokens$180.00 / 1M tokens12x koszt wersji standardowej

Okno kontekstowe: 1,050,000 tokens input, 128,000 tokens max output.

Wymagania dostępu: Płatne konto API z minimalnymi wcześniejszymi wydatkami w wysokości $5 (Tier 1). Niedostępne w darmowej wersji.


Reasoning Effort: Kontrolowanie budżetu na myślenie

Najważniejszym nowym parametrem w GPT-5.4 jest reasoning.effort. Kontroluje on, jak wiele wewnętrznych zasobów obliczeniowych model przeznacza na rozumowanie typu chain-of-thought przed wygenerowaniem odpowiedzi.

Pięć poziomów

PoziomZachowanieKiedy używać
noneBrak chain-of-thought. Najszybszy, najtańszy. Zachowuje się jak model niemyślący.Proste transformacje, formatowanie, ekstrakcja
lowMinimalne rozumowanie. Szybkie testy poprawności.Proste Q&A, klasyfikacja, podsumowanie
mediumZrównoważone rozumowanie. Jest to ustawienie domyślne.Ogólne programowanie, analiza, większość obciążeń produkcyjnych
highRozszerzone łańcuchy rozumowania. Bardziej gruntowne.Złożone debugowanie, decyzje architektoniczne, wieloetapowa logika
xhighMaksymalna głębia rozumowania. Najwolniejszy, ale najdokładniejszy.Trudna matematyka, duże refaktoryzacje, audyty bezpieczeństwa, badania

Przykład kodu: Ustawianie Reasoning Effort

from openai import OpenAI
client = OpenAI()

# High reasoning dla złożonego zadania refaktoryzacji
response = client.chat.completions.create(
    model="gpt-5.4",
    reasoning={"effort": "high"},
    messages=[
        {"role": "user", "content": "Refactor this function to use async/await and handle all edge cases for network failures, timeouts, and partial responses:\n\ndef fetch_all_pages(url):\n    results = []\n    while url:\n        resp = requests.get(url)\n        data = resp.json()\n        results.extend(data['items'])\n        url = data.get('next')\n    return results"}
    ]
)

Praktyczne wskazówki dotyczące poziomów rozumowania

Zacznij od medium i dostosuj. Dla większości obciążeń API, ustawienie domyślne jest właściwym wyborem. Oto jak o tym myśleć:

  • Ścieżki wrażliwe na opóźnienia (autouzupełnianie, czat, interfejsy w czasie rzeczywistym): Używaj low lub none. Różnica w szybkości jest znaczna, a w zadaniach takich jak formatowanie tekstu czy proste wyszukiwanie, dodatkowe rozumowanie nie wnosi żadnej wartości.

  • Przetwarzanie wsadowe (potoki przeglądu kodu, analiza dokumentów, ekstrakcja danych): Używaj high. Nie blokujesz użytkownika, więc dodatkowe opóźnienie nie ma znaczenia, a poprawa dokładności kumuluje się przy setkach elementów.

  • Pojedyncze żądania o wysokiej stawce (audyt bezpieczeństwa bazy kodu, planowanie złożonej migracji, projektowanie nowatorskich algorytmów): Używaj xhigh. To tutaj 12-krotnie większe zasoby obliczeniowe zwracają się z nawiązką.

Konsekwencje kosztowe: Wyższy wysiłek rozumowania oznacza generowanie (i bilingowanie) większej liczby wewnętrznych tokens. Żądanie na poziomie xhigh może kosztować 3--5x więcej niż to samo żądanie na poziomie low. Monitoruj zużycie tokens przy zmianie poziomów.


Computer Use API

GPT-5.4 to pierwszy model ogólnego przeznaczenia z natywnymi możliwościami computer-use. W benchmarku OSWorld osiąga wynik 75% -- przewyższając poziom bazowy ludzkiego eksperta wynoszący 72.4%. To nie jest tylko nakładka na zrzuty ekranu. Model natywnie rozumie interfejsy desktopowe i potrafi obsługiwać je autonomicznie.

Jak to działa

  1. Wysyłasz prompt opisujący zadanie do wykonania.
  2. Model wykonuje zrzuty ekranu środowiska docelowego.
  3. Generuje kliknięcia myszą, dane wejściowe z klawiatury i akcje nawigacyjne.
  4. Wykonuje pętlę build-run-verify-fix, aby sprawdzić własną pracę.
  5. Zwraca wyniki lub prosi o wyjaśnienia.

Przykład kodu: Computer Use

from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="gpt-5.4",
    tools=[{"type": "computer_use"}],
    messages=[
        {"role": "user", "content": "Open the browser, go to github.com, and create a new repository called 'my-project'"}
    ]
)

Co potrafi Computer Use

  • Automatyzacja przeglądarki: Wypełnianie formularzy, nawigacja po wieloetapowych procesach, scrapowanie strukturalnych danych z dynamicznych stron.
  • Obsługa aplikacji desktopowych: Otwieranie aplikacji, interakcja z natywnymi interfejsami użytkownika, przesyłanie danych między programami.
  • Przepływy testowe: Przechodzenie przez ścieżki UI, weryfikacja stanów wizualnych, sprawdzanie sekwencji onboardingowych.
  • Wprowadzanie danych: Przenoszenie danych między arkuszami kalkulacyjnymi, systemami CRM i wewnętrznymi narzędziami.

Ograniczenia, o których warto wiedzieć

  • Opóźnienie (Latency): Każdy cykl akcji obejmuje zrzut ekranu, inferencję modelu i wykonanie akcji. Wieloetapowe zadania zajmują czas rzeczywisty.
  • Wymagany nadzór: Nie uruchamiaj computer use bez nadzoru na wrażliwych systemach. Model może kliknąć niewłaściwe miejsce, błędnie zinterpretować elementy UI lub podjąć niezamierzone działania.
  • Konfiguracja środowiska: Computer use wymaga środowiska graficznego. W przypadku automatyzacji po stronie serwera potrzebny jest wirtualny ekran (np. Xvfb na Linux lub wirtualny pulpit).
  • Brak domyślnego dostępu do systemu plików: Computer use działa przez interfejs użytkownika, a nie bezpośrednie wywołania systemu plików. Połącz go z narzędziami do wykonywania kodu dla hybrydowych przepływów pracy.

Programowanie z GPT-5.4

GPT-5.4 dziedziczy i ulepsza możliwości programistyczne GPT-5.3 Codex. Benchmarki mówią same za siebie:

BenchmarkWynik GPT-5.4Co testuje
SWE-bench Pro57.7%Rozwiązywanie rzeczywistych problemów na GitHub
SWE-bench Verified~80%Wyselekcjonowany podzbiór SWE-bench
Terminal-Bench 2.075.1%Zadania programistyczne oparte na terminal

Co się zmieniło w porównaniu do GPT-5.3 Codex

  • 47% mniej tokens w złożonych zadaniach -- mniej gadatliwe wyjście, bardziej zwięzły kod.
  • Zmiany w wielu plikach przy mniejszej liczbie powtórzeń -- lepsze zrozumienie zależności między plikami.
  • Naśladowanie wzorców specyficznych dla repozytorium -- dostosowuje się do konwencji Twojej bazy kodu po podaniu kontekstu.
  • 33% mniej błędów merytorycznych -- mniej halucynacji w dokumentacji API, użyciu bibliotek i konfiguracji.

Porady dla lepszego generowania kodu

1. Używaj promptów systemowych do ustalania standardów kodowania.

response = client.chat.completions.create(
    model="gpt-5.4",
    reasoning={"effort": "high"},
    messages=[
        {"role": "system", "content": "You are a senior Python developer. Follow PEP 8. Use type hints. Write docstrings in Google style. Prefer composition over inheritance. Use dataclasses for DTOs."},
        {"role": "user", "content": "Implement a retry decorator with exponential backoff, jitter, and configurable max retries."}
    ]
)

2. Dostarczaj rzeczywisty kod jako kontekst. Okno kontekstowe GPT-5.4 o rozmiarze 1M tokens oznacza, że możesz dołączyć całe moduły, a nawet pełne repozytoria. Model tworzy znacznie lepszy kod, gdy widzi istniejące wzorce, typy i konwencje.

3. Ustaw reasoning effort na high lub xhigh dla złożonych zmian. Proste poprawki błędów działają dobrze na poziomie medium, ale refaktoryzacje architektoniczne, migracje i zmiany w wielu plikach zyskują mierzalnie na wyższym poziomie rozumowania.

4. Używaj max_completion_tokens, aby zapobiec zbyt długim odpowiedziom. Przy generowaniu kodu ustaw rozsądny limit, aby nie płacić za rozwlekłe wyjaśnienia, o które nie prosiłeś.

response = client.chat.completions.create(
    model="gpt-5.4",
    messages=[...],
    max_completion_tokens=4096
)

Strategie dla dużych kontekstów

Okno kontekstowe o rozmiarze 1,050,000-token to cicha supermoc GPT-5.4. Oto jak używać go efektywnie -- i unikać pułapek kosztowych.

Dopłata powyżej 272K

Cena za input podwaja się po przekroczeniu 272K tokens w pojedynczym zapytaniu. Oznacza to, że zapytanie o rozmiarze 500K tokens kosztuje w przybliżeniu:

  • Pierwsze 272K tokens: 272K x $2.50/1M = $0.68
  • Pozostałe 228K tokens: 228K x $5.00/1M = $1.14
  • Całkowity koszt inputu: $1.82

Dla porównania, to samo zapytanie przy standardowym cenniku kosztowałoby $1.25. Dopłata zwiększa rachunek o ok. 46% w tym przypadku.

Przykład kodu: Korzystanie z dużego kontekstu

from openai import OpenAI
client = OpenAI()

# Załaduj całą bazę kodu do kontekstu
with open("codebase_dump.txt", "r") as f:
    full_codebase_content = f.read()

response = client.chat.completions.create(
    model="gpt-5.4",
    messages=[
        {"role": "system", "content": full_codebase_content},  # do 1M tokens
        {"role": "user", "content": "Find all security vulnerabilities in this codebase"}
    ],
    max_completion_tokens=8192
)

Najlepsze praktyki dla dużych kontekstów

Rób:

  • Umieszczaj najważniejsze pliki na początku. Model zwraca największą uwagę na początek i koniec kontekstu. Umieść pliki najbardziej istotne dla zadania jako pierwsze.
  • Używaj wiadomości systemowej dla materiałów referencyjnych. Umieść bazę kodu, dokumentację lub dane w wiadomości systemowej. Właściwe instrukcje umieść w wiadomości użytkownika.
  • Ustawiaj max_completion_tokens jawnie. Przy maksymalnym wyjściu 128K, nieograniczona odpowiedź przy dużym kontekście może szybko stać się kosztowna.

Nie rób:

  • Nie używaj zawsze pełnego okna. Jeśli zadanie wymaga tylko 50K tokens kontekstu, nie dopełniaj go do 1M. Płacisz za tokens wejściowe bez względu na to, czy model ich potrzebuje.
  • Nie ignoruj progu 272K. Konstruuj prompty tak, aby w miarę możliwości mieściły się poniżej 272K. Jeśli masz 280K, sprawdź, czy możesz usunąć 10K mniej istotnego kontekstu, aby zaoszczędzić na dopłacie.
  • Nie oczekuj idealnego przypominania (recall) w całym 1M tokens. Wydajność stopniowo spada wraz z długością kontekstu. Aby uzyskać najwyższą dokładność, trzymaj najważniejsze informacje w obrębie pierwszych 200K tokens.

GPT-5.4 vs GPT-5.4 Pro: Kiedy przejść na wyższą wersję

GPT-5.4 Pro kosztuje 12x więcej niż standardowy GPT-5.4. Oto kiedy jest to uzasadnione.

WymiarGPT-5.4GPT-5.4 Pro
Koszt Input$2.50 / 1M$30.00 / 1M
Koszt Output$15.00 / 1M$180.00 / 1M
Najlepszy doWiększość zadań programistycznychMaksymalna dokładność w trudnych problemach
Głębokość rozumowaniaSilna na wszystkich poziomachDomyślnie głębsze wewnętrzne rozumowanie
Opóźnienie (Latency)StandardoweWyższe (więcej obliczeń na zapytanie)

Używaj standardowego GPT-5.4, gdy:

  • Budujesz aplikacje produkcyjne z przewidywalnymi kosztami.
  • Zadania są dobrze zdefiniowane (CRUD, transformacje, standardowe programowanie).
  • Potrzebujesz niższych opóźnień dla funkcji skierowanych do użytkownika.
  • Przetwarzasz duże ilości zapytań.

Używaj GPT-5.4 Pro, gdy:

  • Dokładność w pojedynczym zapytaniu liczy się bardziej niż koszt (analiza prawna, badania medyczne, audyty bezpieczeństwa).
  • Rozwiązujesz nowatorskie problemy, dla których model nie widział wielu przykładów.
  • Wielostopniowe łańcuchy rozumowania muszą być absolutnie szczelne.
  • Przeprowadzasz konkurencyjne benchmarki lub ewaluacje.

Praktyczna zasada: Domyślnie używaj wersji standardowej. Przetestuj najtrudniejsze przypadki na obu modelach. Jeśli Pro konsekwentnie daje lepsze wyniki w Twoim konkretnym scenariuszu, przełącz te specyficzne wywołania na Pro, a resztę zostaw na wersji standardowej.


Migracja z GPT-5.3 Codex

Jeśli obecnie używasz GPT-5.3 Codex (lub GPT-5.2-Codex), oto kluczowe różnice, które należy zaplanować.

Co się zmienia

ObszarGPT-5.3 CodexGPT-5.4
Model IDgpt-5.3-codexgpt-5.4
Okno kontekstowe1,000,000 tokens1,050,000 tokens
Computer useNiedostępneNatywne wsparcie
Reasoning effortWspieraneWspierane (ten sam parametr)
Cena (input)Zależna od wariantu$2.50 / 1M tokens
Cena (output)Zależna od wariantu$15.00 / 1M tokens
Wydajność tokensPoziom bazowy47% mniej tokens w złożonych zadaniach

Lista kontrolna migracji

  1. Zmień Model ID. Zmień gpt-5.3-codex na gpt-5.4 w swoich wywołaniach API.
  2. Przetestuj ustawienia reasoning effort. Istnieją te same poziomy wysiłku (od none do xhigh), ale GPT-5.4 może oferować inne kompromisy jakościowe na każdym poziomie. Ponownie oceń swoje ustawienia domyślne.
  3. Przejrzyj budżety tokens wyjściowych. GPT-5.4 jest bardziej zwięzły (47% mniej tokens w złożonych zadaniach). Możesz być w stanie obniżyć max_completion_tokens i zaoszczędzić na kosztach wyjściowych.
  4. Oceń computer use. Jeśli używałeś obejść dla automatyzacji UI (skrypty Selenium, niestandardowe narzędzia), natywne computer use w GPT-5.4 może je zastąpić.
  5. Uważaj na dopłatę powyżej 272K. Jeśli Twoje obciążenia w Codex wykorzystywały duże konteksty, ale mieściły się w strukturze cenowej Codex, przelicz koszty przy warstwowym cenniku inputu GPT-5.4.

Co pozostaje bez zmian

  • Endpoint API Chat Completions jest identyczny.
  • Role wiadomości system/user/assistant działają tak samo.
  • Streaming, function calling i tool use są w pełni kompatybilne.
  • Składnia parametru reasoning pozostaje bez zmian.

Przegląd benchmarków

Dla szybkiego odniesienia, oto jak GPT-5.4 wypada w benchmarkach najważniejszych dla programistów:

BenchmarkWynikCo mierzy
SWE-bench Pro57.7%Złożona, rzeczywista inżynieria oprogramowania
SWE-bench Verified~80%Wyselekcjonowane rozwiązywanie problemów z GitHub
Terminal-Bench 2.075.1%Zadania programistyczne i systemowe oparte na terminal
OSWorld75.0%Obsługa komputera desktopowego (ludzki poziom bazowy: 72.4%)
GDPval83%Profesjonalna praca umysłowa w 44 zawodach

Dodatkowe wskaźniki jakości:

  • 33% mniej błędów merytorycznych w porównaniu do GPT-5.2.
  • 18% mniej odpowiedzi z jakimkolwiek błędem ogółem.

Podsumowanie

GPT-5.4 nie jest rewolucyjną zmianą w API -- jest zmianą praktyczną. Ten sam endpoint, ten sam format wiadomości, te same wzorce tool-use. Nowością jest to, że masz teraz precyzyjną kontrolę nad zasobami obliczeniowymi na rozumowanie, natywne computer-use bez narzędzi firm trzecich, okno kontekstowe wystarczające dla całych baz kodu i znacząco lepszy kod na wyjściu.

Trzy rzeczy, które należy zrobić teraz:

  1. Świadomie ustaw reasoning.effort. Nie polegaj na ustawieniu domyślnym dla każdego wywołania. Dopasuj poziom wysiłku do złożoności zadania oraz budżetu czasu i kosztów.
  2. Eksperymentuj z computer use. Jeśli masz jakiekolwiek procesy automatyzacji UI, przetestuj je z natywnymi możliwościami computer-use w GPT-5.4. Możesz być w stanie wycofać awaryjne skrypty Selenium.
  3. Przeprowadź audyt użycia kontekstu. Biorąc pod uwagę próg dopłaty 272K i okno 1M, możesz zaoszczędzić (lub stracić) realne pieniądze w zależności od tego, jak konstruujesz swoje prompty.

Model jest już dostępny pod identyfikatorem gpt-5.4 dla kont API od Tier 1 wzwyż. Zacznij budować.

Powrót do wszystkich aktualności
Podobał Ci się ten artykuł?

Buduj z NxCode

Zamień swój pomysł w działającą aplikację — bez programowania.

46 000+ deweloperów budowało z NxCode w tym miesiącu

Spróbuj sam

Opisz, czego chcesz — NxCode zbuduje to za Ciebie.

46 000+ deweloperów budowało z NxCode w tym miesiącu