Gemini 3.1 Pro Komplet Guide: Benchmarks, Priser, API & Alt du bør vide
19. februar 2026 — Google har netop udgivet Gemini 3.1 Pro, og det er et betydeligt spring fremad. Med 77,1% på ARC-AGI-2 (mere end dobbelt så meget som Gemini 3 Pros 31,1%), 80,6% på SWE-Bench Verified og 94,3% på GPQA Diamond, er dette første gang Google har udgivet en 0,1-stigning — og ydelsesforbedringerne retfærdiggør at bryde traditionen.
Det bedste af det hele? Det er samme pris som Gemini 3 Pro — $2 pr. million input-tokens. Hvis du allerede bruger Gemini 3 Pro, er dette en gratis opgradering.
Denne guide dækker alt: hvad der er ændret, fulde benchmark-gennemgange, API-priser, hvordan man kommer i gang, kodningsegenskaber samt ærlige fordele og ulemper.
Hvad er Gemini 3.1 Pro?
Gemini 3.1 Pro er Google DeepMinds nyeste flagskibsmodel, der placerer sig mellem den hurtige Gemini 3 Flash og den forskningsfokuserede Gemini 3 Deep Think. Den er designet til komplekst ræsonnement, problemløsning i flere trin og produktionsopgaver, der kræver mere end overfladiske svar.
Hvad er nyt i forhold til Gemini 3 Pro
| Funktion | Gemini 3 Pro | Gemini 3.1 Pro |
|---|---|---|
| ARC-AGI-2 | 31,1% | 77,1% (+148%) |
| SWE-Bench Verified | ~68% | 80,6% (+18%) |
| GPQA Diamond | ~87% | 94,3% |
| Tænkeniveauer | Basal | Lav / Medium / Høj |
| Output-effektivitet | Baseline | Færre tokens, bedre resultater |
| Prissætning | $2/$12 pr. 1M | $2/$12 pr. 1M (samme) |
Den vigtigste arkitektoniske forbedring ligger i, hvordan modellen håndterer "tænke"-tokens. Gemini 3.1 Pro bruger ræsonnement mere effektivt og kræver færre output-tokens, mens den leverer mere pålidelige resultater. JetBrains' direktør for AI, Vladislav Tankov, beskrev den som "stærkere, hurtigere... og mere effektiv."
Benchmark-dybdedyk
Google rapporterer, at Gemini 3.1 Pro fører på 13 ud af 16 benchmarks, de har evalueret. Her er den fulde sammenligning:
Ræsonnement & Videnskab
| Benchmark | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2 | Gemini 3 Pro |
|---|---|---|---|---|
| ARC-AGI-2 | 77,1% | 37,6% | 54,2% | 31,1% |
| GPQA Diamond | 94,3% | 91,3% | 92,4% | ~87% |
| Humanity's Last Exam (uden værktøjer) | 44,4% | 41,2% | 34,5% | 37,5% |
| Humanity's Last Exam (med værktøjer) | 51,4% | 53,1% | — | — |
| MMMMU-Pro | 75,8% | — | — | — |
Kodning
| Benchmark | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.3-Codex | Gemini 3 Pro |
|---|---|---|---|---|
| SWE-Bench Verified | 80,6% | 72,6% | 76,2% | ~68% |
| LiveCodeBench Pro | 2887 Elo | — | — | — |
| Terminal-Bench 2.0 | 68,5% | — | 77,3% | — |
| SWE-Bench Pro (Offentlig) | 54,2% | — | 56,8% | — |
Agentiske opgaver
| Benchmark | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2 |
|---|---|---|---|
| APEX-Agents | 33,5% | 29,8% | 23,0% |
| Long-Context MRCR v2 (128k) | 84,9% | 84,9% (uafgjort) | — |
Her vinder hver model
- Gemini 3.1 Pro: Ræsonnement (ARC-AGI-2), videnskab (GPQA), agentiske opgaver (APEX), SWE-Bench Verified, pris-ydelse
- Claude Opus 4.6: Ekspertpræferencer (GDPval-AA Elo: 1606 mod 1317), Humanity's Last Exam med værktøjer, Arena kodning-leaderboard
- GPT-5.3-Codex: Terminal-Bench 2.0, SWE-Bench Pro — specialiserede kodnings-benchmarks
For mere om hvordan Claude og GPT sammenlignes, se vores GPT-5.3 Codex vs Claude Opus 4.6 kodnings-sammenligning.
API Priser & Planer
Gemini 3.1 Pro opretholder identiske priser som Gemini 3 Pro — en massiv ydelsesopgradering uden ekstra omkostninger.
API Priser
| Niveau | Input (pr. 1M tokens) | Output (pr. 1M tokens) |
|---|---|---|
| Op til 200K kontekst | $2.00 | $12.00 |
| Over 200K kontekst | $4.00 | $18.00 |
| Kontekst-cache (hit) | $0.50 | $12.00 |
Omkostningssammenligning
| Model | Input (pr. 1M) | Output (pr. 1M) | Relativ pris |
|---|---|---|---|
| Gemini 3.1 Pro | $2.00 | $12.00 | 1x (baseline) |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 1.5x / 1.25x |
| Claude Opus 4.6 | $15.00 | $75.00 | 7.5x / 6.25x |
| GPT-5.2 | ~$10.00 | ~$30.00 | 5x / 2.5x |
Abonnementer
| Plan | Pris | Hvad du får |
|---|---|---|
| Gratis (AI Studio) | $0 | API-adgang med rate limits |
| Google AI Pro | $19,99/md | Fuld adgang til 3.1 Pro, Deep Research, 1M kontekst |
| Google AI Ultra | $124,99/md | Alt + Deep Think, Veo 3.1 Fast, højeste grænser |
Sådan bruger du Gemini 3.1 Pro
Google AI Studio (Hurtigste start)
- Gå til Google AI Studio
- Vælg Gemini 3.1 Pro Preview fra model-dropdown-menuen
- Start med at skrive prompts — gratis med rate limits
API-adgang (Python)
from google import genai
client = genai.Client(api_key="YOUR_API_KEY")
response = client.models.generate_content(
model="gemini-3.1-pro-preview",
contents="Explain the architectural differences between microservices and monoliths",
config={
"thinking_config": {"thinking_level": "MEDIUM"}
}
)
print(response.text)
API-adgang (Node.js)
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({ apiKey: "YOUR_API_KEY" });
const response = await ai.models.generateContent({
model: "gemini-3.1-pro-preview",
contents: "Write a Python function to merge two sorted arrays efficiently",
});
console.log(response.text);
Andre platforme
- Gemini CLI:
gemini --model gemini-3.1-pro-preview "din prompt" - GitHub Copilot: Vælg Gemini 3.1 Pro fra modelvælgeren
- VS Code: Tilgængelig via Copilot-udvidelsen
- Vertex AI: Til virksomhedsopgaver med SLA'er
- Google Antigravity: Googles agentiske udviklingsplatform
Kodningsegenskaber
Gemini 3.1 Pro er en kodningsmodel i topklasse. Benchmarks fortæller historien:
- SWE-Bench Verified: 80,6% — løser reelle GitHub-problemer fra start til slut
- LiveCodeBench Pro: 2887 Elo — konkurrencedygtig kodningsydelse
- 15% forbedring i forhold til de bedste Gemini 3 Pro Preview-kørsler
Hvad den kan gøre
Kodegenerering: Skriv fulde funktioner, moduler og applikationer ud fra beskrivelser. Konteksten på 1M tokens betyder, at den kan forstå hele din kodebase, før den genererer ny kode.
Fejlfinding (Debugging): Giv den fejllogfiler, stack traces og de relevante kilde-filer. Med det høje tænkeniveau ræsonnerer den systematisk gennem komplekse fejl i flere filer.
Kodegennemgang: På Medium tænkeniveau giver den en afbalanceret kodegennemgang — finder fejl uden at over-ræsonnere over simple ændringer.
Kreativ kodning: Gemini 3.1 Pro kan oversætte design-intention til kode. Hostinger bemærkede, at den "forstår stemningen bag en brugers prompt" og genererer kode, der afspejler stil og produkt-intention, ikke kun syntaks.
SVG-generering: En fremragende egenskab — den genererer hjemmeside-klare animerede SVG'er direkte fra tekstbeskrivelser. Da disse er ren kode, forbliver de skarpe i enhver opløsning.
Hvor den halter bagefter
GPT-5.3-Codex fører stadig på Terminal-Bench 2.0 (77,3% mod 68,5%) og SWE-Bench Pro (56,8% mod 54,2%). Til højt specialiserede kodningsopgaver, der kræver dyb terminal-interaktion, forbliver OpenAIs Codex-modeller foran.
For en detaljeret sammenligning af kodningsegenskaber, se vores Cursor vs Windsurf vs Claude Code sammenligning.
1M Token Kontekstvindue
Input-konteksten på 1 million tokens er en af Gemini 3.1 Pros største fordele. For at sætte dette i perspektiv:
| Indholdstype | Omtrentlig størrelse |
|---|---|
| Gennemsnitlig roman | ~100K tokens |
| Stor kodebase (500 filer) | ~500K tokens |
| Fuldt sæt juridiske kontrakter | ~200K tokens |
| Samling af forskningsartikler (20 stk) | ~400K tokens |
Brugsscenarier
- Kodebase-analyse: Indlæs et helt repo og stil spørgsmål om arkitektur, find fejl på tværs af filer eller planlæg refactoring.
- Dokumentbehandling: Upload lange kontrakter, compliance-dokumenter eller forskningsartikler til analyse.
- Forsker-chat over flere omgange: Bevar en omfattende samtalekontekst uden at miste tidligere information.
- Krydsreference: Analyser flere dokumenter samtidigt for at finde modstridende oplysninger eller sammenhænge.
Claude Opus 4.6 understøtter 200K tokens — betydeligt, men Geminis 1M giver den en 5x fordel til opgaver med lang kontekst. Begge scorede 84,9% på MRCR v2 (128K gennemsnit), hvilket tyder på sammenlignelig kvalitet inden for det fælles kontekstområde.
Tænkeniveauer: Lav, Medium, Høj
Gemini 3.1 Pro introducerer konfigurerbare tænkeniveauer, der lader dig styre ræsonnement-dybden pr. anmodning:
| Niveau | Bedst til | Ræsonnement-dybde | Prispåvirkning |
|---|---|---|---|
| Lav | Autofuldførelse, simple opslag, klassificering | Minimal | Lavest |
| Medium | Kodegennemgang, opsummering, moderat analyse | Afbalanceret | Standard |
| Høj | Kompleks fejlfinding, ræsonnement i flere trin, forskning | Dyb | Højest |
Sådan indstilles tænkeniveauet
response = client.models.generate_content(
model="gemini-3.1-pro-preview",
contents="Debug this race condition in my Go server...",
config={
"thinking_config": {"thinking_level": "HIGH"}
}
)
Dette er et praktisk værktøj til omkostningsoptimering. Ikke alle anmodninger har brug for maksimalt ræsonnement — ved at bruge Lav til simple opgaver og Høj kun til komplekse, kan du reducere dine API-udgifter betydeligt.
Fordele & Ulemper
Fordele
- Bedste pris-ydelsesforhold: Fører de fleste benchmarks til $2/$12 pr. 1M tokens — 7,5x billigere end Opus 4.6 på input.
- 1M token kontekst: Største produktionskontekstvindue blandt førende modeller.
- ARC-AGI-2 dominans: 77,1% ræsonnement-score, mere end det dobbelte af enhver tidligere Gemini-model.
- Stærk kodning: 80,6% SWE-Bench Verified, konkurrencedygtig med de bedste.
- Tænkeniveauer: Finmasket kontrol over omkostninger vs. ræsonnement-dybde.
- Bred tilgængelighed: AI Studio, API, GitHub Copilot, CLI, VS Code, Vertex AI.
- Gratis opgradering: Samme pris som Gemini 3 Pro med dramatisk bedre ydelse.
- Kontekst-caching: Op til 75% omkostningsreduktion på gentagne kontekster.
Ulemper
- Preview-status: Stadig i preview, endnu ikke generelt tilgængelig som en stabil udgivelse.
- Terminal-Bench hul: GPT-5.3-Codex fører med 8,8 point på terminal-baserede kodningsopgaver.
- Ekspertpræferencer: Claude Opus 4.6 foretrækkes stadig af menneskelige evaluatorer til ekspertopgaver (GDPval-AA).
- Arena-rangeringer: Ligger efter Claude på Arena.ai leaderboards for tekst- og kodningspræferencer.
- Output-grænse: 64K output-tokens mod potentielt større outputs fra visse konkurrenter.
- Google-økosystem: Den dybeste integration findes inden for Googles egen værktøjskæde.
Hvem bør bruge Gemini 3.1 Pro?
| Hvis du har brug for... | Brug Gemini 3.1 Pro? |
|---|---|
| Budgetvenlig top-AI | Ja — bedste pris-ydelse |
| Behandling af lang kontekst (>200K) | Ja — 1M tokens er uovertruffen |
| Produktionskodning (SWE-Bench opgaver) | Ja — 80,6% er topklasse |
| Ekspert-analyse og skrivning | Overvej Claude Opus 4.6 |
| Specialiseret terminal-kodning | Overvej GPT-5.3-Codex |
| Dyb videnskabelig ræsonnement | Overvej Gemini 3 Deep Think |
| Hurtig, billig inferens | Overvej Gemini 3 Flash |
Den nederste linje
Gemini 3.1 Pro er den bedste værdi i førende AI lige nu. Den fører på størstedelen af benchmarks, mens den koster en brøkdel af Claude Opus 4.6 eller GPT-5.2. Kontekstvinduet på 1M tokens og de konfigurerbare tænkeniveauer gør den særligt stærk for udviklere og virksomheder, der behandler store dokumenter eller kodebaser.
Den er ikke perfekt — Claude Opus 4.6 vinder stadig på præferencer for ekspertopgaver, og GPT-5.3-Codex fører på specialiserede kodnings-benchmarks. Men til prisen leverer Gemini 3.1 Pro flere funktioner pr. dollar end nogen anden førende model tilgængelig i dag.
Hvis du bygger AI-baserede applikationer, så tjek hvordan vibe coding ændrer, hvordan udviklere sender produkter på gaden — og hvordan modeller som Gemini 3.1 Pro driver den næste generation af app-byggere.