Gemini 3.1 Pro Komplett Guide: Benchmarks, Priser, API og alt du trenger å vite
19. februar 2026 — Google har nettopp lansert Gemini 3.1 Pro, og det er et betydelig sprang fremover. Med 77,1 % på ARC-AGI-2 (mer enn det dobbelte av Gemini 3 Pros 31,1 %), 80,6 % på SWE-Bench Verified og 94,3 % på GPQA Diamond, er dette første gang Google har lansert en 0,1-oppdatering — og ytelsesgevinstene rettferdiggjør bruddet med tradisjonen.
Det beste av alt? Den har samme pris som Gemini 3 Pro — $2 per million inndata-tokens. Hvis du allerede bruker Gemini 3 Pro, er dette en gratis oppgradering.
Denne guiden dekker alt: hva som er endret, fullstendige benchmark-oversikter, API-prising, hvordan du kommer i gang, kodeegenskaper, samt ærlige fordeler og ulemper.
Hva er Gemini 3.1 Pro?
Gemini 3.1 Pro er Google DeepMinds nyeste flaggskipmodell, posisjonert mellom den raske Gemini 3 Flash og den forskningsfokuserte Gemini 3 Deep Think. Den er designet for kompleks resonnering, problemløsning i flere trinn og produksjonsarbeid som krever mer enn overfladiske svar.
Hva er nytt sammenlignet med Gemini 3 Pro
| Funksjon | Gemini 3 Pro | Gemini 3.1 Pro |
|---|---|---|
| ARC-AGI-2 | 31,1 % | 77,1 % (+148 %) |
| SWE-Bench Verified | ~68 % | 80,6 % (+18 %) |
| GPQA Diamond | ~87 % | 94,3 % |
| Tenkenivåer | Grunnleggende | Lav / Middels / Høy |
| Utdata-effektivitet | Basislinje | Færre tokens, bedre resultater |
| Prising | $2/$12 per 1M | $2/$12 per 1M (samme) |
Den viktigste arkitektoniske forbedringen ligger i hvordan modellen håndterer "tenke-tokens". Gemini 3.1 Pro bruker resonnering mer effektivt, og krever færre utdata-tokens samtidig som den leverer mer pålitelige resultater. JetBrains' AI-direktør, Vladislav Tankov, beskrev den som "sterkere, raskere... og mer effektiv."
Dypdykk i Benchmarks
Google rapporterer at Gemini 3.1 Pro leder på 13 av 16 benchmarks de evaluerte. Her er den fullstendige sammenligningen:
Resonnering og vitenskap
| Benchmark | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2 | Gemini 3 Pro |
|---|---|---|---|---|
| ARC-AGI-2 | 77,1 % | 37,6 % | 54,2 % | 31,1 % |
| GPQA Diamond | 94,3 % | 91,3 % | 92,4 % | ~87 % |
| Humanity's Last Exam (uten verktøy) | 44,4 % | 41,2 % | 34,5 % | 37,5 % |
| Humanity's Last Exam (med verktøy) | 51,4 % | 53,1 % | — | — |
| MMMMU-Pro | 75,8 % | — | — | — |
Koding
| Benchmark | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.3-Codex | Gemini 3 Pro |
|---|---|---|---|---|
| SWE-Bench Verified | 80,6 % | 72,6 % | 76,2 % | ~68 % |
| LiveCodeBench Pro | 2887 Elo | — | — | — |
| Terminal-Bench 2.0 | 68,5 % | — | 77,3 % | — |
| SWE-Bench Pro (Offentlig) | 54,2 % | — | 56,8 % | — |
Agent-oppgaver
| Benchmark | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2 |
|---|---|---|---|
| APEX-Agents | 33,5 % | 29,8 % | 23,0 % |
| Long-Context MRCR v2 (128k) | 84,9 % | 84,9 % (uavgjort) | — |
Hvor de ulike modellene vinner
- Gemini 3.1 Pro: Resonnering (ARC-AGI-2), vitenskap (GPQA), agent-oppgaver (APEX), SWE-Bench Verified, pris-ytelse.
- Claude Opus 4.6: Preferanser for ekspertoppgaver (GDPval-AA Elo: 1606 mot 1317), 'Humanity's Last Exam' med verktøy, Arena-ledertavle for koding.
- GPT-5.3-Codex: Terminal-Bench 2.0, SWE-Bench Pro — spesialiserte benchmarks for koding.
For mer om hvordan Claude og GPT sammenlignes, se vår GPT-5.3 Codex vs Claude Opus 4.6 sammenligning.
API-priser og planer
Gemini 3.1 Pro opprettholder identisk prising som Gemini 3 Pro — en massiv ytelsesoppgradering uten ekstra kostnad.
API-priser
| Nivå | Inndata (per 1M tokens) | Utdata (per 1M tokens) |
|---|---|---|
| Opptil 200K kontekst | $2.00 | $12.00 |
| Over 200K kontekst | $4.00 | $18.00 |
| Kontekst-cache (treff) | $0.50 | $12.00 |
Kostnadssammenligning
| Modell | Inndata (per 1M) | Utdata (per 1M) | Relativ kostnad |
|---|---|---|---|
| Gemini 3.1 Pro | $2.00 | $12.00 | 1x (basislinje) |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 1.5x / 1.25x |
| Claude Opus 4.6 | $15.00 | $75.00 | 7.5x / 6.25x |
| GPT-5.2 | ~$10.00 | ~$30.00 | 5x / 2.5x |
Abonnementsplaner
| Plan | Pris | Hva du får |
|---|---|---|
| Gratis (AI Studio) | $0 | API-tilgang med bruksbegrensninger |
| Google AI Pro | $19,99/mnd | Full tilgang til 3.1 Pro, Deep Research, 1M kontekst |
| Google AI Ultra | $124,99/mnd | Alt + Deep Think, Veo 3.1 Fast, høyeste grenser |
Slik bruker du Gemini 3.1 Pro
Google AI Studio (Raskeste start)
- Gå til Google AI Studio
- Velg Gemini 3.1 Pro Preview fra nedtrekksmenyen for modeller
- Begynn å skrive ledetekster — gratis med bruksbegrensninger
API-tilgang (Python)
from google import genai
client = genai.Client(api_key="YOUR_API_KEY")
response = client.models.generate_content(
model="gemini-3.1-pro-preview",
contents="Explain the architectural differences between microservices and monoliths",
config={
"thinking_config": {"thinking_level": "MEDIUM"}
}
)
print(response.text)
API-tilgang (Node.js)
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({ apiKey: "YOUR_API_KEY" });
const response = await ai.models.generateContent({
model: "gemini-3.1-pro-preview",
contents: "Write a Python function to merge two sorted arrays efficiently",
});
console.log(response.text);
Andre plattformer
- Gemini CLI:
gemini --model gemini-3.1-pro-preview "din ledetekst" - GitHub Copilot: Velg Gemini 3.1 Pro fra modellvelgeren
- VS Code: Tilgjengelig via Copilot-utvidelsen
- Vertex AI: For bedriftsarbeid med SLA-er
- Google Antigravity: Googles plattform for agentbasert utvikling
Kodeegenskaper
Gemini 3.1 Pro er en kodemodell i toppklassen. Benchmarkene forteller historien:
- SWE-Bench Verified: 80,6 % — løser reelle GitHub-problemer fra start til slutt.
- LiveCodeBench Pro: 2887 Elo — ytelse på nivå med konkurranseprogrammering.
- 15 % forbedring over de beste Gemini 3 Pro Preview-testene.
Hva den kan gjøre
Kodegenerering: Skrive fullstendige funksjoner, moduler og applikasjoner fra beskrivelser. Konteksten på 1 million tokens betyr at den kan forstå hele kodebasen din før den genererer ny kode.
Feilsøking: Mat den med feillogger, stack-tracer og de relevante kildekodene. Med tenkenivået "Høy" resonnerer den systematisk gjennom komplekse feil som går over flere filer.
Kodegjennomgang: På tenkenivået "Middels" gir den balanserte kodegjennomganger — den fanger opp problemer uten å over-analysere enkle endringer.
Kreativ koding: Gemini 3.1 Pro kan oversette designintensjon til kode. Hostinger bemerket at den "forstår stemningen bak en brukers forespørsel", og genererer kode som gjenspeiler stil og produktintensjon, ikke bare syntaks.
SVG-generering: En fremstående egenskap — den genererer animerte SVG-er klare for nettsider direkte fra tekstbeskrivelser. Siden disse er ren kode, forblir de skarpe i alle oppløsninger.
Hvor den kommer til kort
GPT-5.3-Codex leder fortsatt på Terminal-Bench 2.0 (77,3 % mot 68,5 %) og SWE-Bench Pro (56,8 % mot 54,2 %). For svært spesialiserte kodeoppgaver som krever dyp interaksjon med terminalen, ligger OpenAIs Codex-modeller fortsatt foran.
For en detaljert sammenligning av kodeegenskaper, se vår Cursor vs Windsurf vs Claude Code sammenligning.
1 million tokens kontekstvindu
Inndata-konteksten på 1 million tokens er en av Gemini 3.1 Pros største fordeler. For å sette dette i perspektiv:
| Innholdstype | Omtrentlig størrelse |
|---|---|
| Gjennomsnittlig roman | ~100K tokens |
| Stor kodebase (500 filer) | ~500K tokens |
| Fullstendig sett med juridiske kontrakter | ~200K tokens |
| Samling av forskningsartikler (20 artikler) | ~400K tokens |
Bruksområder
- Analyse av kodebase: Last inn et helt repo og still spørsmål om arkitektur, finn feil på tvers av filer, eller planlegg refaktorering.
- Dokumentbehandling: Last opp lange kontrakter, samsvarsdokumenter eller forskningsartikler for analyse.
- Resonnering over flere runder: Oppretthold omfattende samtalekontekst uten å miste tidligere informasjon.
- Kryssreferering: Analyser flere dokumenter samtidig for å finne selvmotsigelser eller sammenhenger.
Claude Opus 4.6 støtter 200K tokens — betydelig, men Geminis 1M gir den en 5x fordel for oppgaver med lang kontekst. Begge scoret 84,9 % på MRCR v2 (128K gjennomsnitt), noe som antyder sammenlignbar kvalitet innenfor det delte kontekstområdet.
Tenkenivåer: Lav, Middels, Høy
Gemini 3.1 Pro introduserer konfigurerbare tenkenivåer som lar deg kontrollere resonneringsdybden per forespørsel:
| Nivå | Best for | Resonneringsdybde | Kostnadspåvirkning |
|---|---|---|---|
| Lav | Autofullfør, enkle oppslag, klassifisering | Minimal | Lavest |
| Middels | Kodegjennomgang, oppsummering, moderat analyse | Balansert | Standard |
| Høy | Kompleks feilsøking, resonnering i flere trinn, forskning | Dyp | Høyest |
Slik setter du tenkenivå
response = client.models.generate_content(
model="gemini-3.1-pro-preview",
contents="Debug this race condition in my Go server...",
config={
"thinking_config": {"thinking_level": "HIGH"}
}
)
Dette er et praktisk verktøy for kostnadsoptimalisering. Ikke alle forespørsler trenger maksimal resonnering — ved å bruke "Lav" for enkle oppgaver og "Høy" bare for de komplekse, kan du redusere API-utgiftene dine betydelig.
Fordeler og ulemper
Fordeler
- Beste pris-ytelse-forhold: Leder på de fleste benchmarks til $2/$12 per 1M tokens — 7,5 ganger billigere enn Opus 4.6 på inndata.
- 1M token kontekst: Største produksjons-kontekstvindu blant ledende modeller.
- Dominans i ARC-AGI-2: 77,1 % resonneringsscore, mer enn det dobbelte av noen tidligere Gemini-modell.
- Styrke i koding: 80,6 % på SWE-Bench Verified, konkurransedyktig med de beste.
- Tenkenivåer: Finmasket kontroll over kostnad mot resonneringsdybde.
- Bred tilgjengelighet: AI Studio, API, GitHub Copilot, CLI, VS Code, Vertex AI.
- Gratis oppgradering: Samme pris som Gemini 3 Pro med dramatisk bedre ytelse.
- Kontekst-bufring: Opptil 75 % kostnadsreduksjon på gjentatt kontekst.
Ulemper
- Preview-status: Fortsatt i forhåndsversjon, ennå ikke tilgjengelig som en stabil utgivelse.
- Gap i Terminal-Bench: GPT-5.3-Codex leder med 8,8 poeng på terminalbaserte kodeoppgaver.
- Ekspertpreferanser: Claude Opus 4.6 foretrekkes fortsatt av menneskelige evaluatorer for ekspertoppgaver (GDPval-AA).
- Arena-rangeringer: Ligger bak Claude på Arena.ai sine ledertavler for tekst- og kodepreferanser.
- Utdata-grense: 64K utdata-tokens mot potensielt større utdata fra enkelte konkurrenter.
- Googles økosystem: Den dypeste integrasjonen er innenfor Googles egen verktøykjede.
Hvem bør bruke Gemini 3.1 Pro?
| Hvis du trenger... | Bruk Gemini 3.1 Pro? |
|---|---|
| Budsjettvennlig topp-AI | Ja — best pris-ytelse |
| Behandling av lang kontekst (>200K) | Ja — 1M tokens er uovertruffen |
| Produksjonskoding (SWE-Bench oppgaver) | Ja — 80,6 % er toppklasse |
| Analyse og skriving på ekspertnivå | Vurder Claude Opus 4.6 |
| Spesialisert terminalkoding | Vurder GPT-5.3-Codex |
| Dyp vitenskapelig resonnering | Vurder Gemini 3 Deep Think |
| Rask, billig inferens | Vurder Gemini 3 Flash |
Konklusjon
Gemini 3.1 Pro er den beste verdien i topp-AI-markedet akkurat nå. Den leder på flertallet av benchmarks, samtidig som den koster en brøkdel av Claude Opus 4.6 eller GPT-5.2. Kontekstvinduet på 1 million tokens og de konfigurerbare tenkenivåene gjør den spesielt sterk for utviklere og bedrifter som behandler store dokumenter eller kodebaser.
Den er ikke perfekt — Claude Opus 4.6 vinner fortsatt på preferanser for ekspertoppgaver, og GPT-5.3-Codex leder på spesialiserte benchmarks for koding. Men for prisen leverer Gemini 3.1 Pro mer kapasitet per dollar enn noen annen ledende modell tilgjengelig i dag.
Hvis du bygger AI-drevne applikasjoner, sjekk ut hvordan vibe coding endrer måten utviklere leverer produkter på — og hvordan modeller som Gemini 3.1 Pro driver neste generasjon app-utviklere.