Руководство по DeepSeek V4 API: Pricing, Setup & Code Examples (2026)
← Torna alle notizie

Руководство по DeepSeek V4 API: Pricing, Setup & Code Examples (2026)

N

NxCode Team

14 min read

Punti Chiave

  • API compatibile con OpenAI: DeepSeek segue il formato delle API di OpenAI -- passa a DeepSeek cambiando l'URL di base e la API key. OpenAI Python SDK, LangChain e LlamaIndex funzionano tutti senza configurazioni aggiuntive.
  • Risparmio del 90% con il context caching: I prefissi dei prompt condivisi vengono memorizzati nella cache automaticamente a $0.028/M tokens rispetto a $0.28/M per i cache misses -- nessuna modifica al codice necessaria.
  • 5 milioni di tokens gratuiti per iniziare: I nuovi account ricevono 5M di tokens gratuiti senza necessità di carta di credito, sufficienti per una sperimentazione approfondita.
  • Due modalità: deepseek-chat per task standard (8K output max) e deepseek-reasoner per il ragionamento Chain-of-Thought (64K output max) -- reasoner utilizza più tokens ma produce risultati migliori su problemi complessi.

Guida alle API di DeepSeek V4: Prezzi, Configurazione ed Esempi di Codice

DeepSeek è diventato il leader dei costi nelle API LLM. Con prezzi che superano OpenAI e Anthropic di un ordine di grandezza e una piena compatibilità con OpenAI SDK, passare a DeepSeek richiede circa cinque minuti. Questa guida ti accompagnerà attraverso tutto: configurazione dell'account, calcolo dei prezzi, esempi di codice in Python e JavaScript, context caching e migrazione da OpenAI.

Che tu stia costruendo un chatbot, un assistente alla codifica o elaborando interi codebase con la context window da 1M di tokens, questa guida ti aiuterà.


Inizio Rapido: La Tua Prima Chiamata API DeepSeek

Iniziare richiede tre passaggi.

1. Crea un Account

Vai su platform.deepseek.com e registrati. I nuovi account ricevono 5 milioni di tokens gratuiti senza necessità di carta di credito — sufficienti per sperimentare ampiamente prima di impegnarsi.

2. Genera una API Key

Naviga su API Keys nella dashboard. Clicca su Create new API key, assegnale un nome e copia la chiave immediatamente. Non potrai visualizzarla di nuovo.

Memorizza la chiave come variabile d'ambiente:

export DEEPSEEK_API_KEY="sk-your-key-here"

3. Effettua la Tua Prima Richiesta

Poiché DeepSeek segue il formato delle API di OpenAI, puoi usare l'OpenAI SDK ufficiale. Installalo prima:

pip install openai

Quindi effettua una semplice chiamata di chat completion:

from openai import OpenAI

client = OpenAI(
    api_key="sk-your-key-here",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain Python decorators in three sentences."}
    ]
)

print(response.choices[0].message.content)

Tutto qui. Se hai già usato l'API di OpenAI, le uniche differenze sono il base_url e la tua API key.


Analisi dei Prezzi

Il modello di prezzo di DeepSeek è semplice e drasticamente più economico dei concorrenti. Il differenziatore chiave è il context caching, che riduce i costi di input del 90% per i prefissi dei prompt ripetuti.

Prezzi delle API di DeepSeek

Tipo di TokenCosto per 1M di Tokens
Input (cache hit)$0.028
Input (cache miss)$0.28
Output$0.42

Confronto

Provider / ModelloInput (per 1M)Output (per 1M)
DeepSeek V4 (cache hit)$0.028$0.42
DeepSeek V4 (cache miss)$0.28$0.42
OpenAI GPT-5.4$2.50$10.00
Anthropic Claude Opus 4.6$15.00$75.00
Google Gemini 3.1 Pro$1.25$5.00

I numeri parlano da soli. Con i cache hits, DeepSeek è circa 90 volte più economico di OpenAI sui tokens di input e 500 volte più economico di Claude Opus. Anche senza caching, la tariffa di cache-miss di DeepSeek di $0.28/M è comunque 9 volte più economica dei prezzi di input di GPT-5.4.

Esempio di Costo

Elaborazione di 100 richieste, ciascuna con un prompt di sistema da 2,000 tokens e una query utente da 500 tokens, generando risposte da 1,000 tokens:

  • Con caching (99 cache hits): ~$0.05 totale
  • Senza caching: ~$0.29 totale
  • Stesso carico di lavoro su GPT-5.4: ~$3.75 totale

Per applicazioni ad alto volume, il risparmio si accumula rapidamente.


Modalità API: deepseek-chat vs deepseek-reasoner

DeepSeek offre due distinte modalità di modello, ciascuna ottimizzata per task differenti.

deepseek-chat

La modalità standard per task di uso generale. Veloce, efficiente e adatta alla maggior parte delle applicazioni.

ProprietàValore
Max tokens di input1,000,000
Max tokens di output8,192
Ideale perChat, riassunti, generazione di codice, Q&A generale

deepseek-reasoner

Abilita il ragionamento Chain-of-Thought (CoT). Il modello "pensa" passo dopo passo prima di produrre una risposta finale, migliorando drasticamente l'accuratezza su problemi difficili.

ProprietàValore
Max tokens di input1,000,000
Max tokens di output64,000
Ideale perMatematica, rompicapi logici, debugging complesso, ragionamento multi-step

Il reasoner restituisce sia il processo di ragionamento che la risposta finale:

response = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=[
        {"role": "user", "content": "Prove that the square root of 2 is irrational."}
    ]
)

# The reasoning chain
print(response.choices[0].message.reasoning_content)

# The final answer
print(response.choices[0].message.content)

Quando usare il reasoner: Se il task richiede logica multi-step, dimostrazioni matematiche o debugging di codice complesso, usa deepseek-reasoner. Per tutto il resto, deepseek-chat è più veloce ed economico.


Esempi di Codice

Python: Chat Completion di Base

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.getenv("DEEPSEEK_API_KEY"),
    base_url="https://api.deepseek.com"
)

def ask_deepseek(prompt, system_prompt="You are a helpful assistant."):
    response = client.chat.completions.create(
        model="deepseek-chat",
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": prompt}
        ],
        temperature=0.7,
        max_tokens=2048
    )
    return response.choices[0].message.content

answer = ask_deepseek("Write a Python function to merge two sorted lists.")
print(answer)

Python: Streaming

Per risposte lunghe, lo streaming offre una migliore esperienza utente restituendo i tokens man mano che vengono generati:

stream = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "You are a senior software engineer."},
        {"role": "user", "content": "Review this code and suggest improvements:\n\ndef fib(n):\n  if n <= 1: return n\n  return fib(n-1) + fib(n-2)"}
    ],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

Python: Modalità Reasoner

response = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=[
        {"role": "user", "content": "Find all bugs in this code and explain why each is a bug:\n\ndef quicksort(arr):\n    if len(arr) <= 1:\n        return arr\n    pivot = arr[0]\n    left = [x for x in arr if x < pivot]\n    right = [x for x in arr if x > pivot]\n    return quicksort(left) + [pivot] + quicksort(right)"}
    ]
)

print("Reasoning:", response.choices[0].message.reasoning_content)
print("Answer:", response.choices[0].message.content)

JavaScript / Node.js: Chat di Base

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com",
});

async function askDeepSeek(prompt) {
  const response = await client.chat.completions.create({
    model: "deepseek-chat",
    messages: [
      { role: "system", content: "You are a helpful assistant." },
      { role: "user", content: prompt },
    ],
  });

  return response.choices[0].message.content;
}

const answer = await askDeepSeek("Explain closures in JavaScript.");
console.log(answer);

JavaScript / Node.js: Streaming

const stream = await client.chat.completions.create({
  model: "deepseek-chat",
  messages: [
    { role: "user", content: "Write a REST API in Express.js with CRUD routes for a todo app." },
  ],
  stream: true,
});

for await (const chunk of stream) {
  const content = chunk.choices[0]?.delta?.content;
  if (content) {
    process.stdout.write(content);
  }
}

Context Caching: 90% di Risparmio sui Prompt Ripetuti

Il context caching di DeepSeek è uno dei suoi vantaggi competitivi più forti e richiede zero modifiche al codice da parte tua.

Come Funziona

Quando invii una richiesta, DeepSeek controlla se l'inizio del tuo prompt corrisponde a un prefisso precedentemente memorizzato nella cache. Se i primi N tokens sono identici a una richiesta recente, quei tokens vengono serviti dalla cache alla tariffa ridotta ($0.028/M rispetto a $0.28/M).

Questo avviene automaticamente. Non è necessario dichiarare chiavi di cache, impostare TTL o modificare in alcun modo le chiamate API.

Quando si Attiva il Caching

Il caching entra in funzione quando:

  • Stesso prompt di sistema tra le richieste. Se ogni richiesta inizia con "Sei un senior Python developer...", quel prefisso viene memorizzato nella cache dopo la prima chiamata.
  • Cronologia della conversazione condivisa. Nelle conversazioni multi-turn, la cronologia accumulata dai turni precedenti viene memorizzata nella cache.
  • Elaborazione batch con template consistenti. Eseguire lo stesso prompt di analisi su diversi input significa che solo la parte variabile incorre nel prezzo pieno.

Massimizzare i Cache Hits

Per ottenere il massimo dal caching:

  1. Inserisci i contenuti statici per primi. Struttura i tuoi messaggi in modo che il prompt di sistema e qualsiasi istruzione fissa vengano prima del contenuto variabile.
  2. Mantieni i prompt di sistema identici. Anche una singola differenza di carattere interrompe la corrispondenza della cache.
  3. Raggruppa richieste simili. Invia richieste con prefissi condivisi in rapida successione in modo che la cache rimanga calda.
  4. Usa prompt di sistema lunghi con fiducia. Un prompt di sistema da 10,000 tokens non costa quasi nulla dopo la prima richiesta se rimane memorizzato nella cache.

Migrazione da OpenAI

Se stai attualmente utilizzando l'API di OpenAI, passare a DeepSeek è una modifica di due righe. Il formato dell'API è identico.

Prima (OpenAI)

from openai import OpenAI

client = OpenAI(
    api_key="sk-openai-key-here"
    # base_url defaults to https://api.openai.com/v1
)

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Hello"}]
)

Dopo (DeepSeek)

from openai import OpenAI

client = OpenAI(
    api_key="sk-deepseek-key-here",
    base_url="https://api.deepseek.com"  # <-- aggiungi questa riga
)

response = client.chat.completions.create(
    model="deepseek-chat",              # <-- cambia il nome del modello
    messages=[{"role": "user", "content": "Hello"}]
)

Questa è l'intera migrazione. Due righe cambiate: base_url e model. Tutto il resto — formato del messaggio, streaming, function calling, modalità JSON — funziona allo stesso modo.

Approccio con Variabili d'Ambiente

Per progetti che devono passare facilmente tra i provider:

import os
from openai import OpenAI

provider = os.getenv("LLM_PROVIDER", "deepseek")

config = {
    "deepseek": {
        "api_key": os.getenv("DEEPSEEK_API_KEY"),
        "base_url": "https://api.deepseek.com",
        "model": "deepseek-chat"
    },
    "openai": {
        "api_key": os.getenv("OPENAI_API_KEY"),
        "base_url": "https://api.openai.com/v1",
        "model": "gpt-4o"
    }
}

client = OpenAI(
    api_key=config[provider]["api_key"],
    base_url=config[provider]["base_url"]
)

Utilizzare DeepSeek con Strumenti Open Source

Poiché DeepSeek è compatibile con OpenAI, funziona con il crescente ecosistema di strumenti di codifica AI open-source. Ecco i più popolari.

OpenCode

OpenCode è un assistente alla codifica AI basato su terminale open-source. Configuralo per usare DeepSeek impostando il provider nella tua configurazione:

{
  "provider": {
    "name": "deepseek",
    "apiKey": "sk-your-key",
    "baseURL": "https://api.deepseek.com",
    "model": "deepseek-chat"
  }
}

Aider

Aider è un programmatore AI pair da riga di comando. Indirizzalo verso DeepSeek con le variabili d'ambiente:

export OPENAI_API_BASE="https://api.deepseek.com"
export OPENAI_API_KEY="sk-your-deepseek-key"
aider --model openai/deepseek-chat

Continue (Estensione VS Code)

Continue è un assistente al codice AI open-source per VS Code e JetBrains. Aggiungi DeepSeek nel tuo ~/.continue/config.json:

{
  "models": [
    {
      "title": "DeepSeek V4",
      "provider": "openai",
      "model": "deepseek-chat",
      "apiBase": "https://api.deepseek.com",
      "apiKey": "sk-your-key"
    }
  ]
}

Tutti e tre gli strumenti trattano DeepSeek come un sostituto immediato di OpenAI. Non sono necessari adattatori o plugin speciali.


Sfruttare la Context Window da 1M di Tokens

La context window da 1 milione di tokens di DeepSeek apre flussi di lavoro che prima erano impraticabili.

Analisi dell'Intero Codebase

Un tipico progetto di medie dimensioni (50,000 righe di codice) è di circa 500,000 tokens. Con la context window da 1M di DeepSeek, puoi inserire un intero codebase in un singolo prompt per:

  • Revisioni dell'architettura. Chiedi al modello di identificare dipendenze circolari, astrazioni mancanti o pattern incoerenti in tutto il progetto.
  • Refactoring cross-file. Descrivi il cambiamento desiderato e lascia che il modello generi modifiche coordinate su più file.
  • Audit di sicurezza. Scansiona l'intero codebase alla ricerca di SQL injection, XSS e altre vulnerabilità in un unico passaggio.

Consigli Pratici per Context di Grandi Dimensioni

  1. Fornisci prima un albero dei file. Inizia il tuo prompt con la struttura delle directory in modo che il modello comprenda il layout del progetto prima di leggere i singoli file.
  2. Usa delimitatori chiari. Avvolgi ogni file in marcatori come --- FILE: src/auth.py --- in modo che il modello possa fare riferimento a file specifici nella sua risposta.
  3. Poni domande mirate. Una context window da 1M non significa che devi usare prompt vaghi. Sii specifico su ciò che vuoi analizzare.
  4. Combina con il caching. Se stai effettuando più query sullo stesso codebase, la parte del codebase viene memorizzata nella cache dopo la prima richiesta — le domande successive costano una frazione della chiamata iniziale.

Best Practice per l'Ottimizzazione dei Costi

1. Struttura i Prompt per i Massimi Cache Hits

Posiziona i tuoi contenuti più lunghi e stabili all'inizio dell'array di messaggi. I prompt di sistema, gli esempi few-shot e la documentazione di riferimento dovrebbero venire prima della query variabile dell'utente.

2. Usa deepseek-chat di Default

Riserva deepseek-reasoner per task che richiedono realmente un ragionamento multi-step. Per la generazione semplice, il riassunto e il completamento del codice, deepseek-chat è più veloce e utilizza meno tokens.

3. Imposta max_tokens Appropriati

Non impostare max_tokens più alti di quanto necessario. Se ti aspetti una risposta da 200 tokens, impostare max_tokens: 8192 non costerà di più di per sé, ma impedisce al modello di fermarsi in anticipo se inizia a divagare.

4. Raggruppa Richieste Simili

Raggruppa le richieste che condividono lo stesso prompt di sistema e inviale in rapida successione. Questo mantiene la cache calda e assicura che la maggior parte delle richieste colpisca il prefisso memorizzato nella cache.

5. Monitora l'Utilizzo dei Tokens

Controlla il campo usage nelle risposte API per tracciare il tuo consumo effettivo:

# Esempio per controllare i tokens di cache
print(f"Input tokens: {response.usage.prompt_tokens}")
print(f"Output tokens: {response.usage.completion_tokens}")
print(f"Cache hit tokens: {response.usage.prompt_cache_hit_tokens}")
print(f"Cache miss tokens: {response.usage.prompt_cache_miss_tokens}")

6. Usa lo Streaming per Output Lunghi

Lo streaming non fa risparmiare denaro, ma migliora la latenza percepita. Gli utenti vedono i primi tokens in pochi millisecondi invece di aspettare che l'intera risposta venga generata.


Conclusione

L'API di DeepSeek combina prezzi aggressivi, compatibilità con OpenAI e una context window da 1M di tokens in un pacchetto difficile da ignorare. Il percorso di migrazione da OpenAI è banale — cambia due righe di codice e la tua applicazione esistente funzionerà. Il context caching offre risparmi automatici senza alcuna modifica al codice. E l'ecosistema di strumenti open-source supporta già DeepSeek come provider di prima classe.

Per gli sviluppatori che costruiscono applicazioni sensibili ai costi, pipeline di elaborazione ad alto volume o strumenti di analisi dell'intero codebase, DeepSeek V4 merita una seria considerazione. Inizia con i 5 milioni di tokens gratuiti, confrontalo con il tuo attuale provider e lascia che i numeri guidino la tua decisione.

Torna a tutte le notizie
Ti è piaciuto questo articolo?

Costruisci con NxCode

Trasforma la tua idea in un'app funzionante — senza programmare.

Oltre 46.000 sviluppatori hanno costruito con NxCode questo mese

Provalo tu stesso

Descrivi ciò che vuoi — NxCode lo costruisce per te.

Oltre 46.000 sviluppatori hanno costruito con NxCode questo mese