כמה עולה ה-DeepSeek V4 API?

ה-pricing הנוכחי של DeepSeek הוא בערך $0.028 למיליון tokens עבור cache hits, כ-$0.28 למיליון עבור cache misses (input) ו-$0.42 למיליון עבור output tokens. המחירים עבור V4 עשויים להשתנות, אך DeepSeek שומרת היסטורית על תעריפים תחרותיים מאוד — בערך פי 50 זול יותר מ-Claude Opus.

האם ה-DeepSeek API תואם ל-OpenAI?

כן. DeepSeek API עוקב אחר הפורמט של OpenAI API. ניתן להשתמש ב-OpenAI Python SDK על ידי שינוי ה-base_url ל-'https://api.deepseek.com' ושימוש ב-DeepSeek API key שלכם. מרבית הכלים וה-frameworks התואמים ל-OpenAI עובדים עם DeepSeek out of the box.

איך ניתן לקבל DeepSeek API key?

הירשמו ב-platform.deepseek.com, עברו לקטגוריית API Keys וצרו key חדש. משתמשים חדשים מקבלים 5 מיליון tokens בחינם, ללא צורך בכרטיס אשראי.

מה זה DeepSeek context caching?

Context caching משתמש מחדש באופן אוטומטי בקידומות prompt משותפות בבקשות. אם ה-prompt שלכם מתחילים באותו אופן (למשל system prompts), תוכן שמור ב-cache עולה $0.028/M tokens לעומת $0.28/M עבור cache misses — חיסכון של 90%. זה קורה באופן אוטומטי ואינו דורש שינויים בקוד.

האם ניתן להשתמש ב-DeepSeek V4 עם LangChain או LlamaIndex?

כן. מכיוון ש-DeepSeek עוקב אחר הפורמט של OpenAI API, הוא עובד עם LangChain, LlamaIndex ומרבית ה-AI frameworks התומכים ב-endpoints תואמי OpenAI. פשוט הגדירו את ה-base URL וה-API key.

מה ההבדל בין deepseek-chat ל-deepseek-reasoner?

deepseek-chat הוא המצב הסטנדרטי למשימות כלליות עם 8K max output. ה-deepseek-reasoner כולל חשיבת Chain-of-Thought עם 64K max output, מה שמתאים באופן אידיאלי למשימות במתמטיקה, לוגיקה ותכנות מורכב. ה-Reasoner צורך יותר tokens, אך מספק איכות תוצאות גבוהה יותר למשימות קשות.

Poin Penting

API kompatibel dengan OpenAI: DeepSeek mengikuti format API OpenAI -- beralihlah dengan mengubah base URL dan API key. SDK Python OpenAI, LangChain, dan LlamaIndex semuanya langsung berfungsi.
Hemat 90% dengan context caching: Awalan prompt bersama akan di-cache secara otomatis seharga $0.028/M tokens berbanding $0.28/M untuk cache misses -- tidak perlu perubahan kode.
5 juta free tokens untuk memulai: Akun baru mendapatkan 5M free tokens tanpa memerlukan kartu kredit, cukup untuk eksperimen yang luas.
Dua mode: deepseek-chat untuk tugas standar (output maks 8K) dan deepseek-reasoner untuk penalaran Chain-of-Thought (output maks 64K) -- reasoner menggunakan lebih banyak tokens tetapi memberikan hasil yang lebih baik pada masalah sulit.

Panduan API DeepSeek V4: Harga, Pengaturan & Contoh Kode

DeepSeek telah menjadi pemimpin biaya dalam API LLM. Dengan harga yang jauh lebih murah dibandingkan OpenAI dan Anthropic serta kompatibilitas SDK OpenAI yang penuh, beralih ke DeepSeek hanya membutuhkan waktu sekitar lima menit. Panduan ini akan memandu Anda melalui segalanya: pengaturan akun, perhitungan harga, contoh kode dalam Python dan JavaScript, context caching, dan migrasi dari OpenAI.

Baik Anda membangun chatbot, asisten coding, atau memproses seluruh codebase dengan context window 1M token, panduan ini siap membantu Anda.

Memulai Cepat: Panggilan API DeepSeek Pertama Anda

Memulai hanya butuh tiga langkah.

1. Buat Akun

Buka platform.deepseek.com dan daftar. Akun baru menerima 5 juta free tokens tanpa memerlukan kartu kredit — cukup untuk bereksperimen secara ekstensif sebelum berkomitmen.

2. Buat API Key

Navigasikan ke API Keys di dashboard. Klik Create new API key, beri nama, dan salin kuncinya segera. Anda tidak akan bisa melihatnya lagi.

Simpan kunci sebagai environment variable:

export DEEPSEEK_API_KEY="sk-your-key-here"

3. Buat Permintaan Pertama Anda

Karena DeepSeek mengikuti format API OpenAI, Anda dapat menggunakan SDK OpenAI resmi. Instal terlebih dahulu:

pip install openai

Kemudian buat panggilan chat completion sederhana:

from openai import OpenAI

client = OpenAI(
    api_key="sk-your-key-here",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain Python decorators in three sentences."}
    ]
)

print(response.choices[0].message.content)

Selesai. Jika Anda pernah menggunakan API OpenAI sebelumnya, satu-satunya perbedaan hanyalah base_url dan API key Anda.

Rincian Harga

Model harga DeepSeek sangat sederhana dan jauh lebih murah dibandingkan kompetitor. Pembeda utamanya adalah context caching, yang mengurangi biaya input sebesar 90% untuk awalan prompt yang berulang.

Harga API DeepSeek

Tipe Token	Biaya per 1M Tokens
Input (cache hit)	$0.028
Input (cache miss)	$0.28
Output	$0.42

Perbandingan

Provider / Model	Input (per 1M)	Output (per 1M)
DeepSeek V4 (cache hit)	$0.028	$0.42
DeepSeek V4 (cache miss)	$0.28	$0.42
OpenAI GPT-5.4	$2.50	$10.00
Anthropic Claude Opus 4.6	$15.00	$75.00
Google Gemini 3.1 Pro	$1.25	$5.00

Angka-angka tersebut berbicara sendiri. Dengan cache hits, DeepSeek kira-kira 90x lebih murah daripada OpenAI pada tokens input dan 500x lebih murah daripada Claude Opus. Bahkan tanpa caching, tarif cache-miss DeepSeek sebesar $0.28/M masih 9x lebih murah daripada harga input GPT-5.4.

Contoh Biaya

Memproses 100 permintaan, masing-masing dengan system prompt 2,000-token dan user query 500-token, menghasilkan respons 1,000-token:

Dengan caching (99 cache hits): total ~$0.05
Tanpa caching: total ~$0.29
Beban kerja yang sama pada GPT-5.4: total ~$3.75

Untuk aplikasi bervolume tinggi, penghematannya terakumulasi dengan cepat.

Mode API: deepseek-chat vs deepseek-reasoner

DeepSeek menawarkan dua mode model yang berbeda, masing-masing dioptimalkan untuk tugas yang berbeda.

deepseek-chat

Mode standar untuk tugas umum. Cepat, efisien, dan cocok untuk sebagian besar aplikasi.

Properti	Nilai
Maks tokens input	1,000,000
Maks tokens output	8,192
Terbaik untuk	Chat, perangkuman, pembuatan kode, Tanya Jawab umum

deepseek-reasoner

Mengaktifkan penalaran Chain-of-Thought (CoT). Model ini "berpikir" langkah demi langkah sebelum menghasilkan jawaban akhir, secara drastis meningkatkan akurasi pada masalah yang sulit.

Properti	Nilai
Maks tokens input	1,000,000
Maks tokens output	64,000
Terbaik untuk	Matematika, teka-teki logika, debugging kompleks, penalaran multi-langkah

Reasoner mengembalikan proses berpikir dan jawaban akhir:

response = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=[
        {"role": "user", "content": "Prove that the square root of 2 is irrational."}
    ]
)

# Rantai penalaran
print(response.choices[0].message.reasoning_content)

# Jawaban akhir
print(response.choices[0].message.content)

Kapan menggunakan reasoner: Jika tugas membutuhkan logika multi-langkah, bukti matematika, atau debugging kode yang kompleks, gunakan deepseek-reasoner. Untuk hal lainnya, deepseek-chat lebih cepat dan lebih murah.

Contoh Kode

Python: Chat Completion Dasar

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.getenv("DEEPSEEK_API_KEY"),
    base_url="https://api.deepseek.com"
)

def ask_deepseek(prompt, system_prompt="You are a helpful assistant."):
    response = client.chat.completions.create(
        model="deepseek-chat",
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": prompt}
        ],
        temperature=0.7,
        max_tokens=2048
    )
    return response.choices[0].message.content

answer = ask_deepseek("Write a Python function to merge two sorted lists.")
print(answer)

Python: Streaming

Untuk respons yang panjang, streaming memberikan pengalaman pengguna yang lebih baik dengan mengembalikan tokens saat dihasilkan:

stream = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "You are a senior software engineer."},
        {"role": "user", "content": "Review this code and suggest improvements:\n\ndef fib(n):\n  if n <= 1: return n\n  return fib(n-1) + fib(n-2)"}
    ],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

Python: Mode Reasoner

response = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=[
        {"role": "user", "content": "Find all bugs in this code and explain why each is a bug:\n\ndef quicksort(arr):\n    if len(arr) <= 1:\n        return arr\n    pivot = arr[0]\n    left = [x for x in arr if x < pivot]\n    right = [x for x in arr if x > pivot]\n    return quicksort(left) + [pivot] + quicksort(right)"}
    ]
)

print("Reasoning:", response.choices[0].message.reasoning_content)
print("Answer:", response.choices[0].message.content)

JavaScript / Node.js: Chat Dasar

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com",
});

async function askDeepSeek(prompt) {
  const response = await client.chat.completions.create({
    model: "deepseek-chat",
    messages: [
      { role: "system", content: "You are a helpful assistant." },
      { role: "user", content: prompt },
    ],
  });

  return response.choices[0].message.content;
}

const answer = await askDeepSeek("Explain closures in JavaScript.");
console.log(answer);

JavaScript / Node.js: Streaming

const stream = await client.chat.completions.create({
  model: "deepseek-chat",
  messages: [
    { role: "user", content: "Write a REST API in Express.js with CRUD routes for a todo app." },
  ],
  stream: true,
});

for await (const chunk of stream) {
  const content = chunk.choices[0]?.delta?.content;
  if (content) {
    process.stdout.write(content);
  }
}

Context Caching: Hemat 90% pada Prompt Berulang

Context caching DeepSeek adalah salah satu keunggulan kompetitif terkuatnya, dan ini memerlukan nol perubahan kode di pihak Anda.

Cara Kerja

Ketika Anda mengirim permintaan, DeepSeek memeriksa apakah bagian awal prompt Anda cocok dengan awalan yang di-cache sebelumnya. Jika N tokens pertama identik dengan permintaan baru-baru ini, tokens tersebut dilayani dari cache dengan tarif yang dikurangi ($0.028/M vs $0.28/M).

Ini terjadi secara otomatis. Anda tidak perlu mendeklarasikan cache keys, mengatur TTL, atau memodifikasi panggilan API Anda dengan cara apa pun.

Kapan Caching Aktif

Caching aktif ketika:

System prompt yang sama di seluruh permintaan. Jika setiap permintaan dimulai dengan "You are a senior Python developer...", awalan tersebut akan di-cache setelah panggilan pertama.
Riwayat percakapan bersama. Dalam percakapan multi-turn, riwayat yang terakumulasi dari giliran sebelumnya di-cache.
Pemrosesan batch dengan template yang konsisten. Menjalankan prompt analisis yang sama pada input yang berbeda berarti hanya bagian variabel yang dikenakan harga penuh.

Memaksimalkan Cache Hits

Untuk mendapatkan hasil maksimal dari caching:

Letakkan konten statis terlebih dahulu. Strukturkan pesan Anda sehingga system prompt dan instruksi tetap apa pun berada sebelum konten variabel.
Jaga agar system prompt tetap identik. Bahkan perbedaan satu karakter pun merusak kecocokan cache.
Batch permintaan serupa secara bersamaan. Kirim permintaan dengan awalan bersama secara berurutan agar cache tetap hangat.
Gunakan system prompt yang panjang dengan percaya diri. System prompt 10,000-token hampir tidak memerlukan biaya setelah permintaan pertama jika tetap di-cache.

Migrasi dari OpenAI

Jika Anda saat ini menggunakan API OpenAI, beralih ke DeepSeek adalah perubahan dua baris. Format API identik.

Sebelum (OpenAI)

from openai import OpenAI

client = OpenAI(
    api_key="sk-openai-key-here"
    # base_url defaults to https://api.openai.com/v1
)

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Hello"}]
)

Sesudah (DeepSeek)

from openai import OpenAI

client = OpenAI(
    api_key="sk-deepseek-key-here",
    base_url="https://api.deepseek.com"  # <-- tambahkan baris ini
)

response = client.chat.completions.create(
    model="deepseek-chat",              # <-- ubah nama model
    messages=[{"role": "user", "content": "Hello"}]
)

Itulah seluruh migrasinya. Dua baris berubah: base_url dan model. Hal lainnya — format pesan, streaming, function calling, mode JSON — berfungsi dengan cara yang sama.

Pendekatan Environment Variable

Untuk proyek yang perlu beralih di antara provider dengan mudah:

import os
from openai import OpenAI

provider = os.getenv("LLM_PROVIDER", "deepseek")

config = {
    "deepseek": {
        "api_key": os.getenv("DEEPSEEK_API_KEY"),
        "base_url": "https://api.deepseek.com",
        "model": "deepseek-chat"
    },
    "openai": {
        "api_key": os.getenv("OPENAI_API_KEY"),
        "base_url": "https://api.openai.com/v1",
        "model": "gpt-4o"
    }
}

client = OpenAI(
    api_key=config[provider]["api_key"],
    base_url=config[provider]["base_url"]
)

Menggunakan DeepSeek dengan Alat Open Source

Karena DeepSeek kompatibel dengan OpenAI, ia berfungsi dengan ekosistem alat coding AI open-source yang terus berkembang. Berikut adalah yang paling populer.

OpenCode

OpenCode adalah asisten coding AI berbasis terminal open-source. Konfigurasikan untuk menggunakan DeepSeek dengan menyetel provider di konfigurasi Anda:

{
  "provider": {
    "name": "deepseek",
    "apiKey": "sk-your-key",
    "baseURL": "https://api.deepseek.com",
    "model": "deepseek-chat"
  }
}

Aider

Aider adalah pair programmer AI baris perintah. Arahkan ke DeepSeek dengan environment variables:

export OPENAI_API_BASE="https://api.deepseek.com"
export OPENAI_API_KEY="sk-your-deepseek-key"
aider --model openai/deepseek-chat

Continue (Ekstensi VS Code)

Continue adalah asisten kode AI open-source untuk VS Code dan JetBrains. Tambahkan DeepSeek di ~/.continue/config.json Anda:

{
  "models": [
    {
      "title": "DeepSeek V4",
      "provider": "openai",
      "model": "deepseek-chat",
      "apiBase": "https://api.deepseek.com",
      "apiKey": "sk-your-key"
    }
  ]
}

Ketiga alat tersebut memperlakukan DeepSeek sebagai pengganti OpenAI yang langsung pakai. Tidak diperlukan adaptor atau plugin khusus.

Memanfaatkan Context Window 1M Token

Context window 1 juta token DeepSeek membuka alur kerja yang sebelumnya tidak praktis.

Analisis Seluruh Codebase

Proyek berukuran sedang yang umum (50,000 baris kode) kira-kira berjumlah 500,000 tokens. Dengan context 1M DeepSeek, Anda dapat memasukkan seluruh codebase ke dalam satu prompt untuk:

Peninjauan arsitektur. Minta model untuk mengidentifikasi circular dependencies, abstraksi yang hilang, atau pola yang tidak konsisten di seluruh proyek.
Refactoring lintas file. Deskripsikan perubahan yang diinginkan dan biarkan model menghasilkan pengeditan terkoordinasi di beberapa file.
Audit keamanan. Pindai seluruh codebase untuk SQL injection, XSS, dan kerentanan lainnya dalam satu lintasan.

Tips Praktis untuk Context Besar

Berikan file tree terlebih dahulu. Mulai prompt Anda dengan struktur direktori agar model memahami tata letak proyek sebelum membaca file individual.
Gunakan pembatas yang jelas. Bungkus setiap file dalam penanda seperti --- FILE: src/auth.py --- sehingga model dapat merujuk file tertentu dalam responsnya.
Ajukan pertanyaan yang terfokus. Context window 1M bukan berarti Anda membutuhkan prompt yang samar. Jadilah spesifik tentang apa yang ingin Anda analisis.
Gabungkan dengan caching. Jika Anda melakukan beberapa kueri terhadap codebase yang sama, bagian codebase akan di-cache setelah permintaan pertama — pertanyaan selanjutnya hanya memakan biaya sebagian kecil dari panggilan awal.

Praktik Terbaik untuk Optimalisasi Biaya

1. Strukturkan Prompt untuk Maksimal Cache Hits

Letakkan konten Anda yang paling panjang dan paling stabil di awal array pesan. System prompt, contoh few-shot, dan dokumentasi referensi harus diletakkan sebelum user query variabel.

2. Gunakan deepseek-chat secara Default

Cadangkan deepseek-reasoner untuk tugas-tugas yang benar-benar membutuhkan penalaran multi-langkah. Untuk pembuatan, perangkuman, dan penyelesaian kode yang lugas, deepseek-chat lebih cepat dan menggunakan lebih sedikit tokens.

3. Atur max_tokens yang Sesuai

Jangan atur max_tokens lebih tinggi dari yang Anda butuhkan. Jika Anda mengharapkan respons 200-token, menyetel max_tokens: 8192 tidak akan memakan biaya lebih banyak, tetapi ini mencegah model berhenti lebih awal jika ia bertele-tele.

4. Batch Permintaan Serupa

Kelompokkan permintaan yang berbagi system prompt yang sama dan kirimkan secara berurutan. Ini menjaga cache tetap hangat dan memastikan sebagian besar permintaan mengenai awalan yang di-cache.

5. Pantau Penggunaan Token

Periksa bidang usage dalam respons API untuk melacak konsumsi aktual Anda:

response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[{"role": "user", "content": "Hello"}]
)

print(f"Input tokens: {response.usage.prompt_tokens}")
print(f"Output tokens: {response.usage.completion_tokens}")
print(f"Cache hit tokens: {response.usage.prompt_cache_hit_tokens}")
print(f"Cache miss tokens: {response.usage.prompt_cache_miss_tokens}")

6. Gunakan Streaming untuk Output yang Panjang

Streaming tidak menghemat uang, tetapi meningkatkan latensi yang dirasakan. Pengguna melihat tokens pertama dalam milidetik alih-alih menunggu seluruh respons dihasilkan.

Penutup

API DeepSeek menggabungkan harga yang agresif, kompatibilitas OpenAI, dan context window 1M token ke dalam paket yang sulit diabaikan. Jalur migrasi dari OpenAI sangat sepele — ubah dua baris kode dan aplikasi Anda yang ada akan berfungsi. Context caching memberikan penghematan biaya otomatis tanpa perubahan kode apa pun. Dan ekosistem alat open-source sudah mendukung DeepSeek sebagai provider kelas utama.

Bagi pengembang yang membangun aplikasi yang sensitif terhadap biaya, pipa pemrosesan bervolume tinggi, atau alat analisis seluruh codebase, DeepSeek V4 patut dipertimbangkan secara serius. Mulailah dengan 5 juta free tokens, bandingkan dengan provider Anda saat ini, dan biarkan angka-angka memandu keputusan Anda.

מדריך ל-DeepSeek V4 API: Pricing, Setup & Code Examples (2026)