KI / LLM APIs

Worum geht's?

LLMs sind das heißeste API-Segment 2026. Hier findest du die wichtigsten direkten Anbieter (Anthropic, OpenAI, Google, DeepSeek, Mistral, xAI, Cohere) und Aggregatoren (OpenRouter, Together, Groq, Fireworks) mit Pricing, Auth, Limits, Streaming-Support und Doku-Qualität.

Stand

Alle Daten Mai 2026. Pricing ändert sich monatlich – immer auf der Hersteller-Seite verifizieren.

1. Schnellvergleich

Anbieter	Top-Modell	Input/Output ($/1M)	Free Tier	Streaming	OpenAI-kompatibel
Anthropic	Claude Opus 4.7	$15 /$ 75	–	✅ SSE	⚪
OpenAI	GPT-5	$10 /$ 30	$5 Credit	✅ SSE	✅
Google	Gemini 2.5 Pro	$1.25 /$ 10	großzügig	✅	⚪
DeepSeek	V3	$0.27 /$ 1.10	⚪	✅	✅
Mistral	Large 2	$2 /$ 6	Trial	✅	✅
xAI	Grok 4	$5 /$ 15	–	✅	✅
Cohere	Command R+	$2.50 /$ 10	Trial	✅	⚪
OpenRouter	100+ Modelle	Anbieter +5 %	✅	✅	✅
Together	Llama 4, Mixtral	$0.80–$ 5	$1 Credit	✅	✅
Groq	Llama 4 @ 500 t/s	$0.80–$ 3	großzügig	✅	✅
Fireworks	OSS-Modelle	$0.20–$ 3	$1 Credit	✅	✅

2. Anthropic – Claude API


Schwerpunkt	Reasoning, Coding, Tool-Use, lange Dokumente
Topmodelle	Opus 4.7, Sonnet 4.6, Haiku 4.5
Pricing	Opus $15/$ 75 · Sonnet $3/$ 15 · Haiku $1/$ 5 (pro 1M Token)
Prompt-Caching	Bis 90 % Rabatt auf gecachten Kontext
Auth	`x-api-key` Header
Endpoint	`https://api.anthropic.com/v1/messages`
Rate Limits	Tier-basiert (RPM, TPM, TPD) – starten niedrig, skalieren mit Spend
SDKs	Python, TypeScript, Go, Java, Ruby
Streaming	✅ SSE
Dokumentation	Sehr gut – docs.claude.com
Compliance	SOC 2, HIPAA, AWS Bedrock + GCP Vertex für EU

Auth-Beispiel:

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{"model":"claude-sonnet-4-6","max_tokens":1024,"messages":[{"role":"user","content":"hi"}]}'

Stärken: Best-in-Class für Coding & Reasoning, sehr stabile Tool-Use-Loops, MCP-Erfinder. Schwächen: Eigenes Message-Schema (nicht OpenAI-kompatibel), Top-Tier-Pricing.

3. OpenAI API


Schwerpunkt	Generalist, Multimodal (Text+Bild+Audio+Video), Voice, Reasoning
Topmodelle	GPT-5, GPT-5 Mini, o4 (Reasoning), DALL·E 3, Sora 2, Whisper, TTS
Pricing	GPT-5 $10/$ 30 · Mini $0.50/$ 2 · o4 $15/$ 60
Caching	50 % Rabatt auf gecachten Input
Batch-API	50 % Rabatt für asynchrone Workloads (<24h)
Auth	`Authorization: Bearer $KEY`
Endpoint	`https://api.openai.com/v1/chat/completions`
Rate Limits	Tier-basiert, transparente Dashboards
SDKs	Python, Node, .NET, Java, Go
Streaming	✅ SSE
Dokumentation	Goldstandard – platform.openai.com/docs
Compliance	SOC 2, HIPAA, Azure OpenAI für EU/Enterprise

Stärken: Breitestes Ökosystem (Assistants, Realtime Voice, Sora, DALL·E, Whisper), bester Function-Calling-Standard. Schwächen: Kontext nur 400k, häufige Modell-Updates erfordern Pinning, EU-Datenfluss nur via Azure sauber.

4. Google Gemini API


Schwerpunkt	Multimodal nativ, 2M Kontext, Search-Grounding
Topmodelle	Gemini 2.5 Pro, 2.5 Flash, Gemini Nano (on-device)
Pricing	Pro $1.25/$ 10 · Flash $0.15/$ 0.60
Caching	Implicit + Explicit Context Caching
Auth	API-Key (AI Studio) oder OAuth2/Service Account (Vertex AI)
Endpoint	`https://generativelanguage.googleapis.com` oder Vertex
Rate Limits	AI Studio sehr großzügig im Free Tier, Vertex Pay-as-you-go
SDKs	Python, JS, Go, Java, Dart
Streaming	✅
Dokumentation	Gut – ai.google.dev
Compliance	Vertex AI – EU-Regionen, DPA, HIPAA

Stärken: 2M Kontext führend, Multimodal von Grund auf, kostenlose Tier sehr stark. Schwächen: Coding hinter Claude/GPT, AI-Studio-Rate-Limits plötzlich, eigene Tool-Definition.

5. DeepSeek API


Schwerpunkt	Preis-Leistung, Reasoning (R1)
Topmodelle	DeepSeek V3, DeepSeek-R1, DeepSeek-Coder
Pricing	V3 $0.27/$ 1.10 · R1 $0.55/$ 2.19 (Off-Peak halbiert)
Caching	Disk-Cache 75 % Rabatt
Auth	`Authorization: Bearer $KEY`
Endpoint	`https://api.deepseek.com/v1` (OpenAI-kompatibel)
Rate Limits	Sehr großzügig im Vergleich zu OpenAI
SDKs	OpenAI-SDK funktioniert direkt
Streaming	✅
Dokumentation	Solide – api-docs.deepseek.com
Compliance	⚠️ Chinesisches Hosting – DSGVO heikel

Stärken: Faktor 50× billiger als Opus, OpenAI-Drop-in, R1 schlägt o-Modelle bei vielen Tasks. Schwächen: Compliance/Datenresidenz, Multimodalität fehlt, gelegentliche Zensur.

6. Mistral La Plateforme


Schwerpunkt	EU-Hosting, Open-Weights-Mix, Code
Topmodelle	Mistral Large 2, Codestral, Pixtral, Ministral 3B/8B
Pricing	Large 2 $2/$ 6 · Codestral $0.30/$ 0.90 · Small $0.20/$ 0.60
Auth	`Authorization: Bearer $KEY`
Endpoint	`https://api.mistral.ai/v1` (OpenAI-kompatibel)
Rate Limits	Tier-basiert, EU-Hosted
SDKs	Python, TypeScript, offizielles
Streaming	✅
Dokumentation	Gut – docs.mistral.ai
Compliance	EU-Hosting in Paris, DSGVO-freundlich, ISO 27001

Stärken: Beste Wahl für DSGVO-Anwender, Codestral als Code-Modell mit Apache-2.0, Le Chat als gratis UI. Schwächen: Top-Tier kleiner als Opus/GPT-5, weniger Ökosystem.

7. xAI – Grok API


Schwerpunkt	Echtzeit-X-Daten, weniger Filter, Reasoning
Topmodelle	Grok 4, Grok 4 Heavy
Pricing	$5/$ 15 (Grok 4)
Auth	API-Key
Endpoint	`https://api.x.ai/v1` (OpenAI-kompatibel)
Streaming	✅
Dokumentation	OK – docs.x.ai

Stärken: Direkter X-Zugriff (Trends, Live-Posts), edgy Persönlichkeit, Reasoning-Modus. Schwächen: Kleineres Ökosystem, Reputation umstritten.

8. Cohere API


Schwerpunkt	Enterprise-RAG, Embeddings, Reranking
Topmodelle	Command R+, Embed v4, Rerank v3, Aya (Multilingual)
Pricing	Command R+ $2.50/$ 10 · Embed $0.10/1M · Rerank$ 0.002/Search
Auth	`Authorization: Bearer $KEY`
Endpoint	`https://api.cohere.com/v2`
SDKs	Python, TypeScript, Go, Java
Streaming	✅
Dokumentation	Sehr gut – docs.cohere.com
Compliance	SOC 2, HIPAA, AWS/Azure/OCI

Stärken: Beste Embeddings & Reranking am Markt, Enterprise-Hosting, 100+ Sprachen via Aya. Schwächen: Kein Consumer-Produkt, fokussiert auf B2B-RAG.

9. Aggregatoren

OpenRouter


Schwerpunkt	Multi-Modell-Routing über eine API
Modelle	100+ (Claude, GPT, Gemini, Llama, DeepSeek, …)
Pricing	Anbieter-Preis + 5 % Aufschlag
Auth	API-Key, OpenAI-kompatibel
Endpoint	`https://openrouter.ai/api/v1`
Free Tier	Einige Modelle gratis (Llama, Mistral Small)
Stärken	Ein Key für alles, Fallback-Routing, transparenter Preisvergleich

Together.ai


Schwerpunkt	Open-Weights-Hosting (Llama, Mixtral, Qwen)
Pricing	$0.80–$ 5 pro 1M Token
Auth	API-Key, OpenAI-kompatibel
Endpoint	`https://api.together.xyz/v1`
Stärken	Fine-Tuning, Dedicated Endpoints, gutes Pricing

Groq


Schwerpunkt	Extreme Inferenz-Geschwindigkeit (LPU-Hardware)
Modelle	Llama 4, Mixtral, Gemma, Whisper, Qwen
Pricing	$0.80–$ 3 pro 1M Token
Speed	500–800 Tokens/Sek (10–20× schneller als GPU)
Stärken	Real-time-Apps, Voice-Agents, schnelle Streaming-UIs

Fireworks.ai


Schwerpunkt	Open-Weights mit Fine-Tuning + Serverless
Pricing	$0.20–$ 3 pro 1M Token
Stärken	Sehr günstige Inferenz, Quantisierte Modelle

Hugging Face Inference


Schwerpunkt	Größte Modellbibliothek (200k+ Modelle)
Pricing	Pay-as-you-go + Pro-Abo $9/Monat
Stärken	Spezialmodelle, Datasets, Spaces

10. Spezial-APIs

Bildgenerierung

API	Pricing	Stärke
OpenAI DALL·E 3	$0.04–$ 0.12/Bild	In ChatGPT, Prompt-Adhärenz
Stability AI	$0.01–$ 0.06/Bild	SD 3.5, Flux.1
Replicate	$/Sekunde GPU	1000+ Modelle, eigene Hosting
fal.ai	$/Bild	Schnelle Flux-Inferenz
Midjourney API	$30+/Monat	Beste Ästhetik (inoffizielle Discord-Bridges existieren)

Voice / TTS

API	Pricing	Stärke
ElevenLabs	$5–$ 330/Monat (Credits)	Beste TTS, Voice-Cloning
OpenAI TTS	$15/1M Zeichen	6 Stimmen, gute Qualität
Deepgram	$0.0036/Min STT	Voice-Agents, beste Latenz
AssemblyAI	$0.37/h STT	Diarization, Sentiment
Cartesia	$/Zeichen	Sub-50ms TTS-Latenz

Video

API	Pricing	Stärke
OpenAI Sora	nur in ChatGPT Pro	Bis 60s, hohe Konsistenz
Runway Gen-4	$12–$ 95/Monat	Profi-Editor, Motion Brush
Luma Dream Machine	$30/Monat	Schnell, gute Physik
Pika	$10–$ 70/Monat	Social-Format

Vector Search

API	Pricing	Stärke
Pinecone	$70+/Monat	Managed, sehr schnell
Weaviate Cloud	$25+/Monat	Hybrid-Search, GraphQL
Qdrant Cloud	Free + $25+	Schnell, Open-Source-Kern
Turbopuffer	$/Doc +$ /Query	Object-Storage-basiert, sehr günstig

11. Auth-Patterns für LLM-APIs

API-Key in Server-Env-Variable     (NIE im Frontend!)
Backend-Proxy für Frontend-Calls   (Rate-Limit + Token-Budget pro User)
Streaming via SSE oder WebSocket   (siehe Laravel-Guide)
Retries mit Exponential Backoff    (vor allem bei 429/503)
Cost-Tracking pro Request          (User-ID + Token-Usage loggen)

12. Rate-Limit-Verhalten

Anbieter	Header bei 429	Verhalten
Anthropic	`retry-after`, `x-ratelimit-*`	Tier-basiert, Spend-getrieben
OpenAI	`retry-after`, `x-ratelimit-remaining-*`	Tier 1–5
Google	–	Quota im Cloud-Console
DeepSeek	–	Sehr großzügig
Mistral	`retry-after`	Tier-basiert

13. Lock-in & Migrationspfad

┌──────────────────────────────────────────────────────────┐
│ Schicht 1 – Abstraktion: LiteLLM oder Vercel AI SDK      │
│ Schicht 2 – Multi-Provider: OpenRouter als Fallback      │
│ Schicht 3 – Caching:    Redis/Postgres vor LLM-Calls     │
│ Schicht 4 – Observability: Langfuse / Helicone           │
└──────────────────────────────────────────────────────────┘

→ Mit dieser 4-Schicht-Architektur kann jedes Modell ausgetauscht werden, ohne den Anwendungs-Code zu ändern.

14. Weiterführend

Dev-Vergleich der Top-LLMs → AI Developer-Guide
Marktüberblick aller KIs → KI-Markt
Coding-Agents im Vergleich → Agent-Vergleich

1. Schnellvergleich​

2. Anthropic – Claude API​

3. OpenAI API​

4. Google Gemini API​

5. DeepSeek API​

6. Mistral La Plateforme​

7. xAI – Grok API​

8. Cohere API​

9. Aggregatoren​

OpenRouter​

Together.ai​

Groq​

Fireworks.ai​

Hugging Face Inference​

10. Spezial-APIs​

Bildgenerierung​

Voice / TTS​

Video​

Vector Search​

11. Auth-Patterns für LLM-APIs​

12. Rate-Limit-Verhalten​

13. Lock-in & Migrationspfad​

14. Weiterführend​