Worum geht's?
LLMs sind das heißeste API-Segment 2026. Hier findest du die wichtigsten direkten Anbieter (Anthropic, OpenAI, Google, DeepSeek, Mistral, xAI, Cohere) und Aggregatoren (OpenRouter, Together, Groq, Fireworks) mit Pricing, Auth, Limits, Streaming-Support und Doku-Qualität.
Stand
Alle Daten Mai 2026. Pricing ändert sich monatlich – immer auf der Hersteller-Seite verifizieren.
1. Schnellvergleich
| Anbieter | Top-Modell | Input/Output ($/1M) | Free Tier | Streaming | OpenAI-kompatibel |
|---|
| Anthropic | Claude Opus 4.7 | 15/75 | – | ✅ SSE | ⚪ |
| OpenAI | GPT-5 | 10/30 | $5 Credit | ✅ SSE | ✅ |
| Google | Gemini 2.5 Pro | 1.25/10 | großzügig | ✅ | ⚪ |
| DeepSeek | V3 | 0.27/1.10 | ⚪ | ✅ | ✅ |
| Mistral | Large 2 | 2/6 | Trial | ✅ | ✅ |
| xAI | Grok 4 | 5/15 | – | ✅ | ✅ |
| Cohere | Command R+ | 2.50/10 | Trial | ✅ | ⚪ |
| OpenRouter | 100+ Modelle | Anbieter +5 % | ✅ | ✅ | ✅ |
| Together | Llama 4, Mixtral | 0.80–5 | $1 Credit | ✅ | ✅ |
| Groq | Llama 4 @ 500 t/s | 0.80–3 | großzügig | ✅ | ✅ |
| Fireworks | OSS-Modelle | 0.20–3 | $1 Credit | ✅ | ✅ |
2. Anthropic – Claude API
| |
|---|
| Schwerpunkt | Reasoning, Coding, Tool-Use, lange Dokumente |
| Topmodelle | Opus 4.7, Sonnet 4.6, Haiku 4.5 |
| Pricing | Opus 15/75 · Sonnet 3/15 · Haiku 1/5 (pro 1M Token) |
| Prompt-Caching | Bis 90 % Rabatt auf gecachten Kontext |
| Auth | x-api-key Header |
| Endpoint | https://api.anthropic.com/v1/messages |
| Rate Limits | Tier-basiert (RPM, TPM, TPD) – starten niedrig, skalieren mit Spend |
| SDKs | Python, TypeScript, Go, Java, Ruby |
| Streaming | ✅ SSE |
| Dokumentation | Sehr gut – docs.claude.com |
| Compliance | SOC 2, HIPAA, AWS Bedrock + GCP Vertex für EU |
Auth-Beispiel:
curl https://api.anthropic.com/v1/messages \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "content-type: application/json" \
-d '{"model":"claude-sonnet-4-6","max_tokens":1024,"messages":[{"role":"user","content":"hi"}]}'
Stärken: Best-in-Class für Coding & Reasoning, sehr stabile Tool-Use-Loops, MCP-Erfinder.
Schwächen: Eigenes Message-Schema (nicht OpenAI-kompatibel), Top-Tier-Pricing.
3. OpenAI API
| |
|---|
| Schwerpunkt | Generalist, Multimodal (Text+Bild+Audio+Video), Voice, Reasoning |
| Topmodelle | GPT-5, GPT-5 Mini, o4 (Reasoning), DALL·E 3, Sora 2, Whisper, TTS |
| Pricing | GPT-5 10/30 · Mini 0.50/2 · o4 15/60 |
| Caching | 50 % Rabatt auf gecachten Input |
| Batch-API | 50 % Rabatt für asynchrone Workloads (<24h) |
| Auth | Authorization: Bearer $KEY |
| Endpoint | https://api.openai.com/v1/chat/completions |
| Rate Limits | Tier-basiert, transparente Dashboards |
| SDKs | Python, Node, .NET, Java, Go |
| Streaming | ✅ SSE |
| Dokumentation | Goldstandard – platform.openai.com/docs |
| Compliance | SOC 2, HIPAA, Azure OpenAI für EU/Enterprise |
Stärken: Breitestes Ökosystem (Assistants, Realtime Voice, Sora, DALL·E, Whisper), bester Function-Calling-Standard.
Schwächen: Kontext nur 400k, häufige Modell-Updates erfordern Pinning, EU-Datenfluss nur via Azure sauber.
4. Google Gemini API
| |
|---|
| Schwerpunkt | Multimodal nativ, 2M Kontext, Search-Grounding |
| Topmodelle | Gemini 2.5 Pro, 2.5 Flash, Gemini Nano (on-device) |
| Pricing | Pro 1.25/10 · Flash 0.15/0.60 |
| Caching | Implicit + Explicit Context Caching |
| Auth | API-Key (AI Studio) oder OAuth2/Service Account (Vertex AI) |
| Endpoint | https://generativelanguage.googleapis.com oder Vertex |
| Rate Limits | AI Studio sehr großzügig im Free Tier, Vertex Pay-as-you-go |
| SDKs | Python, JS, Go, Java, Dart |
| Streaming | ✅ |
| Dokumentation | Gut – ai.google.dev |
| Compliance | Vertex AI – EU-Regionen, DPA, HIPAA |
Stärken: 2M Kontext führend, Multimodal von Grund auf, kostenlose Tier sehr stark.
Schwächen: Coding hinter Claude/GPT, AI-Studio-Rate-Limits plötzlich, eigene Tool-Definition.
5. DeepSeek API
| |
|---|
| Schwerpunkt | Preis-Leistung, Reasoning (R1) |
| Topmodelle | DeepSeek V3, DeepSeek-R1, DeepSeek-Coder |
| Pricing | V3 0.27/1.10 · R1 0.55/2.19 (Off-Peak halbiert) |
| Caching | Disk-Cache 75 % Rabatt |
| Auth | Authorization: Bearer $KEY |
| Endpoint | https://api.deepseek.com/v1 (OpenAI-kompatibel) |
| Rate Limits | Sehr großzügig im Vergleich zu OpenAI |
| SDKs | OpenAI-SDK funktioniert direkt |
| Streaming | ✅ |
| Dokumentation | Solide – api-docs.deepseek.com |
| Compliance | ⚠️ Chinesisches Hosting – DSGVO heikel |
Stärken: Faktor 50× billiger als Opus, OpenAI-Drop-in, R1 schlägt o-Modelle bei vielen Tasks.
Schwächen: Compliance/Datenresidenz, Multimodalität fehlt, gelegentliche Zensur.
| |
|---|
| Schwerpunkt | EU-Hosting, Open-Weights-Mix, Code |
| Topmodelle | Mistral Large 2, Codestral, Pixtral, Ministral 3B/8B |
| Pricing | Large 2 2/6 · Codestral 0.30/0.90 · Small 0.20/0.60 |
| Auth | Authorization: Bearer $KEY |
| Endpoint | https://api.mistral.ai/v1 (OpenAI-kompatibel) |
| Rate Limits | Tier-basiert, EU-Hosted |
| SDKs | Python, TypeScript, offizielles |
| Streaming | ✅ |
| Dokumentation | Gut – docs.mistral.ai |
| Compliance | EU-Hosting in Paris, DSGVO-freundlich, ISO 27001 |
Stärken: Beste Wahl für DSGVO-Anwender, Codestral als Code-Modell mit Apache-2.0, Le Chat als gratis UI.
Schwächen: Top-Tier kleiner als Opus/GPT-5, weniger Ökosystem.
7. xAI – Grok API
| |
|---|
| Schwerpunkt | Echtzeit-X-Daten, weniger Filter, Reasoning |
| Topmodelle | Grok 4, Grok 4 Heavy |
| Pricing | 5/15 (Grok 4) |
| Auth | API-Key |
| Endpoint | https://api.x.ai/v1 (OpenAI-kompatibel) |
| Streaming | ✅ |
| Dokumentation | OK – docs.x.ai |
Stärken: Direkter X-Zugriff (Trends, Live-Posts), edgy Persönlichkeit, Reasoning-Modus.
Schwächen: Kleineres Ökosystem, Reputation umstritten.
8. Cohere API
| |
|---|
| Schwerpunkt | Enterprise-RAG, Embeddings, Reranking |
| Topmodelle | Command R+, Embed v4, Rerank v3, Aya (Multilingual) |
| Pricing | Command R+ 2.50/10 · Embed 0.10/1M⋅Rerank0.002/Search |
| Auth | Authorization: Bearer $KEY |
| Endpoint | https://api.cohere.com/v2 |
| SDKs | Python, TypeScript, Go, Java |
| Streaming | ✅ |
| Dokumentation | Sehr gut – docs.cohere.com |
| Compliance | SOC 2, HIPAA, AWS/Azure/OCI |
Stärken: Beste Embeddings & Reranking am Markt, Enterprise-Hosting, 100+ Sprachen via Aya.
Schwächen: Kein Consumer-Produkt, fokussiert auf B2B-RAG.
9. Aggregatoren
OpenRouter
| |
|---|
| Schwerpunkt | Multi-Modell-Routing über eine API |
| Modelle | 100+ (Claude, GPT, Gemini, Llama, DeepSeek, …) |
| Pricing | Anbieter-Preis + 5 % Aufschlag |
| Auth | API-Key, OpenAI-kompatibel |
| Endpoint | https://openrouter.ai/api/v1 |
| Free Tier | Einige Modelle gratis (Llama, Mistral Small) |
| Stärken | Ein Key für alles, Fallback-Routing, transparenter Preisvergleich |
Together.ai
| |
|---|
| Schwerpunkt | Open-Weights-Hosting (Llama, Mixtral, Qwen) |
| Pricing | 0.80–5 pro 1M Token |
| Auth | API-Key, OpenAI-kompatibel |
| Endpoint | https://api.together.xyz/v1 |
| Stärken | Fine-Tuning, Dedicated Endpoints, gutes Pricing |
Groq
| |
|---|
| Schwerpunkt | Extreme Inferenz-Geschwindigkeit (LPU-Hardware) |
| Modelle | Llama 4, Mixtral, Gemma, Whisper, Qwen |
| Pricing | 0.80–3 pro 1M Token |
| Speed | 500–800 Tokens/Sek (10–20× schneller als GPU) |
| Stärken | Real-time-Apps, Voice-Agents, schnelle Streaming-UIs |
Fireworks.ai
| |
|---|
| Schwerpunkt | Open-Weights mit Fine-Tuning + Serverless |
| Pricing | 0.20–3 pro 1M Token |
| Stärken | Sehr günstige Inferenz, Quantisierte Modelle |
Hugging Face Inference
| |
|---|
| Schwerpunkt | Größte Modellbibliothek (200k+ Modelle) |
| Pricing | Pay-as-you-go + Pro-Abo $9/Monat |
| Stärken | Spezialmodelle, Datasets, Spaces |
10. Spezial-APIs
Bildgenerierung
| API | Pricing | Stärke |
|---|
| OpenAI DALL·E 3 | 0.04–0.12/Bild | In ChatGPT, Prompt-Adhärenz |
| Stability AI | 0.01–0.06/Bild | SD 3.5, Flux.1 |
| Replicate | $/Sekunde GPU | 1000+ Modelle, eigene Hosting |
| fal.ai | $/Bild | Schnelle Flux-Inferenz |
| Midjourney API | $30+/Monat | Beste Ästhetik (inoffizielle Discord-Bridges existieren) |
Voice / TTS
| API | Pricing | Stärke |
|---|
| ElevenLabs | 5–330/Monat (Credits) | Beste TTS, Voice-Cloning |
| OpenAI TTS | $15/1M Zeichen | 6 Stimmen, gute Qualität |
| Deepgram | $0.0036/Min STT | Voice-Agents, beste Latenz |
| AssemblyAI | $0.37/h STT | Diarization, Sentiment |
| Cartesia | $/Zeichen | Sub-50ms TTS-Latenz |
Video
| API | Pricing | Stärke |
|---|
| OpenAI Sora | nur in ChatGPT Pro | Bis 60s, hohe Konsistenz |
| Runway Gen-4 | 12–95/Monat | Profi-Editor, Motion Brush |
| Luma Dream Machine | $30/Monat | Schnell, gute Physik |
| Pika | 10–70/Monat | Social-Format |
Vector Search
| API | Pricing | Stärke |
|---|
| Pinecone | $70+/Monat | Managed, sehr schnell |
| Weaviate Cloud | $25+/Monat | Hybrid-Search, GraphQL |
| Qdrant Cloud | Free + $25+ | Schnell, Open-Source-Kern |
| Turbopuffer | /Doc+/Query | Object-Storage-basiert, sehr günstig |
11. Auth-Patterns für LLM-APIs
1. API-Key in Server-Env-Variable (NIE im Frontend!)
2. Backend-Proxy für Frontend-Calls (Rate-Limit + Token-Budget pro User)
3. Streaming via SSE oder WebSocket (siehe Laravel-Guide)
4. Retries mit Exponential Backoff (vor allem bei 429/503)
5. Cost-Tracking pro Request (User-ID + Token-Usage loggen)
12. Rate-Limit-Verhalten
| Anbieter | Header bei 429 | Verhalten |
|---|
| Anthropic | retry-after, x-ratelimit-* | Tier-basiert, Spend-getrieben |
| OpenAI | retry-after, x-ratelimit-remaining-* | Tier 1–5 |
| Google | – | Quota im Cloud-Console |
| DeepSeek | – | Sehr großzügig |
| Mistral | retry-after | Tier-basiert |
13. Lock-in & Migrationspfad
┌──────────────────────────────────────────────────────────┐
│ Schicht 1 – Abstraktion: LiteLLM oder Vercel AI SDK │
│ Schicht 2 – Multi-Provider: OpenRouter als Fallback │
│ Schicht 3 – Caching: Redis/Postgres vor LLM-Calls │
│ Schicht 4 – Observability: Langfuse / Helicone │
└──────────────────────────────────────────────────────────┘
→ Mit dieser 4-Schicht-Architektur kann jedes Modell ausgetauscht werden, ohne den Anwendungs-Code zu ändern.
14. Weiterführend