Zum Hauptinhalt springen

KI / LLM APIs

Worum geht's?

LLMs sind das heißeste API-Segment 2026. Hier findest du die wichtigsten direkten Anbieter (Anthropic, OpenAI, Google, DeepSeek, Mistral, xAI, Cohere) und Aggregatoren (OpenRouter, Together, Groq, Fireworks) mit Pricing, Auth, Limits, Streaming-Support und Doku-Qualität.

Stand

Alle Daten Mai 2026. Pricing ändert sich monatlich – immer auf der Hersteller-Seite verifizieren.

1. Schnellvergleich

AnbieterTop-ModellInput/Output ($/1M)Free TierStreamingOpenAI-kompatibel
AnthropicClaude Opus 4.715/15 / 75✅ SSE
OpenAIGPT-510/10 / 30$5 Credit✅ SSE
GoogleGemini 2.5 Pro1.25/1.25 / 10großzügig
DeepSeekV30.27/0.27 / 1.10
MistralLarge 22/2 / 6Trial
xAIGrok 45/5 / 15
CohereCommand R+2.50/2.50 / 10Trial
OpenRouter100+ ModelleAnbieter +5 %
TogetherLlama 4, Mixtral0.800.80–5$1 Credit
GroqLlama 4 @ 500 t/s0.800.80–3großzügig
FireworksOSS-Modelle0.200.20–3$1 Credit

2. Anthropic – Claude API

SchwerpunktReasoning, Coding, Tool-Use, lange Dokumente
TopmodelleOpus 4.7, Sonnet 4.6, Haiku 4.5
PricingOpus 15/15/75 · Sonnet 3/3/15 · Haiku 1/1/5 (pro 1M Token)
Prompt-CachingBis 90 % Rabatt auf gecachten Kontext
Authx-api-key Header
Endpointhttps://api.anthropic.com/v1/messages
Rate LimitsTier-basiert (RPM, TPM, TPD) – starten niedrig, skalieren mit Spend
SDKsPython, TypeScript, Go, Java, Ruby
Streaming✅ SSE
DokumentationSehr gut – docs.claude.com
ComplianceSOC 2, HIPAA, AWS Bedrock + GCP Vertex für EU

Auth-Beispiel:

curl https://api.anthropic.com/v1/messages \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "content-type: application/json" \
-d '{"model":"claude-sonnet-4-6","max_tokens":1024,"messages":[{"role":"user","content":"hi"}]}'

Stärken: Best-in-Class für Coding & Reasoning, sehr stabile Tool-Use-Loops, MCP-Erfinder. Schwächen: Eigenes Message-Schema (nicht OpenAI-kompatibel), Top-Tier-Pricing.


3. OpenAI API

SchwerpunktGeneralist, Multimodal (Text+Bild+Audio+Video), Voice, Reasoning
TopmodelleGPT-5, GPT-5 Mini, o4 (Reasoning), DALL·E 3, Sora 2, Whisper, TTS
PricingGPT-5 10/10/30 · Mini 0.50/0.50/2 · o4 15/15/60
Caching50 % Rabatt auf gecachten Input
Batch-API50 % Rabatt für asynchrone Workloads (<24h)
AuthAuthorization: Bearer $KEY
Endpointhttps://api.openai.com/v1/chat/completions
Rate LimitsTier-basiert, transparente Dashboards
SDKsPython, Node, .NET, Java, Go
Streaming✅ SSE
DokumentationGoldstandard – platform.openai.com/docs
ComplianceSOC 2, HIPAA, Azure OpenAI für EU/Enterprise

Stärken: Breitestes Ökosystem (Assistants, Realtime Voice, Sora, DALL·E, Whisper), bester Function-Calling-Standard. Schwächen: Kontext nur 400k, häufige Modell-Updates erfordern Pinning, EU-Datenfluss nur via Azure sauber.


4. Google Gemini API

SchwerpunktMultimodal nativ, 2M Kontext, Search-Grounding
TopmodelleGemini 2.5 Pro, 2.5 Flash, Gemini Nano (on-device)
PricingPro 1.25/1.25/10 · Flash 0.15/0.15/0.60
CachingImplicit + Explicit Context Caching
AuthAPI-Key (AI Studio) oder OAuth2/Service Account (Vertex AI)
Endpointhttps://generativelanguage.googleapis.com oder Vertex
Rate LimitsAI Studio sehr großzügig im Free Tier, Vertex Pay-as-you-go
SDKsPython, JS, Go, Java, Dart
Streaming
DokumentationGut – ai.google.dev
ComplianceVertex AI – EU-Regionen, DPA, HIPAA

Stärken: 2M Kontext führend, Multimodal von Grund auf, kostenlose Tier sehr stark. Schwächen: Coding hinter Claude/GPT, AI-Studio-Rate-Limits plötzlich, eigene Tool-Definition.


5. DeepSeek API

SchwerpunktPreis-Leistung, Reasoning (R1)
TopmodelleDeepSeek V3, DeepSeek-R1, DeepSeek-Coder
PricingV3 0.27/0.27/1.10 · R1 0.55/0.55/2.19 (Off-Peak halbiert)
CachingDisk-Cache 75 % Rabatt
AuthAuthorization: Bearer $KEY
Endpointhttps://api.deepseek.com/v1 (OpenAI-kompatibel)
Rate LimitsSehr großzügig im Vergleich zu OpenAI
SDKsOpenAI-SDK funktioniert direkt
Streaming
DokumentationSolide – api-docs.deepseek.com
Compliance⚠️ Chinesisches Hosting – DSGVO heikel

Stärken: Faktor 50× billiger als Opus, OpenAI-Drop-in, R1 schlägt o-Modelle bei vielen Tasks. Schwächen: Compliance/Datenresidenz, Multimodalität fehlt, gelegentliche Zensur.


6. Mistral La Plateforme

SchwerpunktEU-Hosting, Open-Weights-Mix, Code
TopmodelleMistral Large 2, Codestral, Pixtral, Ministral 3B/8B
PricingLarge 2 2/2/6 · Codestral 0.30/0.30/0.90 · Small 0.20/0.20/0.60
AuthAuthorization: Bearer $KEY
Endpointhttps://api.mistral.ai/v1 (OpenAI-kompatibel)
Rate LimitsTier-basiert, EU-Hosted
SDKsPython, TypeScript, offizielles
Streaming
DokumentationGut – docs.mistral.ai
ComplianceEU-Hosting in Paris, DSGVO-freundlich, ISO 27001

Stärken: Beste Wahl für DSGVO-Anwender, Codestral als Code-Modell mit Apache-2.0, Le Chat als gratis UI. Schwächen: Top-Tier kleiner als Opus/GPT-5, weniger Ökosystem.


7. xAI – Grok API

SchwerpunktEchtzeit-X-Daten, weniger Filter, Reasoning
TopmodelleGrok 4, Grok 4 Heavy
Pricing5/5/15 (Grok 4)
AuthAPI-Key
Endpointhttps://api.x.ai/v1 (OpenAI-kompatibel)
Streaming
DokumentationOK – docs.x.ai

Stärken: Direkter X-Zugriff (Trends, Live-Posts), edgy Persönlichkeit, Reasoning-Modus. Schwächen: Kleineres Ökosystem, Reputation umstritten.


8. Cohere API

SchwerpunktEnterprise-RAG, Embeddings, Reranking
TopmodelleCommand R+, Embed v4, Rerank v3, Aya (Multilingual)
PricingCommand R+ 2.50/2.50/10 · Embed 0.10/1MRerank0.10/1M · Rerank 0.002/Search
AuthAuthorization: Bearer $KEY
Endpointhttps://api.cohere.com/v2
SDKsPython, TypeScript, Go, Java
Streaming
DokumentationSehr gut – docs.cohere.com
ComplianceSOC 2, HIPAA, AWS/Azure/OCI

Stärken: Beste Embeddings & Reranking am Markt, Enterprise-Hosting, 100+ Sprachen via Aya. Schwächen: Kein Consumer-Produkt, fokussiert auf B2B-RAG.


9. Aggregatoren

OpenRouter

SchwerpunktMulti-Modell-Routing über eine API
Modelle100+ (Claude, GPT, Gemini, Llama, DeepSeek, …)
PricingAnbieter-Preis + 5 % Aufschlag
AuthAPI-Key, OpenAI-kompatibel
Endpointhttps://openrouter.ai/api/v1
Free TierEinige Modelle gratis (Llama, Mistral Small)
StärkenEin Key für alles, Fallback-Routing, transparenter Preisvergleich

Together.ai

SchwerpunktOpen-Weights-Hosting (Llama, Mixtral, Qwen)
Pricing0.800.80–5 pro 1M Token
AuthAPI-Key, OpenAI-kompatibel
Endpointhttps://api.together.xyz/v1
StärkenFine-Tuning, Dedicated Endpoints, gutes Pricing

Groq

SchwerpunktExtreme Inferenz-Geschwindigkeit (LPU-Hardware)
ModelleLlama 4, Mixtral, Gemma, Whisper, Qwen
Pricing0.800.80–3 pro 1M Token
Speed500–800 Tokens/Sek (10–20× schneller als GPU)
StärkenReal-time-Apps, Voice-Agents, schnelle Streaming-UIs

Fireworks.ai

SchwerpunktOpen-Weights mit Fine-Tuning + Serverless
Pricing0.200.20–3 pro 1M Token
StärkenSehr günstige Inferenz, Quantisierte Modelle

Hugging Face Inference

SchwerpunktGrößte Modellbibliothek (200k+ Modelle)
PricingPay-as-you-go + Pro-Abo $9/Monat
StärkenSpezialmodelle, Datasets, Spaces

10. Spezial-APIs

Bildgenerierung

APIPricingStärke
OpenAI DALL·E 30.040.04–0.12/BildIn ChatGPT, Prompt-Adhärenz
Stability AI0.010.01–0.06/BildSD 3.5, Flux.1
Replicate$/Sekunde GPU1000+ Modelle, eigene Hosting
fal.ai$/BildSchnelle Flux-Inferenz
Midjourney API$30+/MonatBeste Ästhetik (inoffizielle Discord-Bridges existieren)

Voice / TTS

APIPricingStärke
ElevenLabs55–330/Monat (Credits)Beste TTS, Voice-Cloning
OpenAI TTS$15/1M Zeichen6 Stimmen, gute Qualität
Deepgram$0.0036/Min STTVoice-Agents, beste Latenz
AssemblyAI$0.37/h STTDiarization, Sentiment
Cartesia$/ZeichenSub-50ms TTS-Latenz

Video

APIPricingStärke
OpenAI Soranur in ChatGPT ProBis 60s, hohe Konsistenz
Runway Gen-41212–95/MonatProfi-Editor, Motion Brush
Luma Dream Machine$30/MonatSchnell, gute Physik
Pika1010–70/MonatSocial-Format
APIPricingStärke
Pinecone$70+/MonatManaged, sehr schnell
Weaviate Cloud$25+/MonatHybrid-Search, GraphQL
Qdrant CloudFree + $25+Schnell, Open-Source-Kern
Turbopuffer/Doc+/Doc + /QueryObject-Storage-basiert, sehr günstig

11. Auth-Patterns für LLM-APIs

1. API-Key in Server-Env-Variable     (NIE im Frontend!)
2. Backend-Proxy für Frontend-Calls (Rate-Limit + Token-Budget pro User)
3. Streaming via SSE oder WebSocket (siehe Laravel-Guide)
4. Retries mit Exponential Backoff (vor allem bei 429/503)
5. Cost-Tracking pro Request (User-ID + Token-Usage loggen)

12. Rate-Limit-Verhalten

AnbieterHeader bei 429Verhalten
Anthropicretry-after, x-ratelimit-*Tier-basiert, Spend-getrieben
OpenAIretry-after, x-ratelimit-remaining-*Tier 1–5
GoogleQuota im Cloud-Console
DeepSeekSehr großzügig
Mistralretry-afterTier-basiert

13. Lock-in & Migrationspfad

┌──────────────────────────────────────────────────────────┐
│ Schicht 1 – Abstraktion: LiteLLM oder Vercel AI SDK │
│ Schicht 2 – Multi-Provider: OpenRouter als Fallback │
│ Schicht 3 – Caching: Redis/Postgres vor LLM-Calls │
│ Schicht 4 – Observability: Langfuse / Helicone │
└──────────────────────────────────────────────────────────┘

→ Mit dieser 4-Schicht-Architektur kann jedes Modell ausgetauscht werden, ohne den Anwendungs-Code zu ändern.

14. Weiterführend