Cloudflare Agents - Plattform für die Entwicklung von KI-Agenten

Gestartet am 14. Apr. 2025

Cloudflare Agents ist eine Plattform für die Entwicklung von KI-Agenten auf dem globalen Netzwerk von Cloudflare. Mit Durable Objects für zustandsbehaftete Ausführung, Workers AI für serverlose Inferenz und flexibler nutzungsbasierter Preisgestaltung können Entwickler只需为实际计算时间付费。

KI-Agenten FreemiumKI-Agenten-FrameworkWorkflow-AutomatisierungOpen Source

Website besuchen

Was ist Cloudflare Agents Die Kernfunktionen von Cloudflare Agents Technische Architektur und Kern特性 Schnellstart mit Cloudflare Agents Preisgestaltung von Cloudflare Agents Ökosystem und Integrationen Häufig gestellte Fragen Kommentare Verwandte Inhalte

Was ist Cloudflare Agents

Die Entwicklung von KI-Agenten stellt Entwickler vor erhebliche technische Herausforderungen. Traditionelle Serverless-Plattformen bieten lediglich stateless Execution, was bedeutet, dass jeder Request eine neue Instanz erzeugt – mit erheblichem Overhead bei komplexen, mehrstufigen Interaktionen. Die Verwaltung von Kontext, Sitzungszuständen undpersistenten Daten erfordert häufig externe Datenbanken und komplexe Synchronisationslogik. Hinzu kommen die Kosten für ständig aktive WebSocket-Verbindungen, die bei vielen Echtzeitanwendungen unverzichtbar sind.

Cloudflare Agents adressiert diese Probleme fundamental anders. Die Plattform ist auf dem globalen Netzwerk von Cloudflare aufgebaut, das täglich durchschnittlich 93 Millionen HTTP-Anfragen verarbeitet und 330 Städte in über 125 Ländern abdeckt. Mit etwa 20% des globalen Web-Traffic-Volumens bietet Cloudflare eine Infrastruktur, auf die Millionen von Internet-Assets vertrauen.

Die Kerninnovation von Cloudflare Agents liegt in der Kombination dreier Technologien: Durable Objects ermöglichen tatsächlich zustandsbehaftete Ausführung – jeder Agent läuft als persistenter Mikroserver, dessen Zustand automatisch über Deployments und Ruhephasen hinweg erhalten bleibt. Workers AI bietet serverlose GPU-Inferenz mit Modellen wie Llama, Claude und Gemini zu nutzbasierten Preisen. Das flexible Preismodell berechnet nur die tatsächlich genutzten Ressourcen, ohne Fixkosten für ungenutzte Kapazitäten.

Ein konkretes Anwendungsbeispiel liefert Knock, ein Kunde, der die Cloudflare Agents SDK zur Implementierung eines Remote-MCP-Servers verwendet hat. Dies demonstriert die praktische Einsetzbarkeit der Plattform für Enterprise-Szenarien.

Die fünf Kernpfeiler von Cloudflare Agents

Agent SDK (TypeScript-Klassenframework): Intuitive Agent-Definition durch Vererbung und @callable()-Dekoratoren
Durable Objects Persistence: Automatische Zustandsspeicherung über Deployments und Hibernation hinweg
Workers AI Inferenz: Serverlose GPU-basierte推理 mit nutzungsbasierter Preisgestaltung
Toolsystem & MCP-Integration: Flexible Werkzeugdefinition und Model Context Protocol-Support
Nutzungsbasiertes Preismodell: Keine Fixkosten, nur tatsächliche Ressourcennutzung

Die Kernfunktionen von Cloudflare Agents

Das Agent SDK von Cloudflare Agents basiert auf TypeScript-Klassen und bietet eine vertraute Programmierabstraktion für die Agent-Entwicklung. Durch Vererbung von der Agent-Basisklasse und die Verwendung des @callable()-Dekorators werden Methoden automatisch als RPC-Endpunkte exponiert. Dies ermöglicht eine klare Trennung zwischen interner Agent-Logik und extern aufrufbaren Funktionen, ohne dass Entwickler_low-level Netzwerkcode schreiben müssen.

Ein wesentlicher Vorteil gegenüber anderen Frameworks ist das integrierte Zustandsmanagement. Jeder Agent verfügt über eine eingebaute SQLite-Datenbank und Key-Value-Zustandsspeicherung – ohne externe Datenbank-Setups oder komplexe Synchronisationsmechanismen. Der Zustand bleibt automatisch über Deployments und Hibernation-Phasen hinweg erhalten, was bei wechselnden Request-Instanzen traditioneller Serverless-Umgebungen nicht gewährleistet ist.

Für schnellere Implementierungen bietet AIChatAgent eine vorkonfigurierte Lösung für KI-Chat-Szenarien. Die Integration mit dem ai SDK von Vercel unterstützt streamText für Streaming-Antworten sowie den React-Hook useAgentChat für nahtlose Frontend-Integration. Bei Verbindungsunterbrechungen wird der Zustand automatisch wiederhergestellt, was eine unterbrechungsfreie Nutzererfahrung ermöglicht.

Die Modellvielfalt umfasst sowohl Workers AI native Modelle (Llama 3.1/3.2/3.3, Mistral, DeepSeek R1, Gemma, Qwen) als auch Drittanbieter-Modelle über AI Gateway (OpenAI GPT-4, Anthropic Claude, Google Gemini). Diese Flexibilität erlaubt Entwicklern, das optimale Modell für spezifische Anwendungsfälle auszuwählen.

Das Werkzeugsystem erweitert die Agent-Fähigkeiten durch服务端 und客户端 Werkzeuge. Mit dem Model Context Protocol (MCP) können Agenten externe Dienste wie Slack, GitHub und Datenbanken integrieren. Die MCP-Server-Fähigkeit ermöglicht es, eigene Werkzeuge für andere Agenten zu exponieren – eine Grundlage für komplexe Multi-Agenten-Systeme.

WebSocket-Unterstützung mit Hibernation reduziert Kosten erheblich: Bei Inaktivität wird die Verbindung aufrechterhalten, aber die CPU-Zeit-Berechnung pausiert. Dies ist ideal für Echtzeit-Chat, kollaborative Anwendungen und langlaufende Aufgaben.

Ergänzend bietet der Scheduler mit Cron-Expression-Support automatisierte Ausführung zu definierten Zeitpunkten, während die Browser Rendering API Headless-Browser für Web-Scraping, Screenshots und interaktive Automatisierung bereitstellt.

Echte Zustandshaftung: Durable Objects eliminieren externe State-Management-Komplexität
Kosteneffizienz: Nur CPU-Zeit wird berechnet, I/O-Wartezeiten kostenlos; WebSocket-Hibernation spart bei Inaktivität
Umfassende Modellauswahl: Workers AI + Drittanbieter über AI Gateway
MCP-Ökosystem: Nahtlose Integration mit Slack, GitHub, Datenbanken und mehr
Enterprise-ready: SOC 2, GDPR-Compliance, Workflows mit automatischem Retry

TypeScript-Pflicht: Aktuell keine native Unterstützung für andere Sprachen
Eingeschränkte lokale Entwicklung: Wrangler erfordert Cloudflare-Konto für vollständigen Funktionsumfang
Kleinere Community: Im Vergleich zu etablierten Frameworks wie LangChain weniger dokumentierte Drittanbieter-Ressourcen

Technische Architektur und Kern特性

Die Architektur von Cloudflare Agents basiert auf Durable Objects, einer Cloudflare-spezifischen Technologie, die isolierte, zustandsbehaftete Mikroserver bereitstellt. Jeder Agent läuft innerhalb eines Durable Object, das einen garantierten Speicherplatz und eine garantierte CPU-Ausführungsumgebung bietet. Die Persistenz ist fundamental: Der Zustand überlebt nicht nur Deployments, sondern auch Hibernation-Phasen, bei denen der Agent bei Inaktivität "schlafen" geht, aber seinen Zustand behält.

Workers AI bildet die Inferenz-Schicht der Plattform. Als serverlose GPU-Inferenzplattform bietet sie modelle wie Llama 3.1 (8B und 70B), Mistral 7B, DeepSeek R1 und weitere. Die Preisgestaltung erfolgt über Neurons – eine granulare Metrik, die nur die tatsächlich genutzte CPU-Zeit berechnet, nicht diewall time. Dies optimiert die GPU-Auslastung und vermeidet unnötige Kosten bei Modellen mit variabler Inferenzzeit.

Für RAG-Szenarien (Retrieval-Augmented Generation) steht Vectorize bereit, ein vektorbasiertes Embedding-Suchsystem, das semantische Suche über große Dokumentbestände ermöglicht. Die Kombination mit Workers AI Embedding-Modellen eliminiert externe Vektordatenbank-Abhängigkeiten.

Die D1-Datenbank ergänzt das Ökosystem als serverlose SQL-Lösung mit eingebautem SQLite-Support. Zustandsänderungen werden in Echtzeit an Clients synchronisiert, ohne dass Entwickler eigene Synchronisationslogik implementieren müssen.

Für komplexe Geschäftsprozesse bieten Workflows eine zuverlässige Ausführungsumgebung mit automatischem Retry, persistentem Zustand und garantierter Ausführung. Die Workflow-Engine kann Aufgaben verarbeiten, die Tage oder sogar Wochen dauern – weit über die typischen Serverless-Timeouts hinaus.

Das Model Context Protocol integriert das wachsende MCP-Ökosystem nahtlos. Cloudflare unterhält offizielle MCP-Server für Dienste wie Slack und GitHub, während Entwickler eigene MCP-Server als Remote-Dienste hosten können.

Die Performance-Skalierung ist bemerkenswert: Die Architektur kann auf Dutzende von Millionen Instanzen ausgedehnt werden, wobei jeder Durable Object isoliert und unabhängig skaliert.

Architektur-Entscheidungshilfe

Für die meisten Anwendungsfälle empfiehlt sich folgende Kombination: AIChatAgent für Konversations-UI, D1 für relationale Daten, Vectorize für semantische Suche. Für reine API-Agenten ohne UI genügen Durable Objects + Workers AI. Komplexe Workflows sollten frühzeitig in Workflows ausgelagert werden, um von automatischer Retry-Logik zu profitieren.

Schnellstart mit Cloudflare Agents

Der Einstieg in Cloudflare Agents erfordert lediglich Node.js 18+, npm und ein Cloudflare-Konto. Die vollständige Entwicklungsumgebung lässt sich in wenigen Minuten einrichten:

npm i agents
npx create-cloudflare@latest --template cloudflare/agents-starter
cd agents-starter && npm install
npm run dev

Diese vier Kommandos generieren ein vollständiges Starter-Projekt mit AI-Chat-Funktionalität, Tool-Aufrufen und Aufgabenscheduling. Der Entwicklungsserver startet lokal und ermöglicht sofortiges Testen.

Ein typisches Agent-Beispiel ist der Lunch Agent, der Restaurant-Empfehlungen verwaltet. Die Implementierung demonstriert die Kernkonzepte:

export class LunchAgent extends Agent<Env, LunchState> {
  @callable()
  async nominateRestaurant(restaurantName: string) {
    // Restaurant-Logik hier implementieren
  }
  
  // Automatisches Scheduling
  this.schedule('weekdays at 11:30pm', 'chooseLunch');
  this.schedule('daily at 5pm', 'resetLunch');
}

Die Klasse erbt von Agent, verwendet @callable() für öffentliche Methoden und this.schedule() für zeitgesteuerte Aufgaben. Der Zustand wird automatisch in SQLite gespeichert und über Hibernation hinweg persisiert.

Für die Produktionsbereitstellung genügt ein einziges Kommando:

npx wrangler deploy

Der Wrangler CLI übernimmt Build, Upload und Deployment auf das globale Cloudflare-Netzwerk.

Entwicklungs-Workflow最佳实践

Nutzen Sie npm run dev für lokale Entwicklung und inkrementelles Testen. Der lokale Modus simuliert Durable Objects und ermöglicht Debugging ohne Cloudflare-Konto. Für Production: erst mit Free Plan validieren, dann auf Paid upgraden wenn Traffic steigt. Nutzen Sie Cloudflare Dashboard für Monitoring und Logs – besonders wichtig für die Fehlersuche bei verteilten Agenten.

Preisgestaltung von Cloudflare Agents

Die Preisgestaltung von Cloudflare Agents folgt einem transparenten, nutzungsbasierten Modell ohne versteckte Kosten.

Workers-Pläne

Plan	Anfragen	CPU-Zeit	Preis
Free	100.000/Tag	10ms/Anfrage	Kostenlos
Paid	10 Mio./Monat	30 Mio. CPU-ms/Monat	ab $5/Monat

Zusätzliche Kosten bei Überschreitung:

Anfragen: $0,30 pro Million
CPU-Zeit: $0,02 pro Million CPU-ms

Workers AI – Modellpreise (pro Million Token)

Modellkategorie	Modell	Input	Output
Klein	Llama 3.2 1B	$0,027	$0,201
Mittel	Llama 3.2 3B	$0,051	$0,335
Mittel	Llama 3.1 8B	$0,282	$0,827
Groß	Llama 3.1 70B	$0,293	$2,253
Groß	DeepSeek R1	$0,497	$4,881

Neurons-Berechnung: AI-Inferenz wird in Neurons abgerechnet. Das Free Tier bietet 10.000 Neurons pro Tag – ausreichend für Entwicklung und Tests. Überschreitungen kosten $0,011 pro 1.000 Neurons.

Durable Objects

Anfragen: 1 Million/Monat (Free: 100.000/Tag)
Dauer: 400.000 GB-s/Monat (Free: 13.000 GB-s/Tag)

Kostenoptimierungsstrategien

Nur CPU-Zeit wird berechnet: I/O-Wartezeiten (Netzwerk, Datenbank) kostenlos
WebSocket-Hibernation: Bei Inaktivität stoppt die CPU-Zeit-Berechnung, Verbindung bleibt
Keine Egress-Gebühren: R2, D1 und andere Speicherprodukte ohne Datenausgangsgebühren

Kosteneinstiegsstrategie

Starten Sie mit dem Free Plan – 100.000 Anfragen/Tag und 10.000 Neurons/Tag reichen für umfangreiche Entwicklung und Tests. Upgraden Sie auf Paid ($5/Monat) erst, wenn die Anwendung Production-Traffic erreicht. Die täglichen AI-Neurons können Sie für Experimente mit verschiedenen Modellen nutzen, ohne sofort Kosten zu generieren.

Ökosystem und Integrationen

Das Cloudflare Agents-Ökosystem bietet umfassende Integrationsmöglichkeiten für verschiedenste Anwendungsfälle.

Das Model Context Protocol bildet das Rückgrat der Agenten-Kommunikation. Cloudflare bietet offizielle MCP-Server für Slack, GitHub und Datenbank-Verbindungen. Unternehmen wie Knock haben diese Fähigkeit genutzt, um Remote-MCP-Server auf Cloudflare zu hosten – ohne eigene Server-Infrastruktur.

Die KI-Modellintegration erfolgt wahlweise über Workers AI native Modelle oder über AI Gateway für Drittanbieter. AI Gateway agiert als einheitliche Schnittstelle, die Anfragen an OpenAI, Anthropic Claude und Google Gemini weiterleitet, zentrales Rate-Limit-Management bietet und Kosten analytisch erfasst.

Entwickler-Tools umfassen den Workers Playground für Browser-basiertes Experimentieren, Wrangler CLI für lokale Entwicklung und Deployment, sowie Chrome DevTools Integration für Remote-Debugging.

Die Community-Ressourcen auf GitHub bieten vollständige Beispielimplementierungen: Lunch Agent (Restaurant-Empfehlungen), Chat Agent (KI-Chat-Interface), Slack Agent (Messaging-Integration). Der Cloudflare Developer Discord mit Zehntausenden von Mitgliedern ermöglicht direkten Austausch mit dem Entwicklungsteam.

Für Enterprise-Anforderungen bietet Cloudflare SOC 2 Zertifizierung und GDPR-Compliance. Das Trust Center stellt Transparenzberichte und vollständige Compliance-Dokumentation bereit. Die Integration mit bestehenden Enterprise-Systemen erfolgt über standardisierte APIs und MCP.

Integrationsempfehlung

Beginnen Sie mit MCP-Integrationen, um schnell Funktionalität zu erweitern. Die offiziellen Slack- und GitHub-Server lassen sich in wenigen Stunden integrieren und demonstrieren immediately den Wert von Agenten. Für komplexere Anwendungsfälle bietet AI Gateway eine einheitliche Abstraktionsschicht über mehrere Modelle hinweg.

Häufig gestellte Fragen

Cloudflare Agents vs. andere Agent-Frameworks – was ist der Unterschied?

Der entscheidende Unterschied liegt in der persistenten Ausführung. Während traditionelle Serverless-Plattformen bei jedem Request neue Instanzen erstellen, bieten Durable Objects eine dauerhafte Ausführungsumgebung.状态 bleibt automatisch über Deployments, Versionen und Hibernation-Phasen hinweg erhalten – ohne externe Datenbanken oder manuelle Synchronisation.

Wie starte ich mit dem ersten Agent?

Verwenden Sie den offiziellen Starter: npx create-cloudflare@latest --template cloudflare/agents-starter. In drei Kommandos erhalten Sie einen vollständigen Agenten mit AI-Chat, Tool-Aufrufen und Aufgaben-Scheduling. Der lokale Entwicklungsserver (npm run dev) ermöglicht sofortiges Testen ohne Cloudflare-Konto.

Welche KI-Modelle werden unterstützt?

Workers AI bietet native Modelle: Llama 3.1/3.2/3.3, Mistral 7B, DeepSeek R1, Gemma und Qwen. Über AI Gateway lassen sich zusätzlich OpenAI GPT-4, Anthropic Claude und Google Gemini integrieren – mit einheitlichem Rate-Limiting und Kosten-Monitoring.

Wie wird die Preisgestaltung berechnet?

Workers Paid beginnt bei $5/Monat mit 10 Millionen Anfragen und 30 Millionen CPU-Millisekunden. Workers AI berechnet Neurons: $0,011 pro 1.000 Neurons nach Erschöpfung der täglichen 10.000 kostenlosen Neurons. Es gibt keine Fixkosten – Sie zahlen nur für tatsächliche Nutzung.

Können Agenten lange Ausführungszeiten haben?

Ja. Durable Objects unterstützen lange Laufzeiten mit CPU-Limits von 5 Minuten pro Request (konfigurierbar). Scheduled Tasks können bis zu 15 Minuten dauern. Kombiniert mit Workflows lassen sich Aufgaben über Tage oder Wochen hinweg zuverlässig verarbeiten – mit automatischem Retry bei Fehlern.

Wie wird die Zuverlässigkeit der Agenten gewährleistet?

Workflows bieten eingebaute Zuverlässigkeitsmechanismen: automatisches Retry bei Fehlern, persistenter Zustand über Ausführungen hinweg, und garantierte Ausführung auch bei Systemausfällen. Ergänzend bieten Cloudflare Logs, Traces und Alerts umfassende Observability für Production-Systeme.

Wird MCP unterstützt?

Vollständig. Cloudflare Agents können sowohl als MCP-Server fungieren (und ihre Tools anderen Agenten zur Verfügung stellen) als auch als MCP-Client externe MCP-Server (Slack, GitHub, Datenbanken) integrieren. Das MCP-Ökosystem ist vollständig in die Plattform integriert.