Cloudflare Agents ist eine Plattform für die Entwicklung von KI-Agenten auf dem globalen Netzwerk von Cloudflare. Mit Durable Objects für zustandsbehaftete Ausführung, Workers AI für serverlose Inferenz und flexibler nutzungsbasierter Preisgestaltung können Entwickler只需为实际计算时间付费。




Die Entwicklung von KI-Agenten stellt Entwickler vor erhebliche technische Herausforderungen. Traditionelle Serverless-Plattformen bieten lediglich stateless Execution, was bedeutet, dass jeder Request eine neue Instanz erzeugt – mit erheblichem Overhead bei komplexen, mehrstufigen Interaktionen. Die Verwaltung von Kontext, Sitzungszuständen undpersistenten Daten erfordert häufig externe Datenbanken und komplexe Synchronisationslogik. Hinzu kommen die Kosten für ständig aktive WebSocket-Verbindungen, die bei vielen Echtzeitanwendungen unverzichtbar sind.
Cloudflare Agents adressiert diese Probleme fundamental anders. Die Plattform ist auf dem globalen Netzwerk von Cloudflare aufgebaut, das täglich durchschnittlich 93 Millionen HTTP-Anfragen verarbeitet und 330 Städte in über 125 Ländern abdeckt. Mit etwa 20% des globalen Web-Traffic-Volumens bietet Cloudflare eine Infrastruktur, auf die Millionen von Internet-Assets vertrauen.
Die Kerninnovation von Cloudflare Agents liegt in der Kombination dreier Technologien: Durable Objects ermöglichen tatsächlich zustandsbehaftete Ausführung – jeder Agent läuft als persistenter Mikroserver, dessen Zustand automatisch über Deployments und Ruhephasen hinweg erhalten bleibt. Workers AI bietet serverlose GPU-Inferenz mit Modellen wie Llama, Claude und Gemini zu nutzbasierten Preisen. Das flexible Preismodell berechnet nur die tatsächlich genutzten Ressourcen, ohne Fixkosten für ungenutzte Kapazitäten.
Ein konkretes Anwendungsbeispiel liefert Knock, ein Kunde, der die Cloudflare Agents SDK zur Implementierung eines Remote-MCP-Servers verwendet hat. Dies demonstriert die praktische Einsetzbarkeit der Plattform für Enterprise-Szenarien.
Das Agent SDK von Cloudflare Agents basiert auf TypeScript-Klassen und bietet eine vertraute Programmierabstraktion für die Agent-Entwicklung. Durch Vererbung von der Agent-Basisklasse und die Verwendung des @callable()-Dekorators werden Methoden automatisch als RPC-Endpunkte exponiert. Dies ermöglicht eine klare Trennung zwischen interner Agent-Logik und extern aufrufbaren Funktionen, ohne dass Entwickler_low-level Netzwerkcode schreiben müssen.
Ein wesentlicher Vorteil gegenüber anderen Frameworks ist das integrierte Zustandsmanagement. Jeder Agent verfügt über eine eingebaute SQLite-Datenbank und Key-Value-Zustandsspeicherung – ohne externe Datenbank-Setups oder komplexe Synchronisationsmechanismen. Der Zustand bleibt automatisch über Deployments und Hibernation-Phasen hinweg erhalten, was bei wechselnden Request-Instanzen traditioneller Serverless-Umgebungen nicht gewährleistet ist.
Für schnellere Implementierungen bietet AIChatAgent eine vorkonfigurierte Lösung für KI-Chat-Szenarien. Die Integration mit dem ai SDK von Vercel unterstützt streamText für Streaming-Antworten sowie den React-Hook useAgentChat für nahtlose Frontend-Integration. Bei Verbindungsunterbrechungen wird der Zustand automatisch wiederhergestellt, was eine unterbrechungsfreie Nutzererfahrung ermöglicht.
Die Modellvielfalt umfasst sowohl Workers AI native Modelle (Llama 3.1/3.2/3.3, Mistral, DeepSeek R1, Gemma, Qwen) als auch Drittanbieter-Modelle über AI Gateway (OpenAI GPT-4, Anthropic Claude, Google Gemini). Diese Flexibilität erlaubt Entwicklern, das optimale Modell für spezifische Anwendungsfälle auszuwählen.
Das Werkzeugsystem erweitert die Agent-Fähigkeiten durch服务端 und客户端 Werkzeuge. Mit dem Model Context Protocol (MCP) können Agenten externe Dienste wie Slack, GitHub und Datenbanken integrieren. Die MCP-Server-Fähigkeit ermöglicht es, eigene Werkzeuge für andere Agenten zu exponieren – eine Grundlage für komplexe Multi-Agenten-Systeme.
WebSocket-Unterstützung mit Hibernation reduziert Kosten erheblich: Bei Inaktivität wird die Verbindung aufrechterhalten, aber die CPU-Zeit-Berechnung pausiert. Dies ist ideal für Echtzeit-Chat, kollaborative Anwendungen und langlaufende Aufgaben.
Ergänzend bietet der Scheduler mit Cron-Expression-Support automatisierte Ausführung zu definierten Zeitpunkten, während die Browser Rendering API Headless-Browser für Web-Scraping, Screenshots und interaktive Automatisierung bereitstellt.
Die Architektur von Cloudflare Agents basiert auf Durable Objects, einer Cloudflare-spezifischen Technologie, die isolierte, zustandsbehaftete Mikroserver bereitstellt. Jeder Agent läuft innerhalb eines Durable Object, das einen garantierten Speicherplatz und eine garantierte CPU-Ausführungsumgebung bietet. Die Persistenz ist fundamental: Der Zustand überlebt nicht nur Deployments, sondern auch Hibernation-Phasen, bei denen der Agent bei Inaktivität "schlafen" geht, aber seinen Zustand behält.
Workers AI bildet die Inferenz-Schicht der Plattform. Als serverlose GPU-Inferenzplattform bietet sie modelle wie Llama 3.1 (8B und 70B), Mistral 7B, DeepSeek R1 und weitere. Die Preisgestaltung erfolgt über Neurons – eine granulare Metrik, die nur die tatsächlich genutzte CPU-Zeit berechnet, nicht diewall time. Dies optimiert die GPU-Auslastung und vermeidet unnötige Kosten bei Modellen mit variabler Inferenzzeit.
Für RAG-Szenarien (Retrieval-Augmented Generation) steht Vectorize bereit, ein vektorbasiertes Embedding-Suchsystem, das semantische Suche über große Dokumentbestände ermöglicht. Die Kombination mit Workers AI Embedding-Modellen eliminiert externe Vektordatenbank-Abhängigkeiten.
Die D1-Datenbank ergänzt das Ökosystem als serverlose SQL-Lösung mit eingebautem SQLite-Support. Zustandsänderungen werden in Echtzeit an Clients synchronisiert, ohne dass Entwickler eigene Synchronisationslogik implementieren müssen.
Für komplexe Geschäftsprozesse bieten Workflows eine zuverlässige Ausführungsumgebung mit automatischem Retry, persistentem Zustand und garantierter Ausführung. Die Workflow-Engine kann Aufgaben verarbeiten, die Tage oder sogar Wochen dauern – weit über die typischen Serverless-Timeouts hinaus.
Das Model Context Protocol integriert das wachsende MCP-Ökosystem nahtlos. Cloudflare unterhält offizielle MCP-Server für Dienste wie Slack und GitHub, während Entwickler eigene MCP-Server als Remote-Dienste hosten können.
Die Performance-Skalierung ist bemerkenswert: Die Architektur kann auf Dutzende von Millionen Instanzen ausgedehnt werden, wobei jeder Durable Object isoliert und unabhängig skaliert.
Für die meisten Anwendungsfälle empfiehlt sich folgende Kombination: AIChatAgent für Konversations-UI, D1 für relationale Daten, Vectorize für semantische Suche. Für reine API-Agenten ohne UI genügen Durable Objects + Workers AI. Komplexe Workflows sollten frühzeitig in Workflows ausgelagert werden, um von automatischer Retry-Logik zu profitieren.
Der Einstieg in Cloudflare Agents erfordert lediglich Node.js 18+, npm und ein Cloudflare-Konto. Die vollständige Entwicklungsumgebung lässt sich in wenigen Minuten einrichten:
npm i agents
npx create-cloudflare@latest --template cloudflare/agents-starter
cd agents-starter && npm install
npm run dev
Diese vier Kommandos generieren ein vollständiges Starter-Projekt mit AI-Chat-Funktionalität, Tool-Aufrufen und Aufgabenscheduling. Der Entwicklungsserver startet lokal und ermöglicht sofortiges Testen.
Ein typisches Agent-Beispiel ist der Lunch Agent, der Restaurant-Empfehlungen verwaltet. Die Implementierung demonstriert die Kernkonzepte:
export class LunchAgent extends Agent<Env, LunchState> {
@callable()
async nominateRestaurant(restaurantName: string) {
// Restaurant-Logik hier implementieren
}
// Automatisches Scheduling
this.schedule('weekdays at 11:30pm', 'chooseLunch');
this.schedule('daily at 5pm', 'resetLunch');
}
Die Klasse erbt von Agent, verwendet @callable() für öffentliche Methoden und this.schedule() für zeitgesteuerte Aufgaben. Der Zustand wird automatisch in SQLite gespeichert und über Hibernation hinweg persisiert.
Für die Produktionsbereitstellung genügt ein einziges Kommando:
npx wrangler deploy
Der Wrangler CLI übernimmt Build, Upload und Deployment auf das globale Cloudflare-Netzwerk.
Nutzen Sie npm run dev für lokale Entwicklung und inkrementelles Testen. Der lokale Modus simuliert Durable Objects und ermöglicht Debugging ohne Cloudflare-Konto. Für Production: erst mit Free Plan validieren, dann auf Paid upgraden wenn Traffic steigt. Nutzen Sie Cloudflare Dashboard für Monitoring und Logs – besonders wichtig für die Fehlersuche bei verteilten Agenten.
Die Preisgestaltung von Cloudflare Agents folgt einem transparenten, nutzungsbasierten Modell ohne versteckte Kosten.
| Plan | Anfragen | CPU-Zeit | Preis |
|---|---|---|---|
| Free | 100.000/Tag | 10ms/Anfrage | Kostenlos |
| Paid | 10 Mio./Monat | 30 Mio. CPU-ms/Monat | ab $5/Monat |
Zusätzliche Kosten bei Überschreitung:
| Modellkategorie | Modell | Input | Output |
|---|---|---|---|
| Klein | Llama 3.2 1B | $0,027 | $0,201 |
| Mittel | Llama 3.2 3B | $0,051 | $0,335 |
| Mittel | Llama 3.1 8B | $0,282 | $0,827 |
| Groß | Llama 3.1 70B | $0,293 | $2,253 |
| Groß | DeepSeek R1 | $0,497 | $4,881 |
Neurons-Berechnung: AI-Inferenz wird in Neurons abgerechnet. Das Free Tier bietet 10.000 Neurons pro Tag – ausreichend für Entwicklung und Tests. Überschreitungen kosten $0,011 pro 1.000 Neurons.
Starten Sie mit dem Free Plan – 100.000 Anfragen/Tag und 10.000 Neurons/Tag reichen für umfangreiche Entwicklung und Tests. Upgraden Sie auf Paid ($5/Monat) erst, wenn die Anwendung Production-Traffic erreicht. Die täglichen AI-Neurons können Sie für Experimente mit verschiedenen Modellen nutzen, ohne sofort Kosten zu generieren.
Das Cloudflare Agents-Ökosystem bietet umfassende Integrationsmöglichkeiten für verschiedenste Anwendungsfälle.
Das Model Context Protocol bildet das Rückgrat der Agenten-Kommunikation. Cloudflare bietet offizielle MCP-Server für Slack, GitHub und Datenbank-Verbindungen. Unternehmen wie Knock haben diese Fähigkeit genutzt, um Remote-MCP-Server auf Cloudflare zu hosten – ohne eigene Server-Infrastruktur.
Die KI-Modellintegration erfolgt wahlweise über Workers AI native Modelle oder über AI Gateway für Drittanbieter. AI Gateway agiert als einheitliche Schnittstelle, die Anfragen an OpenAI, Anthropic Claude und Google Gemini weiterleitet, zentrales Rate-Limit-Management bietet und Kosten analytisch erfasst.
Entwickler-Tools umfassen den Workers Playground für Browser-basiertes Experimentieren, Wrangler CLI für lokale Entwicklung und Deployment, sowie Chrome DevTools Integration für Remote-Debugging.
Die Community-Ressourcen auf GitHub bieten vollständige Beispielimplementierungen: Lunch Agent (Restaurant-Empfehlungen), Chat Agent (KI-Chat-Interface), Slack Agent (Messaging-Integration). Der Cloudflare Developer Discord mit Zehntausenden von Mitgliedern ermöglicht direkten Austausch mit dem Entwicklungsteam.
Für Enterprise-Anforderungen bietet Cloudflare SOC 2 Zertifizierung und GDPR-Compliance. Das Trust Center stellt Transparenzberichte und vollständige Compliance-Dokumentation bereit. Die Integration mit bestehenden Enterprise-Systemen erfolgt über standardisierte APIs und MCP.
Beginnen Sie mit MCP-Integrationen, um schnell Funktionalität zu erweitern. Die offiziellen Slack- und GitHub-Server lassen sich in wenigen Stunden integrieren und demonstrieren immediately den Wert von Agenten. Für komplexere Anwendungsfälle bietet AI Gateway eine einheitliche Abstraktionsschicht über mehrere Modelle hinweg.
Der entscheidende Unterschied liegt in der persistenten Ausführung. Während traditionelle Serverless-Plattformen bei jedem Request neue Instanzen erstellen, bieten Durable Objects eine dauerhafte Ausführungsumgebung.状态 bleibt automatisch über Deployments, Versionen und Hibernation-Phasen hinweg erhalten – ohne externe Datenbanken oder manuelle Synchronisation.
Verwenden Sie den offiziellen Starter: npx create-cloudflare@latest --template cloudflare/agents-starter. In drei Kommandos erhalten Sie einen vollständigen Agenten mit AI-Chat, Tool-Aufrufen und Aufgaben-Scheduling. Der lokale Entwicklungsserver (npm run dev) ermöglicht sofortiges Testen ohne Cloudflare-Konto.
Workers AI bietet native Modelle: Llama 3.1/3.2/3.3, Mistral 7B, DeepSeek R1, Gemma und Qwen. Über AI Gateway lassen sich zusätzlich OpenAI GPT-4, Anthropic Claude und Google Gemini integrieren – mit einheitlichem Rate-Limiting und Kosten-Monitoring.
Workers Paid beginnt bei $5/Monat mit 10 Millionen Anfragen und 30 Millionen CPU-Millisekunden. Workers AI berechnet Neurons: $0,011 pro 1.000 Neurons nach Erschöpfung der täglichen 10.000 kostenlosen Neurons. Es gibt keine Fixkosten – Sie zahlen nur für tatsächliche Nutzung.
Ja. Durable Objects unterstützen lange Laufzeiten mit CPU-Limits von 5 Minuten pro Request (konfigurierbar). Scheduled Tasks können bis zu 15 Minuten dauern. Kombiniert mit Workflows lassen sich Aufgaben über Tage oder Wochen hinweg zuverlässig verarbeiten – mit automatischem Retry bei Fehlern.
Workflows bieten eingebaute Zuverlässigkeitsmechanismen: automatisches Retry bei Fehlern, persistenter Zustand über Ausführungen hinweg, und garantierte Ausführung auch bei Systemausfällen. Ergänzend bieten Cloudflare Logs, Traces und Alerts umfassende Observability für Production-Systeme.
Vollständig. Cloudflare Agents können sowohl als MCP-Server fungieren (und ihre Tools anderen Agenten zur Verfügung stellen) als auch als MCP-Client externe MCP-Server (Slack, GitHub, Datenbanken) integrieren. Das MCP-Ökosystem ist vollständig in die Plattform integriert.
Entdecke die neuesten KI-Tools und steigere noch heute deine Produktivität.
Alle Tools durchsuchenCloudflare Agents ist eine Plattform für die Entwicklung von KI-Agenten auf dem globalen Netzwerk von Cloudflare. Mit Durable Objects für zustandsbehaftete Ausführung, Workers AI für serverlose Inferenz und flexibler nutzungsbasierter Preisgestaltung können Entwickler只需为实际计算时间付费。
AI Dating-Fotos die wirklich Matches bringen
AllinOne KI Videogenerierungsplattform
Über 1000 kuratierte No-Code Templates an einem Ort
Alles für dein Coaching Business in einer App
KI-gestützter Website-Builder für alle
Meistern Sie die KI-Content-Erstellung mit unserem umfassenden Leitfaden. Entdecken Sie die besten KI-Tools, Workflows und Strategien, um 2026 schneller hochwertige Inhalte zu erstellen.
Auf der Suche nach kostenlosen KI-Coding-Tools? Wir haben 8 der besten kostenlosen KI-Code-Assistenten für 2026 getestet — von VS Code-Erweiterungen bis zu Open-Source-Alternativen zu GitHub Copilot.