



在构建 AI Agent 的过程中,开发者通常面临一个根本性的技术挑战:传统无服务器架构本质上是无状态的。每一次请求都是独立的,Agent 无法记住上一轮对话的上下文,无法保持用户偏好,也无法追踪多步骤业务流程的执行状态。为了解决这些问题,开发者往往需要额外引入 Redis、MongoDB 或 PostgreSQL 等外部状态管理服务,这不仅增加了架构复杂度,还带来了额外的运维成本和性能开销。更棘手的是,长时间运行的 Agent 需要维护 WebSocket 长连接,而传统云服务的按连接计费模式在高并发场景下成本难以控制。
Cloudflare Agents 正是为解决这些痛点而设计的开发者平台。它构建在 Cloudflare 全球网络之上,覆盖 330 个城市,超过 125 个国家/地区,每日处理平均 9300 万 HTTP 请求,代理约 20% 的全球 Web 流量。这意味着你的 Agent 可以部署在距离用户最近的边缘节点,实现超低延迟响应。
Cloudflare Agents 的核心价值主张在于其独特的技术架构:结合 Durable Objects 有状态执行、Workers AI 无服务器推理,以及按使用付费的弹性定价模型。Durable Objects 为每个 Agent 提供持久化的微服务器环境,状态自动跨部署和休眠持久化,开发者无需管理外部数据库。Workers AI 则提供内置的 GPU 推理能力,支持 Llama、Claude、Gemini 等主流模型。
在生产实践中,Knock 公司已基于 Cloudflare Agents SDK 成功构建远程 MCP 服务器,验证了平台在企业级应用场景中的可行性。
Cloudflare Agents 提供了一套完整的开发者工具链,覆盖从 Agent 定义、状态管理、AI 推理到工具调用的全流程。
Agent SDK (TypeScript 类框架) 是整个平台的核心。开发者通过继承 Agent 基类定义 Agent 行为,使用 @callable() 装饰器将方法暴露为 RPC 接口。这种设计使得 Agent 方法既可以在服务端调用,也可以被 AI 模型作为工具调用。每个 Agent 还支持 WebSocket 长连接和休眠(Hibernation)机制,无活动时自动进入休眠状态,停止计费但保持连接。
内置状态管理与 SQL 存储是 Cloudflare Agents 区别于其他框架的关键特性。每个 Agent 内置 SQLite 数据库和键值状态,状态自动跨部署和休眠持久化。这意味着开发者无需配置外部数据库,即可实现对话历史记忆、用户偏好保存等常见需求。状态变更会实时同步到客户端,确保 UI 与服务端状态一致。
AIChatAgent 是开箱即用的 AI 聊天解决方案。它集成了 ai SDK(Vercel),支持 streamText 流式响应和 React hook (useAgentChat)。开发者只需几行代码即可创建具备多轮对话能力的 AI 客服或助手。更重要的是,AIChatAgent 内置消息持久化机制,断线后自动恢复对话上下文。
多模型支持赋予开发者灵活的选择权。平台原生支持 Workers AI 内置模型,包括 Llama 3.1/3.2/3.3、Mistral、DeepSeek R1、Gemma、Qwen 等。同时,通过 AI Gateway 可以统一接入 OpenAI GPT-4、Anthropic Claude、Google Gemini 等第三方模型,实现多模型切换和成本优化。
工具系统与 MCP 集成让 Agent 能够与外部世界交互。@callable() 装饰器的方法自动成为可调用工具,支持 Slack、GitHub、数据库等多种 MCP 服务器。开发者可以构建自己的 MCP 服务器供其他 Agent 调用,也可以作为 MCP 客户端连接外部服务。
WebSocket 实时通信与休眠解决了长连接成本问题。Durable Objects 提供原生的 WebSocket API,配合 Hibernation 机制,无活动时自动停止时长计费,只收取少量存储费用。这对于实时聊天、协作应用等场景尤其有价值。
定时任务调度和浏览器渲染进一步扩展了 Agent 的能力边界。Scheduler API 支持 cron 表达式和延迟执行,适合定时报告、数据同步等场景。Browser Rendering API 则支持无头浏览器进行网页抓取、截图和交互,适用于需要动态内容的自动化任务。
从技术架构层面深入理解 Cloudflare Agents,有助于技术决策者做出正确的技术选型。
Durable Objects 是整个平台的基石。它是一种有状态的微服务器,每个 Agent 实例运行在独立的 Durable Object 上。与传统无服务器函数不同,Durable Object 是持久的——即使代码部署更新,状态依然保持。这意味着 Agent 可以记住上次执行的上下文,无需每次从头初始化。状态存储在内置的 SQLite 数据库中,支持事务和复杂查询,同时也提供键值 API 满足简单场景。
Workers AI 提供无服务器 GPU 推理能力。平台托管了 Llama、Claude、Gemini 等主流大模型,开发者无需管理 GPU 基础设施。计费采用 Neurons(神经元)单位,按实际使用的 CPU 时间计算,而非 wall time。这意味着当模型推理因 I/O 等待而暂停时,开发者无需付费。Workers AI 支持批量推理和流式输出,适合从简单问答到复杂推理的各种场景。
Vectorize 是面向 RAG(检索增强生成)场景的向量数据库。它提供高效的向量检索能力,支持语义搜索和相似度匹配。配合 Workers AI 的嵌入模型,开发者可以快速构建知识库问答系统,让 AI 基于企业文档提供准确答案。
D1 是无服务器 SQL 数据库,为需要结构化存储的应用提供支持。虽然 Agent 内置 SQLite,但 D1 适合需要跨 Agent 共享数据或需要更强查询能力的场景。D1 的一个重要优势是无 egress 费用,数据传输不产生额外成本。
Workflows 是处理多步骤业务流程的工作流引擎。它保证执行的可靠性——即使遇到临时故障,工作流也会自动重试并从上次 checkpoint 恢复。Workflows 支持数天甚至数周的长周期任务,适合数据同步、定期报告、审批流程等企业场景。配合定时任务调度,Workflows 可以实现完全自动化的业务流程。
MCP (Model Context Protocol) 是新兴的 AI 工具调用标准。Cloudflare Agents 完全支持 MCP 协议,可以构建 MCP 服务器暴露工具给其他 Agent,也可以作为 MCP 客户端调用外部服务。目前已支持 Slack、GitHub、数据库等多种 MCP 服务器,未来将覆盖更多生态。
性能优化体现在多个层面。首先是 GPU 利用率优化——只收取实际 CPU 时间,不收取 I/O 等待时间。其次是 WebSocket 休眠机制——无活动时自动停止时长计费,但保持连接不中断。最后是水平扩展能力——Durable Objects 可扩展至数千万实例,满足大规模并发需求。
对于大多数场景,推荐使用 Agent 内置 SQLite 状态管理 + Workers AI 内置模型 + 定时任务调度的组合。如果需要跨 Agent 共享数据或更强查询能力,可以引入 D1。如果需要构建知识库问答,应搭配 Vectorize 向量数据库。复杂的企业流程建议使用 Workflows 编排多个 Agent。
Cloudflare Agents 的设计理念之一是降低入门门槛,让开发者能快速启动并运行第一个 Agent。
环境要求:Node.js 18+、npm、Cloudflare 账户(可免费注册)
安装步骤只需三条命令即可完成整个 Agent 项目的初始化:
npm i agents
npx create-cloudflare@latest --template cloudflare/agents-starter
cd agents-starter && npm install
npm run dev
执行完毕后,开发者得到一个功能完整的 Lunch Agent 示例,包含 AI 聊天、工具调用、任务调度等核心功能。可以通过 npm run dev 启动本地开发服务器进行调试。
最小可用示例展示了 Cloudflare Agents 的核心编程模型。以下是一个简化的 Agent 定义:
export class LunchAgent extends Agent<Env, LunchState> {
@callable()
async nominateRestaurant(restaurantName: string) {
// 提名餐厅逻辑
}
// 定时任务调度
init() {
this.schedule('weekdays at 11:30pm', 'chooseLunch');
this.schedule('daily at 5pm', 'resetLunch');
}
}
在这个示例中,@callable() 装饰器将 nominateRestaurant 方法暴露为可调用工具,AI 模型可以主动调用它来更新 Agent 状态。schedule 方法则配置定时任务,支持 cron 表达式语法。
部署命令同样简洁:
npx wrangler deploy
Wrangler 是 Cloudflare 的官方 CLI 工具,会自动将代码部署到全球边缘网络。部署完成后,Agent 即可通过 HTTPS 或 WebSocket 访问。
开发阶段建议使用 npm run dev 进行本地调试,它提供热重载和错误提示。生产环境使用 npx wrangler deploy 部署,代码会自动分发到全球节点。建议在部署前使用 npx wrangler deploy --dry-run 检查配置错误。
Cloudflare Agents 的定价遵循按使用付费原则,没有隐藏费用或长期合约。以下是详细的定价结构。
| 计划 | 请求数 | CPU 时间 | 订阅费 |
|---|---|---|---|
| Free | 10万/天 | 10ms/请求 | 免费 |
| Paid | 1000万/月 | 3000万 CPU ms/月 | $5/月起 |
Free 计划足以支持个人开发者和小型项目的日常需求。Paid 计划超出部分的计费为:请求超出 $0.30/百万,CPU 超出 $0.02/百万 CPU ms。
| 模型 | 输入价格 | 输出价格 |
|---|---|---|
| Llama 3.2 1B | $0.027/百万 token | $0.201/百万 token |
| Llama 3.1 8B | $0.282/百万 token | $0.827/百万 token |
| Llama 3.1 70B | $0.293/百万 token | $2.253/百万 token |
| DeepSeek R1 | $0.497/百万 token | $4.881/百万 token |
Workers AI 提供每日 10,000 Neurons 免费额度,适合开发和测试阶段。超出费用为 $0.011/千 Neurons。需要注意的是,输出 token 通常比输入 token 成本更高,这是因为生成内容需要更多计算资源。
| 资源 | Free 额度 | Paid 额度 |
|---|---|---|
| 请求 | 10万/天 | 100万/月 |
| 时长 | 1.3万 GB-s/天 | 40万 GB-s/月 |
Cloudflare Agents 在多个层面帮助开发者控制成本。首先是CPU 时间计费——只收取实际计算时间,不收取 I/O 等待时间,这在等待外部 API 响应时特别有价值。其次是WebSocket 休眠——无活动时自动进入休眠状态,停止时长计费,只收取极少的存储费用。第三是无 egress 费用——R2、D1 等存储服务不收取数据传出费用,适合高流量应用。
建议开发者从 Free 计划开始,验证产品-market fit 后再升级到 Paid 计划。Workers AI 的每日免费额度足以支持原型开发和功能测试。对于生产环境,根据实际流量选择合适的计划,并关注 CPU 时间这一主要成本来源。
Cloudflare Agents 不是孤立的平台,而是 Cloudflare 开发者生态系统的核心组成部分。
MCP 生态是当前发展最快的集成方向。Model Context Protocol 正在成为 AI 工具调用的行业标准。Cloudflare Agents 完全支持 MCP 协议,开发者可以构建 MCP 服务器暴露自定义工具,也可以连接外部 MCP 服务器。目前已支持 Slack、GitHub、数据库等多种 MCP 服务,未来将覆盖更多企业工具。
第三方模型集成通过 AI Gateway 实现统一接入。无论你偏好 OpenAI GPT-4、Anthropic Claude 还是 Google Gemini,都可以通过 AI Gateway 接入,无需修改 Agent 代码。AI Gateway 还提供请求日志、流量控制、成本分析等运维功能。
开发者工具链包括 Workers Playground(在线代码编辑器)、Wrangler CLI(本地开发和部署)、Chrome DevTools 集成(调试和分析)。这些工具覆盖了从编写代码到部署上线的全流程。
社区资源同样丰富。GitHub 上提供了多个完整的示例项目,包括 Lunch Agent(餐饮推荐)、Chat Agent(智能客服)、Slack Agent(Slack 集成)。开发者 Discord 社区拥有数万名成员,可以获得及时的技术支持。
企业级支持是平台可信度的重要保障。Cloudflare 已获得 SOC 2 认证,符合 GDPR 要求,提供完整的合规资源中心和透明度报告。企业客户可以通过 Service Bindings 与现有系统深度集成。
建议开发者从 MCP 集成入手,快速扩展 Agent 能力。Slack 和 GitHub 是最常用的两个集成点,可以先尝试构建一个 Slack 通知 Agent 或 GitHub 自动化 Agent,积累经验后再构建更复杂的应用。
Cloudflare Agents 的核心差异在于有状态执行。大多数 Agent 框架基于无服务器函数,每次调用都是独立的,而 Cloudflare Agents 构建在 Durable Objects 之上,每个 Agent 是持久化的微服务器。状态自动跨部署和休眠持久化,无需 Redis、MongoDB 等外部状态管理服务。此外,WebSocket 休眠机制和按使用付费定价也是独特优势。
使用官方脚手架工具,三行命令即可启动完整项目:
npx create-cloudflare@latest --template cloudflare/agents-starter
cd agents-starter && npm install
npm run dev
项目包含 AI 聊天、工具调用、任务调度等完整功能,适合作为学习起点。官方文档也提供了详细的 API 参考和教程。
支持两大类模型。第一类是 Workers AI 内置模型,包括 Llama 3.1/3.2/3.3、Mistral、DeepSeek R1、Gemma、Qwen 等,涵盖从 1B 到 70B 的多种规模。第二类是通过 AI Gateway 接入的第三方模型,包括 OpenAI GPT-4、Anthropic Claude、Google Gemini 等。开发者可以根据任务需求和成本预算灵活选择。
Workers 付费计划 $5/月起,包含 1000 万请求和 3000 万 CPU ms,超出部分按量计费。Workers AI 按 Neurons(神经元)计费,$0.011/千 Neurons,每日免费 10,000 Neurons。具体模型价格差异较大,例如 Llama 3.1 8B 输入 $0.282/百万 token,DeepSeek R1 输入 $0.497/百万 token。建议使用官方定价计算器估算成本。
可以。Durable Objects 支持长时间运行,单次请求 CPU 时间上限为 5 分钟(可配置),定时任务可达 15 分钟。对于更长的任务,可以配合 Workflows 工作流引擎,它支持数天甚至数周的执行周期,自动处理重试和状态恢复。
Workflows 提供企业级的可靠性保障。它内置自动重试机制,遇到临时故障会指数退避后重试。它维护持久状态,即使整个系统重启也能从上次 checkpoint 恢复。配合 Cloudflare 的告警和可观测性工具(Logs、Traces),可以实现完整的可观测性覆盖,及时发现和处理异常。
完全支持 MCP 协议。开发者可以构建 MCP 服务器,将 @callable() 方法暴露给其他 Agent 或外部 AI 工具调用。同时也可以作为 MCP 客户端,连接 Slack、GitHub、数据库等外部 MCP 服务器。Knock 公司已成功使用 Cloudflare Agents 构建远程 MCP 服务器并交付给客户。