



随着 AI 应用规模的迅速扩大,开发者面临前所未有的挑战:如何有效调试复杂的 Agent 行为?如何确保生产环境中的 AI 输出质量?如何在模型快速迭代中控制成本?这些问题的本质在于 AI 系统的可观测性——与传统软件不同,LLM 的非确定性输出、嵌套的工具调用链路、以及对 prompt 变化的敏感性,使得传统的监控手段难以胜任。
Respan(原 Keywords AI)正是为解决这些挑战而生的 AI 可观测性平台。平台由 Y Combinator 投资支持,已处理超过 80 万亿 tokens,服务 Retell AI、Mem0、AlphaSense、Gumloop 等知名 AI 公司。Retell AI 在平台上实现了 1M+ 请求/小时 的处理规模,Mem0 获得了 99.99% 的可靠性保障。这些数字背后是平台在规模化场景下经过验证的技术能力。
Respan 的核心价值主张是将分散的 AI 开发流程整合为统一的工作流:从生产环境的完整追踪,到基于指标的自动化评估,再到跨 prompt、tool、model 的联合优化,最后通过统一的 AI Gateway 完成部署。整个闭环让 AI 开发者能够快速定位问题、持续提升质量、安全控制成本。
Respan 的 Tracing 功能能够完整捕获每个 prompt、tool call 和 response,并保留真实生产流量的完整上下文。这不仅仅是传统的日志记录,而是对 Agent 执行路径的深度可视化。
技术实现层面,平台支持 1M+ logs/小时 的异步记录能力,确保在高并发场景下不会成为性能瓶颈。开发者可以按内容、延迟、成本、质量、标签、自定义元数据进行搜索、过滤和排序,快速定位问题。更重要的是,平台提供 生产轨迹 Playground,允许开发者重放调试生产环境中的实际执行路径,将真实问题场景完整复现。
此外,Respan 支持将生产轨迹直接转换为评估数据集——这意味着开发者可以用真实的生产数据持续优化 Agent 行为,形成数据驱动的迭代闭环。
AI 输出的质量评估一直是行业难题。Respan 将人工评审、代码检查和 LLM 评判整合为统一的评估工作流。平台支持三种评判器的灵活组合:代码评判器适合结构化输出的准确性验证,人工评判器用于主观质量评估,LLM 评判器则可规模化地处理大量样本。
评估的核心是基于指标定义的。开发者可以自定义质量指标(如响应准确性、格式合规性、毒性检测等),平台会自动从生产轨迹中采样数据进行在线评估。更进一步,Respan 支持对比不同 prompts、models、releases 与基线的表现差异,让 A/B 测试变得简单直观。
Prompt 工程是一个持续迭代的过程。Respan 提供完整的版本追踪能力,覆盖 prompt、tool、model、workflow 的每一个变更。开发者可以随时回溯到任意历史版本,比较不同版本的表现差异。
在优化策略上,Respan 支持跨 prompts、tools、orchestration 的联合优化。这意味着开发者可以系统性地测试不同组合,找到最优配置,而不是凭直觉猜测。平台提供与真实基线对比的测试能力,确保每一次优化都有数据支撑。
Respan 的 AI Gateway 是整个平台的分发层。通过单一 endpoint,开发者可以访问 500+ 模型,包括 OpenAI、Anthropic、OpenRouter、Groq、Fireworks、Together AI、Azure、AWS Bedrock、Google Gemini 等主流提供商。
部署流程被极大简化:开发者可以在 UI 中直接选择 prompt/workflow 版本并推送上线,无需修改代码。平台提供发布门控(gate)、行为对比和一键回滚能力,确保部署的风险可控。当新模型上线表现不佳时,可以在秒级回滚到稳定版本。
Respan 内置 80+ 图表类型的自定义仪表板,覆盖质量、成本、延迟等核心维度。平台支持 Slack、邮件、短信三种告警渠道,并可触发自动化工作流。
典型的告警场景包括:fallback 触发、retry 次数异常、invalid JSON 输出、stream timeout 等。这些都是 AI 生产环境中常见的问题类型。通过 Respan,团队可以在问题影响用户之前收到预警,将被动响应转变为主动防御。
Retell AI 是语音 AI 领域的领先者,其平台每天处理超过 1M+ 请求/小时。在如此大规模的场景下,每个电话呼叫涉及数十个 LLM 生成调用,如何将这些调用与具体通话关联起来是核心挑战。
Respan 的解决方案是使用 thread_identifier 将所有 LLM 生成与电话呼叫链接。平台支持异步日志记录,确保在高吞吐量下不会影响业务延迟。Retell AI 因此获得了完整的通话可见性,能够追溯任何一次通话的完整 LLM 调用链。
AI 系统的行为漂移(behavior drift)是一个隐蔽但危害巨大的问题。传统的监控手段往往在问题发生数小时后才能发现,而此时影响范围已经扩大。
Respan 的实时监控能力结合细粒度告警解决了这一痛点。平台支持对 fallback 触发、retry 次数、invalid JSON 输出、stream timeout 等关键事件实时监控。Retell AI 反馈,引入 Respan 后生产问题的解决速度提升了 10 倍。
对于构建自研模型的团队来说,从生产日志中导出数据是常规需求。传统方式是写脚本、跑查询、导出文件,流程繁琐且难以复用。
Respan 支持批量导出为 JSONL 和 CSV 格式,并可通过自定义属性进行精确过滤。Retell AI 反馈,这帮助他们在数据集准备上节省了 90% 的时间。
模型选择是一个需要数据支撑的决策。不同模型在延迟、成本、质量上的权衡需要实际测试才能确定。
Respan 的统一 AI Gateway 让跨模型对比变得简单。开发者可以通过平台同时调用多个模型,对比相同输入下的输出质量、响应时间和 token 消耗,从而做出数据驱动的选择。
Prompt 的微小变化可能导致输出的巨大差异。当线上问题与最近的 prompt 变更相关时,快速回滚是止损的关键。
Respan 提供完整的版本历史记录,支持一键回滚到任意历史版本。每次变更都有完整的审计记录,满足企业级合规需求。
对于金融、医疗等行业的客户,合规是进入市场的门槛。Respan 已获得 ISO 27001、SOC 2、HIPAA(含 BAA)、GDPR 四项核心认证,可以签署商业伙伴协议(BPA)和数据处理协议(DPA),满足企业安全审查要求。
Respan 的 AI Gateway 是其技术架构的核心。通过统一的 API endpoint,开发者可以访问 500+ 模型,无需为每个模型单独对接。平台内置 Key Vault(支持 BYOK - Bring Your Own Key),确保 API Key 的安全管理。
Gateway 内置多项生产级特性:请求缓存减少重复调用成本,自动重试与指数退避提高系统韧性,负载均衡优化资源利用,支出与速率限制防止意外成本超支。Team 计划的配额为 8,400 requests/min,满足绝大多数生产环境需求。
Respan 支持 40+ 主流 AI 框架,包括:
Respan 提供 Python 和 JavaScript/TypeScript 两种 SDK,覆盖主流开发语言。平台支持 OpenTelemetry 协议,便于与现有的可观测性基础设施集成。对于需要自定义集成的开发者,平台提供完整的 REST API。
企业级客户最关心的问题之一是数据安全。Respan 的安全架构包含:
平台已通过 ISO 27001、SOC 2 Type II、HIPAA(含 BAA)、GDPR 四项认证,可以满足最严格的企业合规要求。
Respan 为不同计划提供差异化的 SLA 保障:
Respan 提供清晰的三级定价方案,满足从个人开发者到企业级客户的不同需求:
| 方案 | 价格 | 核心功能 | 适合人群 |
|---|---|---|---|
| Pro | 免费 | 100k logs/月,1k scores/月,5 datasets,2 evaluators,5 prompts | 个人开发者、早期原型验证 |
| Team | $199/月(年付) | 无限 datasets/evaluators/prompts,私有 Slack 频道,SOC 2 报告,8,400 requests/min | 成长期 AI 公司、需要频繁迭代的团队 |
| Enterprise | 定制 | 自定义套餐,批量折扣,自定义 SLA,专属支持工程师,HIPAA BAA | 大型企业、金融/医疗等合规严苛行业 |
Pro 版本面向个人开发者和早期项目,提供完整的功能体验。100k logs/月的配额对于初创项目的原型验证阶段已经相当充裕。1k scores/月的评估配额足以支持基础的模型对比测试。
Team 版本是中小型 AI 公司的主流选择。$199/月(年付) 的定价包含无限的数据集、评估器和提示词管理,这意味着团队可以无限制地开展 A/B 测试和迭代优化。
私有 Slack 频道是 Team 版本的独特权益——这意味着遇到问题时可以直接联系技术支持,获得更快的响应速度。SOC 2 报告则满足了企业采购流程中的安全审计要求。
对于大型企业和有特殊合规要求的客户,Enterprise 版本提供完全定制的解决方案:
除基础套餐外,Respan 对超额使用进行按量计费:
开发者可以根据实际用量预估成本。对于日均请求量超过 100 万的企业级客户,建议直接联系销售团队获取定制方案。
Respan(原 Keywords AI)是一个 AI 可观测性平台,帮助团队追踪、评估和优化 AI Agent。平台提供从生产监控到评估到部署的完整工作流,支持 500+ 模型统一接入,已处理超过 80 万亿 tokens。
Respan 支持 40+ 主流 AI 框架,包括 LangChain、LangGraph、Vercel AI SDK、OpenAI Agents SDK、Mastra、LlamaIndex、Google GenAI、Mem0、Cognee、Agno 等。Python 和 JavaScript/TypeScript SDK 开箱即用。
通过 Respan 的 AI Gateway,可以访问 500+ 模型,包括 OpenAI、Anthropic、OpenRouter、Groq、Fireworks、Together AI、Azure、AWS Bedrock、Google Gemini 等主流提供商。一次集成即可在所有模型间切换。
Pro 版本免费(100k logs/月),Team 版本 $199/月(年付),Enterprise 版本定制。额外日志 $8/100k,额外评分 $1/1k。详细定价可访问 https://keywordsai.co/pricing
是的,Respan 已获得 ISO 27001、SOC 2、HIPAA(含 BAA)、GDPR 四项认证。Enterprise 版本可以签署 HIPAA BAA,满足医疗和金融行业的合规要求。
Respan 平台已处理超过 80 万亿 tokens,支持客户达到 1M+ 请求/小时。Retell AI 在平台上实现了 1M+ logs/小时的异步记录,Mem0 获得了 99.99% 的可靠性保障。