当 AI Agent 或爬虫请求网页时,Cloudflare 可以自动把 HTML 页面转换为 Markdown 格式返回,从而大幅节省 token 消耗,让 AI 更高效地”阅读”网页内容。
也就是:
让 AI 访问网页时,直接拿到干净的 Markdown,而不是又大又乱的 HTML。
结果是:
- 🧠 AI 更容易读
- 💰 Token 成本大幅降低(可减少约 80%)
- ⚡ 处理更快
- 🧩 结构更清晰
解决的问题
过去,网站的访问者主要是人类用户,流量来自搜索引擎。但现在,越来越多的流量来自 AI 系统,包括各种 AI 爬虫和 Agent。这些 AI 系统需要从网页中提取内容,但网页是为人类设计的,充满了对 AI 来说毫无意义的”噪音”。
HTML 太浪费 token
AI 处理文本是按 token 计费的,而 HTML 格式极其浪费 token。Cloudflare 比喻:把原始 HTML 喂给 AI,就像按字付费去阅读快递包裹的外包装,而不是里面的信件。
同样的内容,Markdown 比 HTML 节省了约 80% 的 token。而且 HTML 中还有很多对 AI 无用的标签:<div>、导航栏、JS 脚本、CSS 样式等等。
现有方案的问题
目前各 AI 系统都是自己做 HTML 转 Markdown,带来三个问题:
- 浪费算力:每个 AI 都要跑一遍转换逻辑
- 增加成本:需要额外的计算资源和代码维护
- 质量不一:转换结果可能丢失语义结构
解决方案
Cloudflare 的思路:在 CDN 层面直接完成转换,不需要网站改代码,也不需要 AI 系统自己做转换。
当 AI 请求网页时,加一个请求头:
Accept: text/markdown
Cloudflare 就会从源站拿 HTML,转换成 Markdown,返回给 AI。
技术原理
使用 HTTP 内容协商机制:
- AI Agent 发起请求,带上 Accept: text/markdown
- Cloudflare 检测到这个请求头
- 从源服务器获取 HTML
- 实时转换成 Markdown
- 返回给 AI Agent
测试命令:
curl https://blog.cloudflare.com/markdown-for-agents/ -H "Accept: text/markdown"
响应头信息
- content-type:text/markdown
- x-markdown-tokens:预估 token 数量
- content-signal:内容使用授权信号
Content Signals
这是配套机制,让网站可以明确表达”我的内容允许被怎样使用”。响应会自动包含:
Content-Signal: ai-train=yes, search=yes, ai-input=yes
- ai-train=yes:允许 AI 训练
- search=yes:允许搜索展示
- ai-input=yes:允许作为 AI 输入
谁在用
Claude Code 和 OpenCode 已经发送 Accept: text/markdown 请求头。Cloudflare 自己也率先在开发者文档站和博客启用。
非 Cloudflare 场景
Workers AI API
支持 HTML、PDF、Word 等多种格式转 Markdown,适合各种文档处理。
Browser Rendering API
先用真实浏览器渲染页面,再转 Markdown,适合 SPA 等依赖 JS 渲染的网站。
Cloudflare Radar
新增 AI 机器人流量的内容类型分布数据,可以看到各 AI 爬虫请求 Markdown 的比例和趋势。
如何开通
登录 Cloudflare 仪表板,选择账户和区域,找到快速操作,切换 Markdown for Agents 按钮即可启用。
意义
对网站运营者
AI Agent 正在成为”新访客类型”。就像过去需要 SEO,现在需要考虑”Agent-Friendly”,让 AI 更高效获取内容。
对 AI 开发者
获取网页内容的成本会大幅下降,不需要自己做 HTML 解析和转换。
行业趋势
互联网基础设施正在为 AI 时代做适配。Cloudflare 用 HTTP 内容协商的方式,在不改变 Web 架构的前提下,为 AI 开辟了”快车道”。这是 CDN 厂商在 AI 时代寻找新价值点的尝试。
© 版权声明
本站部分内容源于网络收集,文章等版权归原作者所有,若需删稿请联系管理员邮箱:[email protected]
相关文章
没有相关内容!
暂无评论...