所有文章
为什么你的AI Agent总被网站秒封?我找到了解法

为什么你的AI Agent总被网站秒封?我找到了解法

··阅读约 10 分钟·3,864 字·8 阅读
AI Agent浏览器CamoFoxMCP反检测Camoufox开源项目

你花3小时调好一个AI Agent,让它自动刷GitHub Trending、帮你跟X粉丝互动。30秒后,被封了。

或者更烦的:Agent每次重启,上次辛苦登录的X账号又没了。一查日志,Token消耗比预期多了10倍——因为底层传回来的是整页HTML,95%是噪声。

不是Agent不够聪明,是浏览器方案选错了。

[divider:1]

先说背景

2026年6月Cloudflare Radar数据:全球网页请求中机器人流量占比57.5%,首次超过人类的42.5%。

Image

网站反爬在加速进化,今天能过的检测三个月后可能就封了。你的Agent能不能活下来,取决于浏览器方案在哪个层级做对抗。

Agent用浏览器,到底在解决什么问题

传统浏览器自动化——爬虫、E2E测试——人在写代码,目标明确,跑一次就完。Agent不一样,任务模糊、要自主决策、一个任务跑十几分钟、每步都烧Token。

所以Agent的浏览器方案必须回答5个问题:

  1. ==信息密度==——喂给LLM的页面里有多少噪声?Token烧不烧得起?
  2. ==检测对抗==——能不能过反爬?活3秒还是3小时?
  3. ==身份一致性==——能不能保持登录?明天再跑还是同一个身份吗?
  4. 可观测性——Agent知道自己看到了什么吗?
  5. 任务粒度——一次能跑多少步?成本可控吗?

下面先看4种主流路线怎么做的,再说我的选择。

[divider:2]

4条路线,各有利弊

路线代表思路致命短板
MCP BrowserPlaywright MCPAI通过协议调浏览器底层裸Chromium,零反检测,无持久化
Agent框架内置Browser Use、Devin浏览器是核心还是Chromium那套,指纹问题照旧
Computer UseClaude、OpenAI Operator截屏+鼠标键盘模拟人慢且贵,精度差,Token消耗5-10倍
自建浏览器服务Steel.dev、CamoFoxREST API自行集成基础设施负担大

路线A(MCP)——Cursor里让AI查个文档,够用。想让AI自动操作X/Twitter这种重活,Playwright MCP在严格平台撑不过几秒。Browserbase、Stagehand也是Chromium,只是把"在哪跑"云化了,根本问题没解决。

路线B(Agent框架内置)——Browser Use(97.7K Stars)的DOM索引做得好,但底子还是Playwright。反爬系统看的是"这是不是Chrome 144 + HeadlessChrome + webdriver=true"——走Chromium的路子都很难绕开。

路线C(Computer Use)——截屏+坐标点的思路天然像人,反检测独一档。但一次操作至少一张截图+一次LLM推理,Token烧得是DOM方案的5-10倍,长任务经常中途漂移。OpenAI Operator至今没开放API,原因之一就是跑起来太贵。

路线D(自建)——用Camoufox库或Steel.dev自己搭。代价是基础设施负担大,好处是自己说了算。

[divider:3]

核心差距一:Token烧不烧得起

不同方案喂给LLM的内容,信息密度差距多大(同一Wikipedia页面实测):

方案大小信息密度
裸 HTML~16K chars / ~4K tokens~5%
Browser Use DOM 索引~3.5K chars / ~900 tokens~28%
Playwright 输出~5K chars / ~1.3K tokens~18%
==CamoFox Accessibility Snapshot====~1.6K chars / ~400 tokens====~70%==

Image

CamoFox返回的是无障碍树——只有语义化标签和文本,没有CSS/JS噪声。屏幕阅读器读什么,LLM就读什么。

一个30步的任务,HTML方案要12万Token,CamoFox只要1.2万。按Claude 3.5 Sonnet算,==单次任务从3.6美元降到0.36美元==。

说实话这个差距挺吓人的,长期跑下来成本差别非常大。

[divider:4]

核心差距二:能不能过反爬

大多数人第一次接触反检测,都是JS层补丁——puppeteer-extra-plugin-stealth。能过60%基础检测。

但JS补丁只改了值,没改关系。浏览器指纹有16+个维度(Canvas、WebGL、AudioContext、WebRTC、字体、时区……),关键是所有维度必须内部一致。你声称Windows但字体列表全是macOS的,一条就给你封了。

==JS改得了值,改不了C++引擎的指纹。== Chromium编译时就把这些信息写死了。

Camoufox的做法比较狠:直接fork Firefox源码,在C++层动手脚。初始化时注入,JS跑之前就生效,检测脚本根本找不到破绽。代价是编译一次30多分钟,几GB的C++ patch——JS层想做到这个,没门。

Image

Cloudflare实测数据:

  • Playwright + stealth插件:~5%
  • Playwright + 高端代理:~25%
  • Multilogin等商业方案:~70%
  • ==Camoufox默认配置:~85%==
  • ==Camoufox + 住宅代理:~95%==

说实话裸Playwright 5%的过检率基本等于不能用。

[divider:5]

核心差距三:能不能记住登录

这个才是让Agent无法真正商用的坎。

Cloudflare的clearance cookie只有30分钟有效期,而且绑定浏览器指纹。指纹变了,cookie立即失效。X/Twitter也一样——指纹变化=异常登录=封号。

Playwright的storageState只保存cookies和localStorage到JSON,不保存IndexedDB、WebGL状态。你存了cookie,下次换个指纹的浏览器加载,Cloudflare一样拦你。

CamoFox的做法:==每个Profile对应一个完整的Firefox用户数据目录==,cookies、localStorage、IndexedDB全部持久保存,指纹也绑着Profile——同一个Profile每次启动用的是同一套指纹,WebGL厂商、分辨率、时区全部一致。

Image

多Profile=多身份,互相不搭界。没有这个能力,Agent每次操作认证网站都是一场赌博。

综合对比

方案信息密度检测对抗身份一致性可观测性任务粒度
Playwright MCP⭐⭐⭐⭐
Browser Use⭐⭐⭐⭐⭐⭐⭐⭐⭐
Computer Use⭐⭐⭐
CamoFox⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

说明一下,这表是基于我自己项目经验的判断,不构成客观评测。Browser Use的DOM索引在简单页面上比CamoFox还紧凑;Computer Use在反检测维度上独一档。CamoFox最核心的优势是==5个问题没明显短板==——生产环境里,Agent崩溃的代价远大于"某个维度没做到第一"。

[divider:6]

诚实说缺点

  1. 还在早期阶段——Camoufox 9K Stars,CamoFox 6.5K Stars(截至2026年6月),社区规模跟Playwright差距大,遇到问题大概率自己改源码。

  2. 交互式Cloudflare挑战仍是硬限制——非交互式能过,但Turnstile(要人机验证的)所有自动化方案都力不从心,主流做法是接打码平台。

  3. Firefox兼容性——少数网站只测Chrome,Firefox下可能异常。消费级网站大致OK,企业内网系统要小心。

为什么我选了CamoFox

我的场景:长期任务的AI Agent,严格反爬网站,多账号,Token成本可控。CamoFox在这个场景里5个问题都没有明显短板。

跟Browser Use不在同一赛道——Browser Use解决"理解层",CamoFox解决"生存层",可以组合使用。

适合需要长期稳定运行的Agent。不适合一次性demo、企业内网、纯视觉驱动。

试CamoFox成本不高:

pip install camoufox

或者Docker一键跑:

docker run -p 9377:9377 camofox-browser

你被封过几次?用了什么方案?评论区说说,我帮你分析。


我是程序员零一,关注我了解最新AI动态和开源项目资源