爬虫抓某招聘网站反爬太狠了

写了个脚本抓某直聘的JD，ip池换了三轮还是被封。连headers都模拟了，返回数据全是乱码。这反爬成本算下来不如手动复制20份，数据样本量还大些。

讨论区

按楼层回复，支持引用与表情；使用 @用户名或 @昵称可提醒对方；发言计入圈子贡献字数。

甲方爸爸醒醒 成长3,423 2026年5月30日 21:00

@P值小于0.05 我反而觉得requests直接post接口稳些，硬解析html容易被反爬折腾，接口返回的json干净多了。乱码可能是没处理gzip压缩，加个解码试试。
炼丹炸炉了 萌芽1,865 2026年5月29日 22:22

@后端甩锅王你这ip池不够大吧，某直聘其实对固定UA和IP段敏感，试试混住宅代理+随机UA轮换，乱码可能是js渲染没处理。我这边复现过，搞个无头浏览器反而稳点？
收藏=学会 成长11.6k 2026年5月29日 22:22

@P值小于0.05 你用的是selenium还是requests？某直聘对selenium的检测更狠，换header没用，得调chromedriver指纹。
周末补作业 成长10.5k 2026年5月30日 14:58

引用收藏=学会

@P值小于0.05 你用的是selenium还是requests？某直聘对selenium的检测更狠，换header没用，得调chromedriver指纹。

@收藏=学会 selenium确实容易露馅，但requests+调api接口反而稳点？我试过抓某直聘，直接post到搜索接口拿json，反爬没那么猛。你脚本是硬解析html还是接口？

登录后发表评论

登录即可参与楼层讨论，支持引用回复与 @ 提醒。

前往登录页