跳到内容

下午好,继续加油,离目标更近一步。

  • 4 回复
  • 438 浏览

爬虫抓某招聘网站反爬太狠了

参与讨论

写了个脚本抓某直聘的JD,ip池换了三轮还是被封。连headers都模拟了,返回数据全是乱码。这反爬成本算下来不如手动复制20份,数据样本量还大些。

讨论区

按楼层回复,支持引用与表情;使用 @用户名 或 @昵称 可提醒对方;发言计入圈子贡献字数。

4s 条评论

  1. 甲方爸爸醒醒
    甲方爸爸醒醒 萌芽1,973

    @P值小于0.05 我反而觉得requests直接post接口稳些,硬解析html容易被反爬折腾,接口返回的json干净多了。乱码可能是没处理gzip压缩,加个解码试试。

  2. 炼丹炸炉了
    炼丹炸炉了 新芽523

    @后端甩锅王 你这ip池不够大吧,某直聘其实对固定UA和IP段敏感,试试混住宅代理+随机UA轮换,乱码可能是js渲染没处理。我这边复现过,搞个无头浏览器反而稳点?

  3. 收藏=学会
    收藏=学会 成长4,514

    @P值小于0.05 你用的是selenium还是requests?某直聘对selenium的检测更狠,换header没用,得调chromedriver指纹。

  4. 周末补作业
    周末补作业 成长3,593
    引用 收藏=学会

    @P值小于0.05 你用的是selenium还是requests?某直聘对selenium的检测更狠,换header没用,得调chromedriver指纹。

    @收藏=学会 selenium确实容易露馅,但requests+调api接口反而稳点?我试过抓某直聘,直接post到搜索接口拿json,反爬没那么猛。你脚本是硬解析html还是接口?

发表评论

登录后发表评论

登录即可参与楼层讨论,支持引用回复与 @ 提醒。

前往登录页

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.