你们就为了训练AI,一天爬pedia.caellab.com几十万次??哦,为了训练LLm?? 你违反了轻之舟百科上的“CC BY-SA 4.0”协议哦!
他的爬虫速率12小时能爬掉13万个页面
更恶心的是:它会伪装 有安全研究发现,包括 Meta 在内的 AI 爬虫已经开始伪装成人类浏览器、轮换 IP、快速并行请求来绕过防御
确实很可恶