代码片段搜集

2019-11-12

字节跳动的搜索爬虫为何如此野蛮凶猛?

当看到字节跳动要做全网搜索的新闻时,王东一点都不感到惊讶。因为早在头条搜索正式上线半个多月前,王东所在公司的网站就饱受一个名为“bytespider”爬虫的侵扰。经过一系列排查后,王东在服务器日志上发现了bytespider爬虫的痕迹。王东发现该爬虫抓取的频率每天达几百万次,高则上千万次,服务器带宽负载飙至100%,而且该爬虫在抓取时完全不遵守网站的robots协议。