Python模拟浏览器在网站上自动化操作是爬虫的一种形式,可以被统计出来。原因有二。
1. Aberdeen Group 曾经发布过以北美几百家公司数据为样本的爬虫调查报告,数据显示2015年网站流量中的真人访问量仅为总流量的54.4%,剩余的流量由27%的好爬虫和18.6%的恶意爬虫构成。
2. 从上面数据可以看出,从2013年到2015年恶意爬虫占比逐年减少,这其中或许有反爬虫技术不断提升,也或许是因为网民的数量大幅提升,使爬虫占比少了。但不管哪种原因,爬与反爬的斗争从未间断过。试想,如果一家公司连Python模拟浏览器操作等爬虫行为监测、统计都做不到,那还怎么做到反爬虫?
回到顶部