hongweideng

2020-06-08

【网络舆情概论】网络舆情监测数据采集

网络爬虫,是一种按照一定的规则自动地抓取互联网信息的程序或者脚本。批量型爬虫,比较有明确抓取范围和目标,当爬虫达到这个设定的目标后,即停止抓取过程。增量型爬虫,会保持持续不断的抓取,对于已经抓取过的网页会按照一定策略定期更新。增量型爬虫是目前数据采集系统中最常用的爬虫系统。垂直型爬虫 只关注特定主题或特定行业的网页,其最大的挑战就是如何识别网页的内容是否属于指定行业或主题。最优先搜索策略按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取。聚类抽样策略是为了解决上述问题而提出的。