brainbo

2020-01-27

R语言网络数据抓取的又一个难题,终于攻破了

单纯从数据抓取的逻辑来讲,个人觉得R语言中现有的请求库中,RCurl和httr完全可以对标Python中的urllib和reuqests(当然py中在错误处理和解析框架上显得更为专业!对于伪造浏览器请求而言,虽然请求定义里有诸多类型,但是实际上爬虫用到的无非就是GET请求和POST请求。GET请求的参数允许写在URL里,但是通常参数较多的情况下,直接拼url显得非常不优雅,而RCurl,httr都提供了可选的GET请求提交方式。RCurl库与httr相比,偏底层,函数多且繁琐,httr更灵巧、轻便、简洁。这种关系,像极了Python中的urllib和request。