文章_四叶草_极客社区

四叶草

https://i.ancii.com/gududexioabai/

四叶草

互联网小爬虫提供有趣的小视频，生活娱乐，分享快乐生活！

文章

Python 爬虫之设置ip代理，设置User-Agent，设置请求头，设置post载荷

# data = {} #当页面提交数据是有载荷但是载荷内容为空时，必须以data = {}传参，不然无法获取网页数据。data = {‘_csrf‘:‘请把‘,‘collection-name‘:‘载荷的参数‘,‘description‘:

四叶草 0喜欢 / 0评论 2020-07-17

爬虫初试

在猪师的手把手教导下体验了下爬虫，安装时候，记住要勾选带path的选项。然后初试request跟re模块的用法，直接import即可，把.text改为.content.decode即可。其中//代表不管前面的父元素，title是一个标签，/text()是获

四叶草 0喜欢 / 0评论 2020-06-16

Python爬虫学习（三）Beautiful Soup库

　　　　　　　　list -- 获取祖先节点的信息。find_all 根据标签名，属性，内容查找文档。find_all_next() 返回节点后所符合条件的结点 find_next()返回第一个符合条件的节点。soup.select #返回id为list-

四叶草 0喜欢 / 0评论 2020-05-05

爬虫简介和requests模块

爬虫的本质就是模拟发送http请求，之后解析返回的数据，最后将数据入库。python做爬虫的优势在于：包多，而且有爬虫的框架scrapy，是一个性能很高的爬虫框架，类似后台框架中的Django，该框架，大而全（爬虫相关的东西都集成了。百度和谷歌其实就是个大

四叶草 0喜欢 / 0评论 2020-04-07

python3 爬虫小技巧，

descResult.do翻页r查询，地址栏里面的url始终是不变的，但实际上是变化的，

四叶草 0喜欢 / 0评论 2020-04-07

如何用python爬虫从爬取一章小说到爬取全站小说

对爬虫进行重构需要爬取很多章小说，最笨的方法是直接使用 for 循环。爬取索引页需要爬取所有的章节，只要获取每一章的网址就行了。

四叶草 0喜欢 / 0评论 2020-03-28

反爬虫之信息校验反爬虫

　　User-Agent就是请求头域之一,服务器能够从 User-Agent对应的值中识别客户端使用的操作系统CPU类型、浏览器、浏览器引擎、操作系统语言等。浏览器 User-Agent头域值的格式为:　。　　　　对比两个浏览器的User-Agent 值可

四叶草 0喜欢 / 0评论 2020-03-24

python爬虫爬取微博评论案例详解

当我们获取到了每一篇微博的链接，智汇返佣，还需要获取一个很关键的值 id ，这个值有什么用呢，其主要的作用就是在评论页面的ajax页面的拼接地址上需要使用到。接下来就是需要寻找出我们找到的这两个ajax的url有什么特点或者是规律：。当我们从这些ajax中

四叶草 0喜欢 / 0评论 2020-03-03

爬虫之scrapy框架（一）

Scrapy一个开源和协作的框架，其最初是为了页面抓取所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据或者通用的网络爬虫

四叶草 0喜欢 / 0评论 2020-02-29

python爬虫（五） ProxyHandler处理器

ProxyHandler处理器一、如果我们在一段时间内用某个ip地址访问了一个网站次数过多，网站就检测到不正常，就会禁止这个ip地址的访问。所以我们可以设置一些代理服务器，每段时间换个代理，就算ip被禁止，我们也可以换个ip继续爬取

四叶草 0喜欢 / 0评论 2020-02-25

网络爬虫（二）

在我们抓取到页面之后，还需要对页面进行解析。整个页面都是字符串的形式，可以使用字符串处理工具来解析页面，也可以使用正则表达式，但这些方法都会带来很大的开发成本。所以我们需要一款准们解析 html 页面的工具。jsoup是一款 java 的 HTML 解析器

四叶草 0喜欢 / 0评论 2020-02-15

网络爬虫（一）- 基本使用

基本使用与get相同把HttpGet改为HttpPost就可以了。

四叶草 0喜欢 / 0评论 2020-02-15

python3爬虫（4）各种网站视频下载方法

python3爬虫各种网站视频下载方法原创H-KING 最后发布于2019-01-09 11:06:23 阅读数 13608 收藏展开理论上来讲只要是网上（浏览器）能看到图片，音频，视频，都能够下载下来，然而实际操作的时候也是有一定难度和技术的，这篇文章

四叶草 0喜欢 / 0评论 2020-02-02

python-爬虫-庆余年小说-词云胡乱分析

真的不想再看见有谁未经许可也不标明出处搬运我的文章了，所以我自己先在博客园同步发一个。进入正题，首先要搞到资源，我先去了搜索了一番，找到个网站“落霞”。一言不合就按下了F12，翻了下网页源码，超级简单。给落霞网站程序员打call,不过我马上就后悔了，这个网

四叶草 0喜欢 / 0评论 2020-01-30

网络爬虫学习——抓取猫眼电影排行

　　write()方法：将指定内容写入文件，使用方式：write，content为指定内容，注意：如果文件不存在那么创建，如果存在那么就先清空文件(覆盖)，然后写入数据到文件里。　　json全称为JavaScript Object Notation，Jav

四叶草 0喜欢 / 0评论 2020-01-30

Python 简单网页爬虫

‘User-Agent‘:‘Mozilla/4.0 ‘,start_html = requests.get #生成一个response对象。# print #text是类型，如果是多媒体，

四叶草 0喜欢 / 0评论 2020-01-17

爬虫第五天

修改了搜索条件后点击搜索按钮会发起ajax请求，请求到我们想要的指标数据。基于抓包工具进行全局搜索，定位到了一个指定的数据包，出现了getServerData关键词，这个关键词对应的js代码被加密了。getParam返回动态变化且加密的请求参数d的值。Py

四叶草 0喜欢 / 0评论 2020-01-08

Python 实现简单的爬虫

Python 是一种跨平台的计算机程序设计语言，面向对象动态类型语言，Python是纯粹的自由软件,源代码和解释器CPython遵循 GPL协议，随着版本的不断更新和语言新功能的添加，Python 越来越多被用于独立的、大型项目的开发。实现POST请求:

四叶草 0喜欢 / 0评论 2020-01-07

python爬虫5--requests请求库

使用该库需先安装，能更方便的处理Cookies，登录验证，代理设置等。urllib中urlopen()实际是以GET方法请求网页，requests中响应的方法为get()，另外还可用post(),put(),delete()等方式实现POET,PUT,DE

四叶草 0喜欢 / 0评论 2020-01-04

requests库结合selenium库共同完成web自动化和爬虫工作

　　我们日常工作中，单纯的HTTP请求，程序员都倾向于使用万能的python Requests库。但大多数场景下，我们的需求页面不是纯静态网页，网页加载过程中伴随有大量的JS文件参与页面的整个渲染过程，且页面的每一步操作可能都能找到异步加载XHR的影子。所

四叶草 0喜欢 / 0评论 2019-12-25

加载中...

四叶草

0 关注 0 粉丝 0 动态