文章_Linjunhan_极客社区

Linjunhan

https://i.ancii.com/linjunhan/

Linjunhan

大数据、数据分析、Web开发、爬虫都稍微会点

文章

Python3 基于asyncio的新闻爬虫思路

Python写爬虫是非常方便的，爬取的目标不同，实现的方式也有很大不同。新闻爬虫的方便之处是，新闻网站几乎没有反爬虫策略，不好的地方是你想要爬取的新闻网站非常非常多。这个时候，效率就是你首要考虑的问题。同步循环的效率在这里相形见绌，你需要的是异步IO实现一

Linjunhan 0喜欢 / 0评论 2019-11-18

爬虫管理平台Crawlab v0.3.1发布（Docker镜像优化）

Crawlab是基于Golang的分布式爬虫管理平台，支持Python、NodeJS、Java、Go、PHP等多种编程语言以及多种爬虫框架。项目自今年三月份上线以来受到爬虫爱好者们和开发者们的好评，不少使用者还表示会用Crawlab搭建公司的爬虫平台。Cr

Linjunhan 0喜欢 / 0评论 2019-11-03

scrapy爬取Drupal网站，提示404错误

最近在学习Python的爬虫。以前坚持用nodejs做爬虫。前两天闲得无聊，在慕课上看了下scrapy的课程。然后发现这个框架的设计真模块化。所以就开始动手用scrapy爬取一些东西。然后我的目标网站是个drupal做的。分页抓取的时候，首页是正常的，爬取

Linjunhan 0喜欢 / 0评论 2019-07-01

爬虫入门

爬虫简单的说网络爬虫也叫做网络铲、网络蜘蛛，其行为一般是先“爬”到对应的网页上，再把需要的信息“铲”下来。分类网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。实际的网络爬虫系统通常是几种爬

Linjunhan 0喜欢 / 0评论 2019-06-28

Python爬虫之自制英汉字典

最近在微信公众号中看到有人用Python做了一个爬虫，可以将输入的英语单词翻译成中文，或者把中文词语翻译成英语单词。笔者看到了，觉得还蛮有意思的，因此，决定自己也写一个玩玩~~首先我们的爬虫要能将英语单词翻译成中文，因此，我们就需要一个网站帮助我们做这件事

Linjunhan 0喜欢 / 0评论 2019-06-27

Python爬虫之urllib示例

# {"act":"login","name":"\u5f20\u4e09","id":"123"}4、发送数据，POSTimport

Linjunhan 0喜欢 / 0评论 2019-06-27

Python 从零开始爬虫(二)——BeautifulSoup解析网页

学了requests，了解了伪装技巧后，终于能爬到些比较正常的网页源码了，但这离结果还差最后和是最重要的一步——筛选。这个过程就像在泥沙中淘金一样，没有合适的筛子，你就会把有价值的漏掉了，或者做了无用功把没用的也筛了出来。淘金者看土质，做筛子。对应到爬虫领

Linjunhan 0喜欢 / 0评论 2019-06-27

Python 从零开始爬虫(一)——爬虫伪装&反“反爬”

之前提到过，有些网站是防爬虫的。其实事实是，凡是有一定规模的网站，大公司的网站，或是盈利性质比较强的网站，都是有高级的防爬措施的。总的来说有两种反爬策略，要么验证身份，把虫子踩死在门口；要么在网站植入各种反爬机制，让爬虫知难而退。本节内容就着这两种反爬策略

Linjunhan 0喜欢 / 0评论 2019-06-27

大话爬虫的实践技巧

客户信息的爬取可以释放销售人员寻找客户资源的时间，提高销售对市场开发的效率爬取相关平台上的客户信息，上报到CRM管理系统，提供给销售人员进行开发资讯爬取并应用到平台业务中。基本JS语法，能写能读懂，并了解JS库：Jquery，Vue 等，可以对使用开发者工

Linjunhan 0喜欢 / 0评论 2019-06-26

node.js 爬虫入门总结

node.js爬虫前端同学可能向来对爬虫不是很感冒，觉得爬虫需要用偏后端的语言，诸如 php ， python 等。当然这是在 nodejs 前了，nodejs 的出现，使得 Javascript 也可以用来写爬虫了。由于 nodejs 强大的异步特性，让

Linjunhan 0喜欢 / 0评论 2019-06-25

大话爬虫的基本套路

网络爬虫也叫网络蜘蛛，如果把互联网比喻成一个蜘蛛网，那么蜘蛛就是在网上爬来爬去的蜘蛛，爬虫程序通过请求url地址，根据响应的内容进行解析采集数据，比如：如果响应内容是html，分析dom结构，进行dom解析、或者正则匹配，如果响应内容是xml/json数据

Linjunhan 0喜欢 / 0评论 2019-06-25

python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇

知识就像碎布，记得“缝一缝”，你才能华丽丽地亮相。Beautiful Soup为python的第三方库，可以帮助我们从网页抓取数据。一般情况下，它可以将输入文档转换为unicode编码，并且以utf-8编码方式输出，2.Beautiful Soup安装wi

Linjunhan 0喜欢 / 0评论 2019-06-21

楚江数据网络爬虫-使用Cookie登陆

所谓Cookie，可以简单认的为是在浏览器端记录包括登陆状态在内的各种属性值的容器名称，其实就是服务器为了保持浏览器与服务器之间连通状态，而在用户本地上创建的数据。前两个参数是Cookie应用的必要条件，另外，还包括Cookie大小。有了Cookie，我们

Linjunhan 0喜欢 / 0评论 2019-06-21

爬虫养成记 - 什么是网络爬虫

趁着春节，希望能写一个小小的网络爬虫框架。先定一个小目标，希望能比较优雅地将某个网站上的所有图片爬下来。暂时先将这个爬虫的名字叫做Squirrel，小松鼠吧。互联网就像一张网，这种网是由一个个url相互连接的。一个url往往是对应着一张网页. 各个页面通过

Linjunhan 0喜欢 / 0评论 2019-06-21

新浪微博内容数据采集爬虫怎么写

在不同的论坛和问答中，经常会遇到新浪微博的数据采集爬虫程序怎么写，或是已经完成了某部分后面需要协助帮助怎么做，楚江数据结合网上资料整理了几个微博爬虫开源项目。SinaSpider主要爬取新浪微博的个人信息、微博数据、关注和粉丝。此项目实现将单机的新浪微博爬

Linjunhan 0喜欢 / 0评论 2019-06-21

Python爬虫框架scrapy实现的文件下载功能示例

本文实例讲述了Python爬虫框架scrapy实现的文件下载功能。分享给大家供大家参考，具体如下：。我们在写普通脚本的时候，从一个网站拿到一个文件的下载url，然后下载，直接将数据写入文件或者保存下来，但是这个需要我们自己一点一点的写出来，而且反复利用率并

Linjunhan 0喜欢 / 0评论 2018-08-04

Python实现爬虫爬取NBA数据功能示例

本文实例讲述了Python实现爬虫爬取NBA数据功能。分享给大家供大家参考，具体如下：。爬取的网站为：stat-nba.com，这里爬取的是NBA2016-2017赛季常规赛至2017年1月7日的数据。改变url_header和url_tail即可爬取特定

Linjunhan 0喜欢 / 0评论 2018-05-28

python2.7实现爬虫网页数据

最近刚学习Python，做了个简单的爬虫，作为一个简单的demo希望帮助和我一样的初学者。代码使用python2.7做的爬虫抓取51job上面的职位名，公司名，薪资，发布时间等等。

Linjunhan 0喜欢 / 0评论 2018-05-25

Python常用的爬虫技巧总结

用python也差不多一年多了，python应用最多的场景还是web快速开发、爬虫、自动化运维：写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。整个cookie都

Linjunhan 0喜欢 / 0评论 2016-03-28

Python制作爬虫抓取美女图

作为一个新世纪有思想有文化有道德时刻准备着的潘磕星嗄辏谙衷谡庋桓錾缁嶂校奶畚掖舐サ种拼蟀俣鹊那疤嵯拢皇露仙贤涔YY看看斗鱼翻翻美女图片那是必不可少的，可是美图虽多翻页费劲！今天我们就搞个爬虫把美图都给扒下来！本次实例有2个：煎蛋上的妹子图，某网站的rosi

Linjunhan 0喜欢 / 0评论 2016-01-20

加载中...

Linjunhan

0 关注 0 粉丝 0 动态