一文解读网络爬虫 (转)

显示全部楼层 · 2019-11-8 09:54:27

一、爬虫的界说

什么是爬虫？本文各人来解读一下，有兴趣的小同伴们来看看吧。
1.爬虫是什么

网络爬虫(web crawler 简称爬虫)就是按照肯定规则从互联网上抓取信息的步伐，既然是步伐那和正常用户访问页面有何区别？爬虫与用户正常访问信息的区别就在于：用户是迟钝、少量的获取信息，而利用Python写的爬虫是大量的获取信息。
这里还必要注意的是：爬虫并不是Python语言的专利，Java、Js、C、PHP、Shell、Ruby等等语言都可以实现，那为什么Python爬虫会这么火？我以为相比其他语言做爬虫Python大概就是各种库美满点、上手简单各人都在用，社区天然活泼，而社区活泼促成Python爬虫逐步酿成熟，成熟又促使更多用户来利用，云云良性循环，以是Python爬虫相比其他语言的爬虫才更火。
下面就是一段hello world级别的Python爬虫，它等效于你在百度搜索关键字：python。

2.爬虫案例

既然爬虫是大量抓取网页，那是不是爬虫都是欠好的呢?答案固然不是，可以说我们的日常上网已经离不开爬虫了，为什么这么说?下面我就为各人盘点几个爬虫日常应用：
搜索引擎：如Google、百度、雅虎、搜狗、必应等等许多搜索引擎其本质就是一个(大概多个)巨大爬虫，这些搜索引擎工作原理是：页面收录->页面分析->页面排序->相应关键字查询，也就是说它会先把互联网上许多页面生存到服务器，然后分析网页内容创建关键字索引，末了用户输入关键字的时间去查询内容，然后根据干系性排序(百度害人的竞价排名毫无干系性可言)，第一步的页面收录就是爬虫，百度查察一个网站有多少网页被收录方法，百度输入：site:你想查询的网站，如：site:blog.csdn.net。

抢票软件：许多人在吐槽12306卡，可你不知道12306险些天天都相称于淘宝双11的流量，这谁受得了。为什么天天都是云云高的流量?答案天然是爬虫了，为什么抢票软件可以抢票？由于它在不停的革新和监控是否有余票，大大小小这么多抢票app，访问量之高可想而知。之前许多公司都出过抢票插件，如：百度、360、金山、搜狗等等，厥后都被铁道部约谈下线了，而如今又盛行抢票app，为什么抢票app可以，插件就不可以？大概是由于管理和可控性的缘故原由。
二、爬虫的代价

从上面举的几个例子来看，爬虫对整个互联网的代价真的无法估量，那对于小我而言，爬虫能给我们带来哪些代价？
1.隐形的翅膀

如果你问我学完Python根本之后该学习什么技能？我会绝不犹疑的说爬虫，为什么是爬虫？
爬虫相对其他技能简单易学，且效果立刻可见，会有肯定的结果感
爬虫可以说是其他技能的基石，由于他是数据的泉源，如今这个期间谁有数据谁才华称王，以是会爬虫绝对会让你为虎傅翼
在国内，许多企业巴不得你啥都会，以是在应聘时，爬虫会是一个不错的加分项
2.看不见的商战

职场对话：
老板：小明给你个紧张使命。
小明：就算996我也在所不辞(第一次接到老板的直接需求)!
老板：你能不能搞到竞争对手的商品代价?
小明：没题目(牛先吹出去)，小事！
老板：这可不是小事，只要你能一连获取竞品代价，我们就可以标价低于他们一点点，一连云云各人就知道我们的代价肯定是比他们低，如许各人就直接来我们这里购买商品了，到时间庆功宴上你就是最大功臣(先画个饼)。
小明：老板贤明！
3.会爬虫就可以创业

工作之后许多同砚会利用上班空余时间，来做本身的东西大概项目，别看开始是一个小打小闹的东西，逐步丰富将来大概会成为一款成熟的产物。
而爬虫可以让你很轻松的实现本身的产物，做的好的话就可以创业。这里笔者给各人列几个简单的创业项目，固然作为一个头脑引导。

如果你想做一款好的产物，你必要从用户需求出发去思考，做办理如今存在的题目的产物大概如今还没有的服务，大概你的产物就是下一个头条。
三、盗亦有道

爬虫既然云云强盛而良好，那是不是会了爬虫就可以为所欲为？
延伸话题：实在我心田不绝有一个疑问：为什么互联网公司都偏幸用动植物来定名或作为logo?如：蚂蚁金服、天猫、菜鸟、京东狗、腾讯企鹅，百度的熊掌、搜狗、途牛、美团的袋鼠……真的是太多了，岂非仅仅是由于好记？我以为好记是一个缘故原由，其根本缘故原由是受到编程行业的影响，你想想编程行业有多少动植物：Java(咖啡)、Python(蟒蛇)、Go(囊地鼠)、PHP(大象)、Linux(企鹅)、Perl(骆驼)、Mysql(海豚)等等，详细为什么编程行业喜欢用动植物实在我也不清楚。
讲上面的延伸话题想表达的是，大天然凡间万物，相生相克，衡而不祸！而爬虫也是云云，下面就为各人先容一下约束爬虫的几个点。
1.robots协议

做过网站的同砚大概知道，我们在建站的时间必要在网站根目次下放一个文件：robots.txt，这个文件是干什么用的呢？
Robots协议，也称为爬虫协议、呆板人协议等，其全称为“网络爬虫清除尺度(Robots Exclusion Protocol)”。网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。
每个网站的根目次下都必须放置robots.txt文件，否则搜索引擎将不收录网站任何网页。
下面我们以百度为例子，来看看百度的robots.txt文件：
我们在百度robots协议的最下面，有如许一条：

User-agent: *Disallow: /

复制代码

这体现除上面那些界说过的爬虫以外其他爬虫都不允许爬取百度任何东西！
2.法律

我们都知道在发起哀求时User-agent是可以自界说的，也就是说我们可以绕过robots协媾和以User-agent来界说的反爬虫技能，以是robots协议大概更像一个君子协议，那咱们国家有没有法律明文规定呢？我们来相识一下非法侵入盘算机信息体系罪：
第二百八十五条非法侵入盘算机信息体系罪：违背国家规定，侵入前款规定以外的盘算机信息体系大概采取其他技能本事，获取该盘算机信息体系中存储、处理惩罚大概传输的数据，大概对该盘算机信息体系实验非法控制，情节严峻的，处三年以下有期徒刑大概拘役，并处大概单处罚金;情节特别严峻的，处三年以上七年以下有期徒刑，并处罚金。
我们可以看到重点信息：入侵盘算机获取数据是违法的，也就是说爬虫技能本身是无罪的，由于它是获取的公开信息，并未非法入侵盘算机。但是如果你用爬取到的数据去从事商业化操纵，那大概就构成了违法犯恶举动！
四、爬虫现状

之前猪哥说过互联网中有高出50%的流量来自爬虫，那我们就来简单聊聊如今爬虫的现状吧!
1.技能

反爬虫险些和爬虫同时诞生，它们是相爱相杀的连个技能，如果没有爬虫就没有反扒，而反扒技能又反过来又可以促进爬虫技能的发展。
交互题目：各种变态的验证码充斥，尤其是12306，分分钟都想爆粗口，以后会越来越变态。。。
js加密：近来很盛行的一种反扒技能，会爬虫还得先学js，然后反爬虫工程师在js内里各种投毒，杀人诛心。。。
IP限定：限定单个ip某段时间内访问次数
猪哥只先容了一些反扒技能，固然都有现成的技能办理，但是作为爬虫员最重的并不是会利用工具或框架去应对反扒，而是能通过本身的思考和探索破解反扒，由于反扒技能更新快且多样化。
2.前景

如今许多人并不看好爬虫的前景，只搞爬虫的话技能只停顿在当出息度，不再学习新知识，不再进步的话，那么是没有前途的，总有一天会被期间镌汰，实在其他职位也只云云。

一文解读网络爬虫 (转)

推广达人

突出贡献

优秀版主

荣誉管理

论坛元老