美文网首页
0307 - 爬虫与反爬虫

0307 - 爬虫与反爬虫

作者: ITJason | 来源:发表于2019-03-07 23:43 被阅读6次

首先,爬虫是灰色的;其合理利用,取决于爬虫方的心态和能力,也取决于反爬虫的技术。爬虫用的好,可以成就 Google、百度这样的公司;用得不好,可能对别人的利益,造成严重的伤害。

不管怎样,爬虫极其广泛地存在。最近我也接触了一点,简单说说。

先说反爬虫方

保护自己的财产,怎么做都不为过(可能吧)。说一个例子,你在百度搜索页面所做的 任何操作,包括鼠标移动、页面滚动、点击、甚至什么都不做的等待时间,所有这些信息,都会 被百度收集(细思极恐)。其作用可能很多,很重要的一点,就是识别你是人而不是虫子。而你如果是上来就用工具发网络请求,实在太容易被识别了,封不封,也只是看百度心情了。

再来看看爬虫方

关键的一点,是怎么防止被屏蔽。比较简单的,包含控制访问的频率、模拟用户的 Cookie/Refer/Header;进一步的,模拟用户真实行为,等等。

其中很重要一个策略,就是用 大量 IP,频繁更换。怎么得到这许多 IP 呢?

  • 免费、付费的 代理池(听说及自己实测,可靠性并不怎么样)
  • ADSL 一样可以通过拨号动态切换 IP 的服务器(哎,知道 ADSL 的人是真的老了,我也是才知道有这样的服务器…)
  • 也可以结合 家用宽带 自己搭建动态 IP(通过断线重拨的方式切换 IP)
  • 你是土豪,有很多服务器及动态 IP

技术方案的选择,首先要知道有哪些可能的方案,然后在成本等众多限制条件下,寻找最优的;也是件挺有意思的。


博客原文:0307 - 爬虫与反爬虫

相关文章

  • 0307 - 爬虫与反爬虫

    首先,爬虫是灰色的;其合理利用,取决于爬虫方的心态和能力,也取决于反爬虫的技术。爬虫用的好,可以成就 Google...

  • 爬虫入门基础

    Day01 一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫...

  • 01-认识爬虫

    一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫三角之争 网...

  • 爬虫不尽兴?那再来点反爬虫吧!

    爬虫与反爬虫,这相爱相杀的一对,在现在你会爬虫是不够的,你还得会反爬虫。 为 Python 平反 首先是爬虫,爬虫...

  • 爬虫?反爬虫!

    爬虫与反爬虫,这相爱相杀的一对,在现在你会爬虫是不够的,你还得会反爬虫。 为 Python 平反 首先是爬虫,爬虫...

  • scrapy框架-反爬虫与绕过方法+setting动态配置

    反爬虫与绕过方法 反爬虫的技术越来越丰富,种类也越来越多,以下归纳爬虫与反爬虫的应对措施和绕过方法。 甲.对网站感...

  • 爬虫基础系列urllib——构造请求头(3)

    爬虫与反爬虫 爬虫:自动获取网站数据的程序 反爬虫:使用技术手段防止爬虫程序爬取数据 反扒机制1 判断用户是否是浏...

  • 反爬虫到底是怎么一回事?

    爬虫与反爬虫永远是相生相克的:当爬虫知道了反爬策略就可以制定反-反爬策略,同样地,网站知道了爬虫的反-反爬策略就可...

  • 1-基本概念

    简介 为什么选择Python做爬虫 需要技能 爬虫与反爬虫 网络爬虫类型 通用网络爬虫 聚焦网络爬虫 增量式网络爬...

  • CNN大战验证码

    介绍   爬虫江湖,风云再起。自从有了爬虫,也就有了反爬虫;自从有了反爬虫,也就有了反反爬虫。  反爬虫界的一大利...

网友评论

      本文标题:0307 - 爬虫与反爬虫

      本文链接:https://www.haomeiwen.com/subject/dunkpqtx.html