美文网首页
爬虫了解

爬虫了解

作者: 草珊瑚_6557 | 来源:发表于2019-02-14 10:55 被阅读0次

爬虫流程

使用浏览器驱动器或者app驱动器,模拟人工操作,获取接口响应或者有意义的DOM数据;对数据进行解析;解析结果存入到数据库。
这个过程的难点是:验证码处理,ip代理池,cookie池。

验证码处理

验证码有图形验证码,滑动验证码,宫格验证码,点触验证码。

  • 图形验证码破解思路是使用灰阶ocr识别。
  • 滑动验证码破解思路是图片对比,得出缺口位置,模拟人类滑动。
  • 宫格验证码破解思路是图片对比,模拟人类滑动。
  • 点触验证码破解思路是借助打码平台。

ip代理池

代理池由获取模块,存储模块,检测模块,接口模块组成。
从免费或付费服务获取ip,存入数据库。定时对其检测可用性。并提供服务接口给其它程序使用。

cookie池

代理池由获取模块,存储模块,检测模块,接口模块组成。
用用户名和密码获取cookie,存入数据库。定时对其检测可用性,若失效则更新cookie。并提供服务接口给其它程序使用。

爬虫的分布式架构

架构思路是一个服务器负责维护爬取队列,多个服务器负责爬虫调度服务。
难点是爬取队列的去重算法。

参考:
《Python3网络爬虫开发实战》

相关文章

  • 7.爬虫概述

    爬虫概述 知识点: 了解 爬虫的概念 了解 爬虫的作用 了解 爬虫的分类 掌握 爬虫的流程 1. 爬虫的概念 模拟...

  • 了解爬虫

    一:>什么是爬虫? *可以针对目标地址进行数据采集的计算机程序 ...

  • 爬虫了解

    爬虫流程 使用浏览器驱动器或者app驱动器,模拟人工操作,获取接口响应或者有意义的DOM数据;对数据进行解析;解析...

  • 3分钟带你了解世界第一语言Python 入门上手也这么简单!

    一、Python入门 1. Python爬虫入门一之综述 Python爬虫入门二之爬虫基础了解 Python爬虫入...

  • Python爬虫入门

    注:采转归档,自己学习查询使用 Python爬虫入门(1):综述Python爬虫入门(2):爬虫基础了解Pytho...

  • 零基础学习爬虫并实战

    本篇主要从爬虫是什么、爬虫的一般流程、爬虫各个流程的实现方法、爬虫实例四个方面分享零基础了解爬虫,并进行简单的实战...

  • 爬虫框架pyspider的使用

    概要:了解了爬虫的基础知识后,接下来我们来使用框架来写爬虫,用框架会使我们写爬虫更加简单,接下来我们来了解一下,p...

  • 大数据入门——爬虫的基本套路

    大数据入门——爬虫的基本套路 数据分析师必须要会的技能就是爬虫,在开始学习前先基本了解下爬虫。 爬虫有什么作用? ...

  • Python爬虫入门--了解爬虫---什么是爬虫?

    Python爬虫入门--了解爬虫 什么是爬虫? 爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的...

  • 了解爬虫1

    crapy爬虫=数据采集 简单:静态网站 难:动态、加密(逆向)、验证码(滑动、点击、倒立) 数据为王: 数据怎么...

网友评论

      本文标题:爬虫了解

      本文链接:https://www.haomeiwen.com/subject/uowseqtx.html