美文网首页
爬虫笔记(1):爬虫原理

爬虫笔记(1):爬虫原理

作者: Haohao_95 | 来源:发表于2018-07-07 15:57 被阅读0次

爬虫基本流程:

1) 发起请求:

通过HTTP库向目标站点发起请求,即发送request(请求可以包含额外的headers等信息)等待服务器响应。

2) 获取响应内容:

得到Response,得到的类型可能有HTML,Json字符串,二进制数据(如图片视频)等类型。

3) 解析内容:

对HTML:通过正则表达式,网页解析库
对Json:通过转为Json对象
图片/视频:二进制数据

4)保存数据

以各种形式存到数据库

HTTP Response包含的:

1)状态码:

200:请求成功
300:转其它网址
400:连接出错
500:服务器出错

2)响应头:

内容类型
内容长度
服务器信息
设置Cookie命令

3)响应体

网页HTML
图片
二进制数据

抓取的信息

1) HTML信息,json信息

2)图片/视频:二进制保存

3) 其它

解析方式

1)直接处理(split去空格)

2)Json解析

3)正则表达式

4) BeautifulSoup

5) Pyquery

6) XPath

解决JavaScript渲染的问题

1)分析Ajax请求:

找到数据接口,直接请求json数据并解析。

2)Selenium模拟浏览器

from selenium import webdriver
driver = webdriver.Chrome()
对driver进行操作(对driver.page_source进行操作)

3)Splash

4)PyV8、Ghost.py

相关文章

  • 爬虫笔记(1):爬虫原理

    爬虫基本流程: 1) 发起请求: 通过HTTP库向目标站点发起请求,即发送request(请求可以包含额外的hea...

  • scrapy笔记

    1 scrapy的运行原理 参考:Learning Scrapy笔记(三)- Scrapy基础Scrapy爬虫入门...

  • python3爬虫学习笔记(二)

    爬虫学习笔记(二) 引言 第二部分内容,主要是介绍一些爬虫原理以及网页的基础知识 1.HTTP原理 概念 1.UR...

  • python进阶三:爬虫

    1.爬虫简介 1.1爬虫分类 1.1.1通用爬虫 通用搜索引擎(Search Engine)工作原理step1:抓...

  • python爬虫day-4(爬虫的基本原理)

    个人学习笔记,方便自己查阅,仅供参考,欢迎交流 爬虫的基本原理 A.爬虫概述 爬虫就是获取网页并提取和保存信息的自...

  • Python 网络爬虫(一)

    网络爬虫的基本介绍 学习爬虫,我想主要从以下几个方面来切入 -爬虫的原理? -爬虫的作用? -爬虫的实现? -爬虫...

  • 爬虫-原理和流程

    爬虫原理 模拟浏览器发送网络请求,接收请求响应 爬虫分类 通用爬虫:搜索引擎的爬虫聚焦爬虫:针对特定网站的爬虫积累...

  • 网络爬虫框架开发笔记

    网络爬虫框架开发笔记 1、网络爬虫与框架 1.1. 网络爬虫 首先,我们得明白网络爬虫是个什么玩意,它主要就是模仿...

  • 认识爬虫

    前言 我的爬虫笔记 经常看别人通过爬虫分析数据,很有意思,来了兴趣,就开始了爬虫之路。 爬虫 爬虫,即网络爬虫,大...

  • 网络爬虫1-python学习32

    初识爬虫-爬虫的工作原理 什么是爬虫呢? 爬虫,从本质上来说,就是利用程序在网上拿到对我们有价值的数据。 爬虫能做...

网友评论

      本文标题:爬虫笔记(1):爬虫原理

      本文链接:https://www.haomeiwen.com/subject/ommwuftx.html