爬虫笔记（1）：爬虫原理

爬虫笔记（1）：爬虫原理

作者: Haohao_95 | 来源:发表于2018-07-07 15:57 被阅读0次

爬虫笔记（1）：爬虫原理
scrapy笔记
python3爬虫学习笔记(二)
python进阶三:爬虫
python爬虫day-4（爬虫的基本原理）
Python 网络爬虫（一）
爬虫-原理和流程
网络爬虫框架开发笔记
认识爬虫
网络爬虫1-python学习32

爬虫基本流程：

1）发起请求：

通过HTTP库向目标站点发起请求，即发送request（请求可以包含额外的headers等信息）等待服务器响应。

2）获取响应内容：

得到Response,得到的类型可能有HTML,Json字符串，二进制数据（如图片视频）等类型。

3）解析内容：

对HTML:通过正则表达式，网页解析库
对Json：通过转为Json对象
图片/视频：二进制数据

4）保存数据

以各种形式存到数据库

HTTP Response包含的：

1）状态码：

200：请求成功
300：转其它网址
400：连接出错
500：服务器出错

2）响应头：

内容类型
内容长度
服务器信息
设置Cookie命令

3）响应体

网页HTML
图片
二进制数据

抓取的信息

1） HTML信息，json信息

2）图片/视频：二进制保存

3）其它

解析方式

1）直接处理（split去空格）

2）Json解析

3）正则表达式

4） BeautifulSoup

5） Pyquery

6） XPath

解决JavaScript渲染的问题

1）分析Ajax请求：

找到数据接口，直接请求json数据并解析。

2）Selenium模拟浏览器

from selenium import webdriver
driver = webdriver.Chrome()
对driver进行操作（对driver.page_source进行操作）

3）Splash

4)PyV8、Ghost.py

相关文章

爬虫笔记（1）：爬虫原理
爬虫基本流程： 1）发起请求：通过HTTP库向目标站点发起请求，即发送request（请求可以包含额外的hea...
scrapy笔记
1 scrapy的运行原理参考：Learning Scrapy笔记（三）- Scrapy基础Scrapy爬虫入门...
python3爬虫学习笔记(二)
爬虫学习笔记(二) 引言第二部分内容，主要是介绍一些爬虫原理以及网页的基础知识 1.HTTP原理概念 1.UR...
python进阶三:爬虫
1.爬虫简介 1.1爬虫分类 1.1.1通用爬虫通用搜索引擎（Search Engine）工作原理step1:抓...
python爬虫day-4（爬虫的基本原理）
个人学习笔记，方便自己查阅，仅供参考，欢迎交流爬虫的基本原理 A.爬虫概述爬虫就是获取网页并提取和保存信息的自...
Python 网络爬虫（一）
网络爬虫的基本介绍学习爬虫，我想主要从以下几个方面来切入 -爬虫的原理？ -爬虫的作用？ -爬虫的实现？ -爬虫...
爬虫-原理和流程
爬虫原理模拟浏览器发送网络请求，接收请求响应爬虫分类通用爬虫：搜索引擎的爬虫聚焦爬虫：针对特定网站的爬虫积累...
网络爬虫框架开发笔记
网络爬虫框架开发笔记 1、网络爬虫与框架 1.1. 网络爬虫首先，我们得明白网络爬虫是个什么玩意，它主要就是模仿...
认识爬虫
前言我的爬虫笔记经常看别人通过爬虫分析数据，很有意思，来了兴趣，就开始了爬虫之路。爬虫爬虫，即网络爬虫，大...
网络爬虫1-python学习32
初识爬虫-爬虫的工作原理什么是爬虫呢？爬虫，从本质上来说，就是利用程序在网上拿到对我们有价值的数据。爬虫能做...

网友评论

本文标题：爬虫笔记（1）：爬虫原理

本文链接：https://www.haomeiwen.com/subject/ommwuftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|爬虫笔记（1）：爬虫原理|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！