美文网首页
day2、代理服务器-正则表达式-XPath语法

day2、代理服务器-正则表达式-XPath语法

作者: 是东东 | 来源:发表于2018-08-16 20:43 被阅读0次

1、代理服务器

​ 1、为什么要使用代理服务器?

​ 有时候用同一个ip去抓取某个网站时,时间久了就会被该网站屏蔽。此时可以通过代理服务器,去代替我们真实的IP去爬取。

​ 2、从哪里能够获取到代理服务器?

​ 代理服务器一般是要花钱购买的,如果用于实验也可以用免费的

http://www.kuaidaili.com/

http://www.xicidaili.com/

2、正则表达式

​ 元字符【单字符】

​ . [and] \d \D \s \S

​ 修饰符

​ .* + ? {m} {m,n} {m,}

​ 边界符

​ ^ $ \A \B

​ 贪婪模式

​ .*

​ 非贪婪模式

​ .*?

​ 模式修正

​ re.S 单行

​ re.M 多行

​ re.I 忽略大小写

3、XPath语法

pip install lxml

层级等位:根据标签的层级关系进行查找

属性定位:根据属性查找标签

相关文章

网友评论

      本文标题:day2、代理服务器-正则表达式-XPath语法

      本文链接:https://www.haomeiwen.com/subject/fbtabftx.html