兴化吴奇隆之python3.7.2爬虫LXML实现翻页

作者: 兴化吴奇隆 | 来源:发表于2019-03-09 15:03 被阅读0次

兴化吴奇隆之python3.7.2爬虫LXML实现翻页
python3.7.2爬虫LXML的最简洁代码
Socket爬虫图片打开提示不支持此格式
爬虫秘籍第二式
爬虫入门1
TF-IDF实现敏感条目筛选——兴化吴奇隆
python3.7.2爬虫lxml解决GB2312乱码的问题
python爬虫系列（3）- 网页数据解析（bs4、lxml、J
python网络爬虫-爬取网页的三种方式（2）
Python学习笔记(4)翻页采集列表

分两步：
一、对网址进行解构化，比如之前的网址是：

https://movie.douban.com/review/9936402/?start=0

发现其中的最后一个数字0是有规律的上涨，有的是20、20 的上涨，封顶是327页（后期也可以自动提取）
把网址解构化为

url = 'https://movie.douban.com/review/9936402/?start={}'.format(pageNum*20)

使用的是一个for循环，初始为0，记住这是第一次循环，接着写入。
二、第二次for循环一定要在第一次目录下，实现两个爬取的内容叠加。

    with open('C:/Users/Administrator/Desktop/新建文本文档.txt','w',encoding="utf-8")as f:
        for n in range(len(result)):
            jieguo = "用户@" + result[n] + "@发表：" + result2[n]
            print(jieguo)
            f.write(jieguo+'\n')#写入数据

下面是一个总的代码：

import requests
from lxml import html
for pageNum in range(327):
    url = 'https://movie.douban.com/review/9936402/?start={}'.format(pageNum*327)
    page=requests.Session().get(url)
    tree=html.fromstring(page.content)
    result=tree.xpath('//div[@class="content report-comment"]//div[@class="header"]/a/text()') #需要获取的数据
    result2=tree.xpath('//div[@class="content report-comment"]//p[@class="comment-text"]/text()')
    n = 0
    with open('C:/Users/Administrator/Desktop/新建文本文档.txt','w',encoding="utf-8")as f:
        for n in range(len(result)):
            jieguo = "用户@" + result[n] + "@发表：" + result2[n]
            print(jieguo)
            f.write(jieguo+'\n')#写入数据

网友评论

本文标题：兴化吴奇隆之python3.7.2爬虫LXML实现翻页

本文链接：https://www.haomeiwen.com/subject/cnispqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

兴化吴奇隆之python3.7.2爬虫LXML实现翻页

相关文章

兴化吴奇隆之python3.7.2爬虫LXML实现翻页

python3.7.2爬虫LXML的最简洁代码

Socket爬虫图片打开提示不支持此格式

爬虫秘籍第二式

爬虫入门1

TF-IDF实现敏感条目筛选——兴化吴奇隆

python3.7.2爬虫lxml解决GB2312乱码的问题

python爬虫系列（3）- 网页数据解析（bs4、lxml、J

python网络爬虫-爬取网页的三种方式（2）

Python学习笔记(4)翻页采集列表

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读