简单使用re模块爬取糗事百科文字

作者: 徒手說梦话 | 来源:发表于2019-01-31 18:30 被阅读0次

简单使用re模块爬取糗事百科文字
爬虫常用代码
Python爬虫实战——爬取糗事百科网的段子信息（基于re模块）
多进程的爬虫之糗事百科(三)
Python爬虫(十七)_糗事百科案例
python爬虫
Python 爬虫零基础教程(5):糗事百科爬虫
使用Beautifulsoup和re爬取糗事百科笑话
糗事百科爬虫源码
实战1——爬取百度糗事百科段子

# 爬取糗事百科文字
import re
import requests

def data_capture(url):
    headers = {
        'User-Agent':'ozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
    }
    response = requests.get(url,headers = headers)
    text = response.text
    contents = re.findall('<div class="content">.*?<span>(.*?)</span>',text,re.S) # re.S == re.DOTALL
    for content in contents:
        content = re.sub('<br/>','',content)
        print(content.strip())  # 去除空格，换行

def spider():
    urls = 'https://www.qiushibaike.com/text/page/{}/'
    for i in range(1,6):
        url = urls.format(i)
        data_capture(url)
        break

spider()

简单使用re模块爬取糗事百科文字
爬虫常用代码
xpath抓取指定贴吧所有的图片 xpath爬取糗事百科的文字 requests模块案例 : 豆瓣电影排行榜数据抓...
Python爬虫实战——爬取糗事百科网的段子信息（基于re模块）
目标爬取糗事百科网“文字”专题中的信息，需要爬取的信息有：用户ID、用户等级、用户性别、发表的段子文字信息、好笑...
多进程的爬虫之糗事百科(三)
采用多进程实现糗事百科的爬取 3.2 多进程中队列的使用多进程中使用普通的队列模块会发生阻塞，对应的需要使用mu...
Python爬虫(十七)_糗事百科案例
糗事百科实例爬取糗事百科段子，假设页面的URL是: http://www.qiushibaike.com/8hr...
python爬虫
1、爬取糗事百科代码： 2、爬取淘宝手机信息代码： 3、爬取中国大学排名代码： 4、爬取豆瓣top250 代码：
Python 爬虫零基础教程(5):糗事百科爬虫
爬取糗事百科热门段子效果图：代码：知识点：正则表达式我们前面介绍过 re.findall ，接下来继续 ...
使用Beautifulsoup和re爬取糗事百科笑话
最近在学习爬虫，拿糗事百科练手。高手勿喷！
糗事百科爬虫源码
/*使用javascript编写的爬虫源码，用于爬取糗事百科上的信息。代码粘贴到神箭手云爬虫平台（http://...
实战1——爬取百度糗事百科段子
目标：爬取百度糗事百科段子，url 为http://www.qiushibaike.com/，爬取前20个网页中每...

网友评论

本文标题：简单使用re模块爬取糗事百科文字

本文链接：https://www.haomeiwen.com/subject/bfdlsqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

简单使用re模块爬取糗事百科文字

相关文章

简单使用re模块爬取糗事百科文字

爬虫常用代码

Python爬虫实战——爬取糗事百科网的段子信息（基于re模块）

多进程的爬虫之糗事百科(三)

Python爬虫(十七)_糗事百科案例

python爬虫

Python 爬虫零基础教程(5):糗事百科爬虫

使用Beautifulsoup和re爬取糗事百科笑话

糗事百科爬虫源码

实战1——爬取百度糗事百科段子

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读