美文网首页Python GUIpython_pycham
利用Python简单的爬取百度新闻

利用Python简单的爬取百度新闻

作者: 9ba4bd5525b9 | 来源:发表于2019-03-25 15:17 被阅读95次

前言

要抓取新闻,首先得有新闻源,也就是抓取的目标网站。国内的新闻网站,从中央到地方,从综合到垂直行业,大大小小有几千家新闻网站。百度新闻收录的大约两千多家。那么我们先从百度新闻入手。

基本环境配置

版本:Python3

系统:Windows

相关模块:

import re

import time

import requests

import tldextract

流程比较简单:

完整代码

简单解释一下上面的代码:

1. 使用requests下载百度新闻首页;

2. 先用正则表达式提取a标签的href属性,也就是网页中的链接;然后找出新闻的链接,方法是:假定非百度的外链都是新闻链接;

3. 逐个下载找到的所有新闻链接并保存到数据库;保存到数据库的函数暂时用打印相关信息代替。

4. 每隔300秒重复1-3步,以抓取更新的新闻。

以上代码能工作,但也仅仅是能工作,槽点多得也不是一点半点。

相关文章

网友评论

    本文标题:利用Python简单的爬取百度新闻

    本文链接:https://www.haomeiwen.com/subject/autbvqtx.html