闲来无事,写个爬虫玩玩。爬了某医学院,不是自己母校,至于为啥,没有目的。单纯爬爬而已。
源码
爬虫项目地址:https://github.com/ruanfumin/BbmcEduSpider
蚌埠医学院 新闻爬虫
声明:代码仅供学习使用
目标站点
- 蚌埠医学院学校新闻: http://www.bbmc.edu.cn/index.php/view/viewcate/0/
蚌埠医学院学校新闻
爬虫框架
Scrapy
Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。
Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
通常我们可以很简单的通过 Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。
爬虫简介
新闻每页30条数据,通过检测>找到下一页链接实现不停翻页,找不到下一页为止,每条新闻通过新闻详情页链接打开获取新闻的具体内容。
获取到的数据直接保存到数据库中。
网页没有反爬虫机制,所以抓取速度很快。
爬取效果
数据库截图
数据库数据截图.jpg
爬取数据量
爬取数据量









网友评论