美文网首页
IR08-四川大学公共管理学院新闻数据采集实验报告

IR08-四川大学公共管理学院新闻数据采集实验报告

作者: 菜菜不太菜 | 来源:发表于2018-05-01 20:32 被阅读0次

文章结构:
实验主题、实验工具、实验过程、错误报告与错误分析、小组个人利用scrapy爬取教师信息实验报告

一. 实验主题

爬取四川大学公共管理学院新闻动态上的新闻,包括标题、发布时间、正文。

二. 实验工具

八爪鱼采集器7.3.8

三. 实验过程

八爪鱼是一款可视化的网络爬虫制作工具。本次实验使用八爪鱼的自定义采集,完成数据采集实验。

  1. 将新闻动态的网址,复制粘贴到采集网址处后,点击保存网址,系统会进入到流程设计页面并自动打开输入的网址。


    新建任务
  2. 采集新闻动态属于分页列表详细信息采集,我们先建立分页循环流程,鼠标点击浏览器页面的“下一页”按钮,在弹出的对话框中选择“循环点击下一页”。


    建立分页循环

下面对新闻标题创建循环点击

我们要把每个新闻的链接打开,进入详情页面,然后再采集详情里面的数据。结合前面建立的翻页循环,我们就能自动点击下一页翻页,对每一页的新闻标题列表都能逐个打开进入详情页,从而完成对所有新闻详细数据的点击并最终达到提取所有数据的效果。

  1. 鼠标点击下图中第一个新闻标题“行政管理系成功举办台湾台北大学张四明教授学术讲座”链接,这时候点击右边操作提示框中的“选择全部”选项,然后再选择“循环点击每个链接”选项即可。


    循环点击

接下来就是最终提取数据的步骤了。

  1. 鼠标点击页面中要提取的内容,包括标题,发布时间和正文,连续选择提取内容,默认“采集该元素的文本”,选择好后,点击“采集数据”。


    选择爬取数据
  2. 这样提取完毕之后我们可以点击流程按钮,修改字段名称以及简单的处理一下提取到的数据。在下面的界面中,左侧是采集任务的逻辑图,在右侧修改字段名称。修改完成后,点击“确定”保存。


    流程

    采集逻辑如下图所示:


    采集逻辑
  1. 在上图中,我们可以看见在时间字段中,包括“发布时间:”这几个字,通过八爪鱼,我们可以在采集的时候将这几个字去掉。选中时间这个字段,点击“自定义数据字段”。



    依次点击“格式化数据”,“添加步骤”,“正则表达式匹配”,输入如图所示正则表达式,点击“计算”和“确定”,即可。


    正则表达式
    然后再次点击“确定”,即可回到流程界面,这时可以看见时间字段中,数据只有日期了。
  2. 点击“保存”后,点击“开始采集”,再在弹出的对话框中选择“启动本地采集”(其他几种方式需要付费)
    采集结果如下图:


    采集结果

系统会在本地电脑上开启一个采集任务并采集数据,任务采集完之后会弹出一个采集结束的提示,接下来选择导出数据,我们选择将数据导出为csv文件,采集完之后,我们发现有41条重复数据,最终我们采集到400条新闻。


任务完成 数据样例

四. 错误报告与错误分析

错误报告:

错误报告

错误分析

提取数据的目标网页是:

目标网页
  1. 新闻栏中有专题栏目,点击进入后与目标页面网页结构不一致,采集失败
    专题
  2. 链接中含有来自四川大学网站的新闻,点击进入后与目标页面网页结构不一致,采集失败
    四川大学网站的新闻
  3. 新闻中有英文专题,也是因为网页结构不一致的原因,采集失败。
    英文专题
  4. 还有来自CCTV官网的视频新闻
    视频新闻

数据重复的原因

目标新闻网页存在重复:


重复新闻

五. 总结

当前使用八爪鱼所设置的爬取规则太过简单,缺乏对特殊情况的判断和处理。

六. 小组成员个人利用scrapy爬取公共管理学院教师信息的实验报告

cc01——使用scrapy爬取四川大学公共管理学院教师信息实验报告
yjl33——scrapy学习
zl36——八爪鱼+Scrapy爬取公共管理学院新闻动态&教师信息

相关文章

  • Scrapy 数据采集

    B1:新闻数据采集 一、项目分析 采集对象:四川大学公共管理学院新闻动态栏 采集环境:Ubuntu+MobaXt...

  • IR08-四川大学公共管理学院新闻数据采集实验报告

    文章结构:实验主题、实验工具、实验过程、错误报告与错误分析、小组个人利用scrapy爬取教师信息实验报告 一. 实...

  • scrapy爬取学院新闻

    采集策略 任务:采集四川大学公共管理学院所有的新闻资讯策略:先分析网页,发现网页之间存在的关系需要从新闻动态页面点...

  • 用Scrapy采集公管学院新闻

    采集对象:四川大学公共管理学院新闻动态及内容爬取规则:用css选择器的方法来进行元素定位 采集过程 激活,进入虚拟...

  • Scrapy采集新闻资讯实验报告

    实验对象:四川大学公共管理学院官网--新闻动态页实验目的:运用Scrapy框架进行实际信息的采集以巩固和提高信息检...

  • Scrapy采集任务0523

    标签: 信息检索 一、采集任务 1.任务描述 采集四川大学公共管理学院128位教师信息(结合教师详情页信息)整体思...

  • 四川大学公共管理学院新闻内容爬取

    目录## 任务内容 爬取过程 总结 任务内容 此次抓取的内容为四川大学公共管理学院新闻专栏里的新闻,包括新闻的时间...

  • 采集川大公管学院教师信息0529

    一、采集前准备# 在采集之前,首先进入四川大学公共管理学院的师资队伍页面查看页面显示结构,并用开发者工具“ctrl...

  • Report B2 Scrapy爬取川大公管学院全职教师信息

    采集目标 四川大学公共管理学院所有全职教师的照片、姓名、职称、院系、邮箱、详细页的链接及简介。如下图: 1.创建...

  • jieba分词练习

    实验内容: 使用Python分词模块:Jieba,对四川大学公共管理学院2015-2018年308条新闻内容进行分...

网友评论

      本文标题:IR08-四川大学公共管理学院新闻数据采集实验报告

      本文链接:https://www.haomeiwen.com/subject/spsfrftx.html