美文网首页
爬虫简单实例

爬虫简单实例

作者: 丘山Ivan | 来源:发表于2017-11-20 01:31 被阅读11次

开发爬虫的步骤:

1.确定目标:(以百度百科为例子)
2.分析目标(抓取数据的策略,网站会不定期升级,所以定向网站抓取也需要修改策略)
  • URL 格式:页面的范围,不指定的话就会抓取不想关的数据,造成资源的浪费。
  • 数据格式:分析词条的标题和简介,这两个数据标签的格式。
  • 网页编码:指定网页的编码,才能正确解析
3.编写代码
4.执行爬虫数据的抓取

确定目标:

  • 目标:百度Python词条相关词条网页 - 标题和简介
  • 入口页:https://baike.baidu.com/item/Python/407313
  • URL格式:
    • 词条页面URL:/item/**(/item/词条名)
  • 数据格式
    • 标题:<dd class="lemmaWgt-lemmaTitle-title"> <h1>**</h1></dd>
    • 简介:<div class="lemma-summary" label-module="lemmaSummary">**</div>
  • 页面编码:UTF-8

百度百科关于Python的1000个URLDemo

相关文章

网友评论

      本文标题:爬虫简单实例

      本文链接:https://www.haomeiwen.com/subject/ygjpvxtx.html