美文网首页用python做数据分析
webscraper 抓数据需要的信息

webscraper 抓数据需要的信息

作者: 明白1 | 来源:发表于2019-07-23 09:51 被阅读0次

1、要抓取的网址链接。
2、要抓取的信息字段,为了不产生歧义,最好截图标注一下~
3、如果有多页,要说明抓多少页

举例——
需求概述:小明要抓取淘宝上关于酸奶的商品信息。
需要提供:

  1. 网站链接 —— 如何获取?进入淘宝 www.taobao.com,然后搜索“酸奶”,出现的这个链接,就是爬虫需要的链接,结果链接如下:
    https://s.taobao.com/search?q=%E9%85%B8%E5%A5%B6&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306
image.png
  1. 需要抓取这个页面的所有商品,每个商品需要抓取的信息:
  • 产品名称
  • 价格
  • 购买人数

具体截图如下:

image.png
  1. 搜索结果一共有 100页,只需要抓取前 5 页即可。
image.png

ps:上面是个例子,具体情况,可以根据需求改变。比如抓取的字段不同,或者抓取页数不一样等

相关文章

网友评论

    本文标题:webscraper 抓数据需要的信息

    本文链接:https://www.haomeiwen.com/subject/tsgnlctx.html