scrapy+redis+mongo 爬取万表网

scrapy+redis+mongo 爬取万表网

作者: 北游_ | 来源:发表于2018-07-05 16:48 被阅读12次

scrapy+redis+mongo 爬取万表网
爬虫编写（一）
拉勾网前端职位数据分析（Excel，Python工具）
Selenium小例子
爬取豆瓣网首页的电影信息
爬煎蛋网妹子图
Python:爬虫（2019-1-15）
Python学习笔记7——爬取大规模数据
Python·爬取当当网图书信息
爬取拉勾网

爬取目标：

万表网上商品的每个商品的商品名称，商品价格，店铺名称，商品编号，商品型号，商品品牌，商品销量，商品参数

环境说明：
scrapy + redis(对请求过滤去重) + mongo(存储数据)
爬取页面分析

列表页获取数据
    构造分页
        获取手表名xpath： //script[@type="text/javascript"][2]/text()
            正则匹配出手表名称 "brandEnName":"(.*?)"


    获取商品总数:
        xpath： //input[@id="total_goods"]/@value
        计算分页：(math.celling(total / 48))

    列表页商品详情页链接  
        xpath：//div[@id="s_goods_list"]/ul/li//a[contains(@class,"s_goods_name")]/@href
        对匹配到的数据取商品ID 需要在详情页构造url请求使用

详情页信息（数据动态加载）：
    模拟ajax请求：
        url: https://www.wbiao.cn/goods/goodsData?goodsCode=4654
        获取：title, modelnumber, pid, sales, brand, price

商品描述xpath：//div[@class="format_content"]/div[contains(@class,"format_content_container")]/div[contains(@class,"right")]/div[contains(@class,"right_a")]//text()
店铺名称：//div[@class="Bread_content"]/div[contains(@class,"Bread_content_right")]/span[@class="right_b"]/a/text()

详见代码：
https://github.com/alicewut/wanbiaomarket

相关文章

scrapy+redis+mongo 爬取万表网
爬取目标：万表网上商品的每个商品的商品名称，商品价格，店铺名称，商品编号，商品型号，商品品牌，商品销量，商品参数...
爬虫编写（一）
万表网爬虫爬取目标 1、万表网所有在售手表ListPage抓取 2、万表网所有在售手表（品牌、价格、销量、评论）...
拉勾网前端职位数据分析（Excel，Python工具）
一、使用scrpy爬取拉勾网（厦门地区）前端职位数据数据爬取过程可以参考慕课网教程。使用Excel数据透视表(样...
Selenium小例子
爬取腾讯动漫爬取某网站漫画爬取拉勾网
爬取豆瓣网首页的电影信息
爬取豆瓣网首页的电影信息，包括电影名、星级、导演、演员表，存入指定的文件。爬取步骤： 1、定义HTML解析类2、...
爬煎蛋网妹子图
利用 BeautifulSoup + Requests 爬取煎蛋网妹子图一、爬煎蛋网一页图片此爬虫只能爬取...
Python:爬虫（2019-1-15）
爬取当当网书籍数据爬取当当数据，并排序输出
Python学习笔记7——爬取大规模数据
我们在爬取数据时，往往是连续爬取上百个页面，本篇以爬取赶集网为例，爬取大规模的数据。步骤如下：爬取1级商品链接 ...
Python·爬取当当网图书信息
爬虫实践爬取当当网图书信息爬取豆瓣即将上映电影爬虫 1)爬取常用的数据结构模型 2)图片爬取 3）批量命名图片
爬取拉勾网
拉勾网数据加载的方式使用的是ajax异步加载的方式从后端加载数据，所以就需要分析加载的URL，如果有疑问可以看我的...

网友评论

本文标题：scrapy+redis+mongo 爬取万表网

本文链接：https://www.haomeiwen.com/subject/ampluftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|scrapy+redis+mongo 爬取万表网|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！