美文网首页代码私语
爬虫数据库一些简单的设计逻辑

爬虫数据库一些简单的设计逻辑

作者: panyanyany | 来源:发表于2019-06-04 10:26 被阅读0次

场景:爬取某商城的部分商品。

队列设计

这里至少需要爬取2种资源,一种是商品列表,一种是商品信息。
所以要设计1条队列,保存商品信息URL。

爬虫1定期爬前N个列表页 URL,把里面的商品信息URL爬下来,保存到队列里。

爬虫2定期从队列中抽出商品信息URL,爬取商品信息,爬完后把该URL移出队列。

所以呢,简单来说,只要有2张表就行了,一张保存队列信息,一张保存商品信息。

何时停止问题

为了避免每次都把所有商品爬一遍,就要在适当的时候停止。
爬列表页的时候,一般是设定只爬前 N 页。
爬商品信息URL的时候,一般是先检查这个商品是否存在,不存在就入队,存在的话,就表示接下来都是旧数据了,可以停止了。

当然有种情况,就是有些旧的商品,会被人为地置顶,或者排到前面来。

这时候就要设置一个值 M,每次最多爬前 M 个,多了不爬。

数据更新问题:

有新商品进来,直接插入即可,如果是旧商品,那要不要更新数据库里的内容呢?
一般来说是可以更新的,但有种情况例外,就是你的数据库会有人去编辑的情况。

如果你的数据库有专人编辑,那么最好不要更新旧商品,因为会覆盖掉编辑的内容。并且,数据表要采用软删除的方式,避免前面的人刚删除了数据,你的爬虫又把数据写进去了。

相关文章

  • 爬虫数据库一些简单的设计逻辑

    场景:爬取某商城的部分商品。 队列设计 这里至少需要爬取2种资源,一种是商品列表,一种是商品信息。所以要设计1条队...

  • Python3爬取百科词条+导入MySQL数据库

    本文主要介绍使用Python爬虫爬取Python百度词条的信息 主要参考慕课网的《开发简单爬虫》以及一些数据库操作...

  • 喜欢Mysql的人也喜欢简单

    Mysql喜欢简单,需要使用数据库的人也同样喜欢简单的原则。 良好的逻辑设计和物理设计是高性能的基石。下面的描述是...

  • Power Designer—数据库设计步骤

    数据库设计步骤 需求分析 — 概念结构设计 — 逻辑结构设计 — 物理结构设计 — 数据库的建立和测试 — 数据库...

  • 数据库设计

    一、数据库设计概念 1. 数据库的生命周期 ①数据库分析与设计阶段包括需求分析、概念设计、逻辑设计和物理设计。②数...

  • 计算机二级java程序语言设计

    公共基础 数据库 数据库设计过程主要包括需求分析、概要结构设计、逻辑结构分析、数据库物理设计、数据库实施、数据库运...

  • FullCalendar(第三篇)

    数据库设计 以下是一个比较简单的数据库表的设计,除了FullCalendar中Event需要的一些内容(”ID标识...

  • 数据库逻辑设计

    数据库设计 数据库设计包含需求设计、逻辑设计、物理设计和维护优化。 需求分析:全面了解产品设计的存储需求(存储需求...

  • 第四部分 - 方法学 - 1 - 概念数据库设计

    回顾数据库设计三个阶段:概念数据库设计:生成数据库的概念表示,包括重要的实体、联系以及属性的定义。逻辑数据库设计:...

  • 简单python爬虫,爬取基金信息

    简单爬虫,爬取基金信息,使用了mysql数据库,代码如下:

网友评论

    本文标题:爬虫数据库一些简单的设计逻辑

    本文链接:https://www.haomeiwen.com/subject/jsqlxctx.html