美文网首页
scp_merger

scp_merger

作者: luckyboy2 | 来源:发表于2019-12-23 19:55 被阅读0次

scp_spider项目

这个项目是爬虫模块,利用java语言编写,使用框架spiderman, gitee上有样例,https://gitee.com/l-weiwei/spidermanhttps://gitee.com/l-weiwei/Spiderman2,两个版本, 使用gradle作为项目的仓库构建。

整个爬虫的架构图:


image.png

1.package com.luxury.dbuy; 这个是dbuy的爬虫代码。分为listPage和detailPage两个模块,其中DBuyListExtractor是列表页的解析,DBuyDetailExtractor是详情页的解析。(已停用)

2.package com.luxury.farfetch; 这个是farfetch的爬虫代码。分为homePage和listPage以及detailPage模块,以及相应的解析,爬取的是farfetch PC端的数据,由于之前的分页按钮,被加密了,所有通过列表页的total_products来获取总页数。

3.package com.luxury.michbuyer;是michbuyer的爬虫代码,分为login和searchPage以及detailPage,login获取token,5分钟刷新一次,通过查询页获取商品集合,MiChSearchExtractor为searchPage的解析器,MiChDetailExtractor为detailPage的解析器。

4.package com.luxury.netAPorter;为netAPorter爬虫的代码。爬取的是PC端的页面,利用xpath解析器,来提起商品.

5.package com.luxury.secoo;为寺库的爬虫代码。爬取的是secoo的PC端,利用xpath来提取页面的商品数据。

6.package com.luxury.twoccm;为twoccm的爬虫代码,分为category的homePage和listPage以及detailPage。TwoCcmListExtractor为listPage的解析器,TwoCcmDetailExtractor为detailPage的解析器。

具体的参数配置,比如爬虫的时间,历史数据清除时间,代理IP的设置见application.yml。

image.png

scp_web项目

这个项目是整个项目的前端,利用react编写,样例https://github.com/ant-design/ant-design

scp_merger项目

这个项目是数据聚合处理以及接口模块,内容比较复杂,使用springboot+weka构建,数据连接池使用druid,双数据源,分别覆盖作用不同的包。
1.scheduler模块(定时任务):
1)缓存各个平台的历史数据到redis中,CacheRawProductInfoTask, 从各个平台的原始数据表缓存数据到redis。
2)图像上传到aliyun的OSS服务器,便于后面的图像对比,5分钟执行一次。
3)图像对比定时任务,resize缩小图片然后对比。
4)同步im数据定时任务,每天3点执行。
5)各个平台商品标注化的定时任务,如果是新商品则在响应的std表中新建商品,否则更新。


image.png

具体流程如脑图:http://naotu.baidu.com/file/a275e9b183b64bc1556264cd57423303?token=543b2acc6dcd3872

商品相似比较流程:


image.png

各个爬虫平台各个属性的权重设计在:FeatureSimilarityWeight类中

2.controller模块:
最主要controller如下:
1)商品标注(正向标注)ProductLabelController: 前端标注页面http://mer.shechipin.styleroom.cn:8080/html/imProductLabelDetail.html
从IM表中获取待匹配标注的商品,以标注,取出redis中该商品相似的商品,用于人工标注,如果redis没有,就从数据库中查询。
2)页面商品查询(ProductStdController): 用于页面商品的查询,以及相似商品的查询。
地址:http://we.shechipin.styleroom.cn/#/products
3)反向标注ThirdProductLabelController:前端标注页面http://mer.shechipin.styleroom.cn:8080/html/thirdProductLabelDetail.html
从第三方平台的商品中获取待标注的商品和im对比,标注。
4)weka模型接口WekaController:新建模型(buildJ48Model),根据数据库人工标注结果训练weka模型 模型文件放到config文件夹下面。将指定名称文件设置当前使用模型(loadJ48Model),查询当前正在使用的模型的summary描述(j48Model),查询当前可用model列表(listModel).

  1. 登录权限的设计在WwwAuthFilter类中,服务器使用了nginx的用户名和密码在config路径下的auth.properties中,定时任务的配置都在config路径下的commonConfig.properties中。
image.png

服务器部署:


image.png image.png

数据库模型图:


商品模型图.png 类目颜色品牌模型图.png

表设计DDL:

CREATE TABLE `brand` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `brand_name` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌名称',
  `create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '生成时间',
  `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '更新时间',
  PRIMARY KEY (`id`),
  KEY `idx_brand_name` (`brand_name`)
) ENGINE=InnoDB AUTO_INCREMENT=2749 DEFAULT CHARSET=utf8;

CREATE TABLE `brand_map` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `wrapper_name` varchar(100) NOT NULL DEFAULT '' COMMENT '网站名称',
  `wrapper_brand_name` varchar(100) DEFAULT '' COMMENT '网站中品牌名称',
  `brand_name_std` varchar(100) NOT NULL DEFAULT '' COMMENT '标准品牌名称',
  `create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '生成时间',
  `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '更新时间',
  PRIMARY KEY (`id`),
  KEY `idx_wrapper_name_brand_name` (`wrapper_name`,`wrapper_brand_name`)
) ENGINE=InnoDB AUTO_INCREMENT=1949 DEFAULT CHARSET=utf8;

CREATE TABLE `category_map` (
  `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '主键ID',
  `wrapper_name` varchar(100) NOT NULL DEFAULT '' COMMENT '网站名称',
  `wrapper_category_name` varchar(100) NOT NULL DEFAULT '' COMMENT '网站中分类名称',
  `category_std_id` int(11) NOT NULL DEFAULT '0' COMMENT '标准分类iD,对应category_std表中的id',
  `create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '生成时间',
  `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '更新时间',
  PRIMARY KEY (`id`),
  UNIQUE KEY `uniq_wrapper_name_category_name` (`wrapper_name`,`wrapper_category_name`),
  KEY `idx_category_std_id` (`category_std_id`)
) ENGINE=InnoDB AUTO_INCREMENT=2850 DEFAULT CHARSET=utf8mb4 COMMENT='分类标准映射表';

CREATE TABLE `category_std` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `category_name` varchar(10) NOT NULL DEFAULT '' COMMENT '标准分类名称',
  `parent_category_id` int(11) NOT NULL DEFAULT '0' COMMENT '父分类ID',
  `create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '生成时间',
  `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '更新时间',
  PRIMARY KEY (`id`),
  UNIQUE KEY `uniq` (`category_name`),
  KEY `idx_parent_category_id` (`parent_category_id`)
) ENGINE=InnoDB AUTO_INCREMENT=1052 DEFAULT CHARSET=utf8mb4 COMMENT='标准分类表';

CREATE TABLE `color_map` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `wrapper_name` varchar(50) NOT NULL DEFAULT '' COMMENT '网站名称',
  `brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌名称',
  `wrapper_color` varchar(100) NOT NULL DEFAULT '' COMMENT '网站原文颜色',
  `wrapper_trans_color` varchar(100) NOT NULL DEFAULT '' COMMENT '网站原文颜色翻译成中文颜色',
  `labeled_color` varchar(100) NOT NULL DEFAULT '' COMMENT '被标注的颜色',
  `create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '生成时间',
  `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '更新时间',
  PRIMARY KEY (`id`),
  UNIQUE KEY `uniq_wrapper_name_color` (`wrapper_name`,`brand`,`wrapper_color`)
) ENGINE=InnoDB AUTO_INCREMENT=41208 DEFAULT CHARSET=utf8mb4;

CREATE TABLE `dbuy` (
  `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT,
  `name` varchar(255) DEFAULT NULL,
  `brand` varchar(64) DEFAULT NULL,
  `prdc` varchar(32) DEFAULT NULL,
  `sex` varchar(6) DEFAULT NULL,
  `material` varchar(255) DEFAULT NULL,
  `dimension` varchar(64) DEFAULT NULL,
  `third_party_seq` varchar(32) DEFAULT NULL,
  `category_name1` varchar(32) DEFAULT NULL,
  `category_name2` varchar(32) DEFAULT NULL,
  `category_name1_std` varchar(32) DEFAULT NULL,
  `category_name2_std` varchar(32) DEFAULT NULL,
  `intra_mirror_id` varchar(16) DEFAULT NULL,
  `size` text,
  `store` varchar(255) DEFAULT NULL,
  `price` int(11) DEFAULT '0',
  `t_price` int(11) DEFAULT '0',
  `china_yuan` int(11) DEFAULT '0',
  `description` text,
  `p_pic` text,
  `g_pic` text,
  `color` varchar(16) DEFAULT NULL,
  `created_at` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP,
  `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT '原始数据MD5校验码',
  `designer_id` varchar(50) NOT NULL DEFAULT '' COMMENT '特定编号',
  `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
  PRIMARY KEY (`id`),
  KEY `brand` (`brand`),
  KEY `idx_src_data_md5` (`src_data_md5`) USING BTREE,
  KEY `idx_designer_id` (`designer_id`),
  KEY `idx_created_at` (`created_at`)
) ENGINE=InnoDB AUTO_INCREMENT=2124189 DEFAULT CHARSET=utf8;

CREATE TABLE `dbuy_std` (
  `product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID(唯一标识)',
  `wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫网站名称',
  `name` varchar(200) NOT NULL DEFAULT '' COMMENT '商品名称',
  `name_std` varchar(200) NOT NULL DEFAULT '' COMMENT '标准商品名称',
  `material` varchar(100) NOT NULL DEFAULT '' COMMENT '材料',
  `material_std` varchar(100) NOT NULL DEFAULT '' COMMENT '材料标准映射',
  `color` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色',
  `color_std` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色标准映射',
  `size` varchar(300) NOT NULL DEFAULT '' COMMENT '尺寸',
  `price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '当前售价人民币分',
  `original_price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '原价人民币分',
  `brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌',
  `brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准映射',
  `category_name1` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类',
  `category_name1_std` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类标准映射',
  `category_name2` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类',
  `category_name2_std` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类标准映射',
  `gender` varchar(20) NOT NULL DEFAULT '' COMMENT '性别',
  `gender_std` varchar(20) NOT NULL DEFAULT '' COMMENT '性别标准映射',
  `product_area` varchar(50) NOT NULL DEFAULT '' COMMENT '产地',
  `product_area_std` varchar(50) NOT NULL DEFAULT '' COMMENT '产地标准映射',
  `images` varchar(4000) NOT NULL DEFAULT '' COMMENT '图片地址',
  `oss_images` varchar(4000) NOT NULL DEFAULT '' COMMENT '阿里云图片地址',
  `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
  `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
  `merger_img_path` varchar(2000) NOT NULL DEFAULT '' COMMENT 'merger服务器存储该商品多张图片完整路径(json数组)',
  `imager_img_path` varchar(100) NOT NULL DEFAULT '' COMMENT 'imager服务器存储该商品图片目录路径',
  `store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
  `designer_id` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号',
  `designer_id_std` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号std',
  `season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
  PRIMARY KEY (`product_id`),
  KEY `idx_src_data_md5` (`src_data_md5`),
  KEY `idx_brand_std` (`brand_std`),
  KEY `idx_category_name2_std` (`category_name2_std`),
  KEY `idx_update_time` (`update_time`),
  KEY `idx_designer_id` (`designer_id`),
  KEY `idx_designer_id_std` (`designer_id_std`),
  KEY `idx_category_name1_std` (`category_name1_std`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='dbuy标准映射表';

CREATE TABLE `farfetch` (
  `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT,
  `name` varchar(255) DEFAULT NULL,
  `brand` varchar(64) DEFAULT NULL,
  `prdc` varchar(32) DEFAULT NULL,
  `sex` varchar(6) DEFAULT NULL,
  `material` varchar(255) DEFAULT NULL,
  `dimension` varchar(64) DEFAULT NULL,
  `third_party_seq` varchar(32) DEFAULT NULL,
  `category_name1` varchar(32) DEFAULT NULL,
  `category_name2` varchar(32) DEFAULT NULL,
  `category_name1_std` varchar(32) DEFAULT NULL,
  `category_name2_std` varchar(32) DEFAULT NULL,
  `intra_mirror_id` varchar(16) DEFAULT NULL,
  `size` text,
  `store` varchar(255) DEFAULT NULL,
  `store_name` varchar(255) CHARACTER SET utf8mb4 DEFAULT NULL,
  `price` int(11) DEFAULT '0',
  `t_price` int(11) DEFAULT '0',
  `china_yuan` int(11) DEFAULT '0',
  `description` text,
  `p_pic` text,
  `g_pic` text,
  `color` varchar(16) DEFAULT NULL,
  `created_at` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP,
  `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT '原始数据MD5校验码',
  `designer_style_id` varchar(32) DEFAULT NULL,
  `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
  PRIMARY KEY (`id`),
  KEY `brand` (`brand`),
  KEY `idx_created_at` (`created_at`)
) ENGINE=InnoDB AUTO_INCREMENT=15939757 DEFAULT CHARSET=utf8;

CREATE TABLE `farfetch_std` (
  `product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID(唯一标识)',
  `wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫网站名称',
  `name` varchar(200) NOT NULL DEFAULT '' COMMENT '商品名称',
  `name_std` varchar(200) NOT NULL DEFAULT '' COMMENT '标准商品名称',
  `material` varchar(300) NOT NULL DEFAULT '' COMMENT '材料',
  `material_std` varchar(300) NOT NULL DEFAULT '' COMMENT '材料标准映射',
  `color` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色',
  `color_std` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色标准映射',
  `size` varchar(300) NOT NULL DEFAULT '' COMMENT '尺寸',
  `price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '当前售价人民币分',
  `original_price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '原价人民币分',
  `brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌',
  `brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准映射',
  `category_name1` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类',
  `category_name1_std` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类标准映射',
  `category_name2` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类',
  `category_name2_std` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类标准映射',
  `gender` varchar(20) NOT NULL DEFAULT '' COMMENT '性别',
  `gender_std` varchar(20) NOT NULL DEFAULT '' COMMENT '性别标准映射',
  `product_area` varchar(50) NOT NULL DEFAULT '' COMMENT '产地',
  `product_area_std` varchar(50) NOT NULL DEFAULT '' COMMENT '产地标准映射',
  `images` varchar(4000) NOT NULL DEFAULT '' COMMENT '图片地址',
  `oss_images` varchar(4000) NOT NULL DEFAULT '' COMMENT '阿里云图片地址',
  `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
  `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
  `merger_img_path` varchar(2000) NOT NULL DEFAULT '' COMMENT 'merger服务器存储该商品多张图片完整路径(json数组)',
  `imager_img_path` varchar(100) NOT NULL DEFAULT '' COMMENT 'imager服务器存储该商品图片目录路径',
  `store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
  `designer_id` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号',
  `designer_id_std` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号std',
  `season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
  PRIMARY KEY (`product_id`),
  KEY `idx_src_data_md5` (`src_data_md5`),
  KEY `idx_brand_std` (`brand_std`),
  KEY `idx_category_name2_std` (`category_name2_std`),
  KEY `idx_update_time` (`update_time`),
  KEY `idx_designer_id` (`designer_id`),
  KEY `idx_designer_id_std` (`designer_id_std`),
  KEY `idx_category_name1_std` (`category_name1_std`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='farfetch标准映射表';

CREATE TABLE `im` (
  `product_id` bigint(64) NOT NULL DEFAULT '0' COMMENT '商品ID(唯一标识)',
  `name` varchar(256) NOT NULL DEFAULT '' COMMENT '商品名',
  `value_ColorCode` varchar(1024) NOT NULL DEFAULT '' COMMENT '颜色',
  `value_Composition` varchar(1024) NOT NULL DEFAULT '' COMMENT '材料',
  `min_im_price` decimal(16,4) NOT NULL DEFAULT '0.0000' COMMENT '售价',
  `min_retail_price` decimal(16,4) NOT NULL DEFAULT '0.0000' COMMENT '原价',
  `english_name` varchar(256) NOT NULL DEFAULT '' COMMENT '品牌',
  `chinese_name_category1` varchar(256) NOT NULL DEFAULT '' COMMENT '一级分类',
  `chinese_name_category` varchar(256) NOT NULL DEFAULT '' COMMENT '二级分类',
  `chinese_name_category2` varchar(256) NOT NULL DEFAULT '' COMMENT '性别',
  `value_MadeIn` varchar(1024) NOT NULL DEFAULT '' COMMENT '产地',
  `cover_img` text COMMENT '商品图片',
  `cover_img_spu` text COMMENT '商品图片',
  `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
  `created_at_vendor` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
  `store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
  `designer_id` varchar(50) NOT NULL DEFAULT '' COMMENT '特定编号',
  `season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
  PRIMARY KEY (`product_id`),
  KEY `idx_update_time` (`update_time`),
  KEY `idx_src_data_md5` (`src_data_md5`),
  KEY `idx_designer_id` (`designer_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='im商品数据表';

CREATE TABLE `im_std` (
  `product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID(唯一标识)',
  `wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫网站名称',
  `name` varchar(200) NOT NULL DEFAULT '' COMMENT '商品名称',
  `name_std` varchar(200) NOT NULL DEFAULT '' COMMENT '标准商品名称',
  `material` varchar(300) NOT NULL DEFAULT '' COMMENT '材料',
  `material_std` varchar(300) NOT NULL DEFAULT '' COMMENT '材料标准映射',
  `color` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色',
  `color_std` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色标准映射',
  `size` varchar(300) NOT NULL DEFAULT '' COMMENT '尺寸',
  `price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '当前售价人民币分',
  `original_price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '原价人民币分',
  `brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌',
  `brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准映射',
  `category_name1` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类',
  `category_name1_std` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类标准映射',
  `category_name2` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类',
  `category_name2_std` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类标准映射',
  `gender` varchar(20) NOT NULL DEFAULT '' COMMENT '性别',
  `gender_std` varchar(20) NOT NULL DEFAULT '' COMMENT '性别标准映射',
  `product_area` varchar(50) NOT NULL DEFAULT '' COMMENT '产地',
  `product_area_std` varchar(50) NOT NULL DEFAULT '' COMMENT '产地标准映射',
  `images` varchar(4000) NOT NULL DEFAULT '' COMMENT '图片地址',
  `oss_images` varchar(4000) NOT NULL DEFAULT '' COMMENT '阿里云图片地址',
  `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
  `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
  `merger_img_path` varchar(2000) NOT NULL DEFAULT '' COMMENT 'merger服务器存储该商品多张图片完整路径(json数组)',
  `imager_img_path` varchar(100) NOT NULL DEFAULT '' COMMENT 'imager服务器存储该商品图片目录路径',
  `store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
  `designer_id` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号',
  `designer_id_std` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号std',
  `season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
  PRIMARY KEY (`product_id`),
  KEY `idx_src_data_md5` (`src_data_md5`),
  KEY `idx_brand_std` (`brand_std`),
  KEY `idx_category_name2_std` (`category_name2_std`),
  KEY `idx_update_time` (`update_time`),
  KEY `idx_designer_id` (`designer_id`),
  KEY `idx_designer_id_std` (`designer_id_std`),
  KEY `idx_category_name1_std` (`category_name1_std`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='im标准映射表';

CREATE TABLE `image_color` (
  `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
  `wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫名称(目前只有im)',
  `product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID',
  `image_url` varchar(200) NOT NULL DEFAULT '' COMMENT '商品图片URL',
  `color_info` varchar(500) NOT NULL DEFAULT '' COMMENT '商品图片对应的颜色分数值(json数组)',
  `calculate_color` varchar(12) NOT NULL DEFAULT '' COMMENT '推算颜色',
  `mark_status` varchar(12) DEFAULT NULL COMMENT 'marking status',
  `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
  `pic_pos` tinyint(4) DEFAULT '-1' COMMENT 'pic pos in production table after color_info',
  `image_md5` varchar(32) DEFAULT '',
  PRIMARY KEY (`id`),
  UNIQUE KEY `uniq_image_md5` (`image_md5`),
  KEY `idx_wrapper_product_id` (`wrapper_name`,`product_id`)
) ENGINE=InnoDB AUTO_INCREMENT=222258 DEFAULT CHARSET=utf8mb4 COMMENT='图片颜色表';

CREATE TABLE `label_log` (
  `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT,
  `operate_name` varchar(100) NOT NULL DEFAULT '' COMMENT '当前操作人',
  `label_type` tinyint(4) NOT NULL DEFAULT '1' COMMENT '标注类型',
  `src_wrapper_name` varchar(20) NOT NULL DEFAULT '',
  `src_product_id` varchar(50) NOT NULL DEFAULT '',
  `target_wrapper_name` varchar(20) NOT NULL DEFAULT '',
  `target_product_id` varchar(50) NOT NULL DEFAULT '',
  `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP,
  `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP,
  PRIMARY KEY (`id`),
  KEY `idx_operate_name_update_time` (`operate_name`,`update_time`) USING BTREE,
  KEY `idx_label_type` (`label_type`) USING BTREE,
  KEY `idx_update_time` (`update_time`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=863877 DEFAULT CHARSET=utf8mb4;

CREATE TABLE `michbuyer` (
  `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT,
  `name` varchar(255) DEFAULT NULL,
  `brand` varchar(64) DEFAULT NULL,
  `prdc` varchar(32) DEFAULT NULL,
  `sex` varchar(6) DEFAULT NULL,
  `material` varchar(64) DEFAULT NULL,
  `dimension` varchar(64) DEFAULT NULL,
  `third_party_seq` varchar(32) DEFAULT NULL,
  `category_name1` varchar(32) DEFAULT NULL,
  `category_name2` varchar(32) DEFAULT NULL,
  `category_name1_std` varchar(32) DEFAULT NULL,
  `category_name2_std` varchar(32) DEFAULT NULL,
  `intra_mirror_id` varchar(16) DEFAULT NULL,
  `size` text,
  `store` varchar(64) DEFAULT NULL,
  `price` int(11) DEFAULT '0',
  `t_price` int(11) DEFAULT '0',
  `china_yuan` int(11) DEFAULT '0',
  `description` text,
  `p_pic` text,
  `g_pic` text,
  `color` varchar(16) DEFAULT NULL,
  `created_at` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT '原始数据MD5校验码',
  `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后更新时间',
  PRIMARY KEY (`id`),
  KEY `brand` (`brand`),
  KEY `idx_created_at` (`created_at`)
) ENGINE=InnoDB AUTO_INCREMENT=2233209 DEFAULT CHARSET=utf8;

CREATE TABLE `michbuyer_std` (
  `product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID(唯一标识)',
  `wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫网站名称',
  `name` varchar(200) NOT NULL DEFAULT '' COMMENT '商品名称',
  `name_std` varchar(200) NOT NULL DEFAULT '' COMMENT '标准商品名称',
  `material` varchar(300) NOT NULL DEFAULT '' COMMENT '材料',
  `material_std` varchar(300) NOT NULL DEFAULT '' COMMENT '材料标准映射',
  `color` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色',
  `color_std` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色标准映射',
  `size` varchar(300) NOT NULL DEFAULT '' COMMENT '尺寸',
  `price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '当前售价人民币分',
  `original_price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '原价人民币分',
  `brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌',
  `brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准映射',
  `category_name1` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类',
  `category_name1_std` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类标准映射',
  `category_name2` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类',
  `category_name2_std` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类标准映射',
  `gender` varchar(20) NOT NULL DEFAULT '' COMMENT '性别',
  `gender_std` varchar(20) NOT NULL DEFAULT '' COMMENT '性别标准映射',
  `product_area` varchar(50) NOT NULL DEFAULT '' COMMENT '产地',
  `product_area_std` varchar(50) NOT NULL DEFAULT '' COMMENT '产地标准映射',
  `images` varchar(4000) NOT NULL DEFAULT '' COMMENT '图片地址',
  `oss_images` varchar(4000) NOT NULL DEFAULT '' COMMENT '阿里云图片地址',
  `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
  `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
  `merger_img_path` varchar(2000) NOT NULL DEFAULT '' COMMENT 'merger服务器存储该商品多张图片完整路径(json数组)',
  `imager_img_path` varchar(100) NOT NULL DEFAULT '' COMMENT 'imager服务器存储该商品图片目录路径',
  `store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
  `designer_id` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号',
  `designer_id_std` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号std',
  `season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
  PRIMARY KEY (`product_id`),
  KEY `idx_src_data_md5` (`src_data_md5`),
  KEY `idx_brand_std` (`brand_std`),
  KEY `idx_category_name2_std` (`category_name2_std`),
  KEY `idx_designer_id` (`designer_id`),
  KEY `idx_update_time` (`update_time`),
  KEY `idx_designer_id_std` (`designer_id_std`),
  KEY `idx_category_name1_std` (`category_name1_std`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='michbuyer标准映射表';

CREATE TABLE `net_a_porter` (
  `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
  `product_id` bigint(20) unsigned NOT NULL COMMENT '商品ID',
  `name` varchar(300) NOT NULL DEFAULT '' COMMENT '商品名称',
  `brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌名称',
  `prdc` varchar(32) DEFAULT NULL COMMENT '产地',
  `category_name1` varchar(50) NOT NULL DEFAULT '' COMMENT '一级分类名称',
  `category_name2` varchar(32) DEFAULT NULL COMMENT '二级分类名称',
  `category_name1_std` varchar(32) DEFAULT NULL,
  `category_name2_std` varchar(32) DEFAULT NULL,
  `sex` varchar(20) NOT NULL DEFAULT '' COMMENT '商品所属性别',
  `size` varchar(500) NOT NULL DEFAULT '' COMMENT '尺寸(json数组)',
  `store` varchar(500) NOT NULL DEFAULT '' COMMENT '尺寸(json数组)',
  `color` varchar(30) NOT NULL DEFAULT '' COMMENT '颜色',
  `material` varchar(64) DEFAULT NULL COMMENT '材质',
  `price` int(11) NOT NULL DEFAULT '0' COMMENT '商品价格(美元)',
  `original_price` int(11) NOT NULL DEFAULT '0' COMMENT '商品原价',
  `china_yuan` int(11) NOT NULL DEFAULT '0' COMMENT '人民币价格',
  `description` varchar(1000) NOT NULL DEFAULT '' COMMENT '商品详细描述信息',
  `p_pic` varchar(2000) NOT NULL DEFAULT '' COMMENT '商品图片(json数组)',
  `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT '原始数据MD5校验码',
  `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后更新时间',
  PRIMARY KEY (`id`),
  KEY `idx_product_id` (`product_id`) USING BTREE,
  KEY `idx_create_time` (`create_time`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=2117580 DEFAULT CHARSET=utf8mb4 COMMENT='net-a-porter商品表';

CREATE TABLE `netaporter_std` (
  `product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID(唯一标识)',
  `wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫网站名称',
  `name` varchar(200) NOT NULL DEFAULT '' COMMENT '商品名称',
  `name_std` varchar(200) NOT NULL DEFAULT '' COMMENT '标准商品名称',
  `material` varchar(300) NOT NULL DEFAULT '' COMMENT '材料',
  `material_std` varchar(300) NOT NULL DEFAULT '' COMMENT '材料标准映射',
  `color` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色',
  `color_std` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色标准映射',
  `size` varchar(300) NOT NULL DEFAULT '' COMMENT '尺寸',
  `price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '当前售价人民币分',
  `original_price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '原价人民币分',
  `brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌',
  `brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准映射',
  `category_name1` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类',
  `category_name1_std` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类标准映射',
  `category_name2` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类',
  `category_name2_std` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类标准映射',
  `gender` varchar(20) NOT NULL DEFAULT '' COMMENT '性别',
  `gender_std` varchar(20) NOT NULL DEFAULT '' COMMENT '性别标准映射',
  `product_area` varchar(50) NOT NULL DEFAULT '' COMMENT '产地',
  `product_area_std` varchar(50) NOT NULL DEFAULT '' COMMENT '产地标准映射',
  `images` varchar(4000) NOT NULL DEFAULT '' COMMENT '图片地址',
  `oss_images` varchar(4000) NOT NULL DEFAULT '' COMMENT '阿里云图片地址',
  `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
  `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
  `merger_img_path` varchar(2000) NOT NULL DEFAULT '' COMMENT 'merger服务器存储该商品多张图片完整路径(json数组)',
  `imager_img_path` varchar(100) NOT NULL DEFAULT '' COMMENT 'imager服务器存储该商品图片目录路径',
  `store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
  `designer_id` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号',
  `designer_id_std` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号std',
  `season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
  PRIMARY KEY (`product_id`),
  KEY `idx_src_data_md5` (`src_data_md5`),
  KEY `idx_brand_std` (`brand_std`),
  KEY `idx_category_name2_std` (`category_name2_std`),
  KEY `idx_designer_id` (`designer_id`),
  KEY `idx_update_time` (`update_time`),
  KEY `idx_designer_id_std` (`designer_id_std`),
  KEY `idx_category_name1_std` (`category_name1_std`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='netAPorter标准映射表';

CREATE TABLE `product_date` (
  `p_date` date NOT NULL COMMENT '辅助表查日期',
  PRIMARY KEY (`p_date`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

CREATE TABLE `product_mapping` (
  `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
  `im_product_id` varchar(50) NOT NULL DEFAULT '' COMMENT 'IM商品ID',
  `wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '第三方网站爬虫名称',
  `wrapper_product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '第三方商品ID',
  `im_img_path` varchar(200) NOT NULL DEFAULT '' COMMENT 'IM商品图片存放目录',
  `wrapper_img_path` varchar(200) NOT NULL DEFAULT '' COMMENT '第三方商品图片存放目录',
  `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
  `operate_name` varchar(100) NOT NULL DEFAULT '' COMMENT '当前操作人',
  `mapping_source` int(11) NOT NULL DEFAULT '1' COMMENT '映射来源,1:人工标注,2:算法比较',
  `merge_algorithm` int(2) NOT NULL DEFAULT '1' COMMENT '聚合算法,1:feature,2:weka',
  `sort_index` int(4) NOT NULL DEFAULT '0' COMMENT '关联映射成功时排序索引号',
  `composite_score` double(16,4) DEFAULT '0.0000' COMMENT '相似度综合分数',
  `weka_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
  `score` double(16,4) DEFAULT '0.0000' COMMENT '相似度总分',
  `name_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品名称相似度打分',
  `area_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '产地相似度打分',
  `material_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
  `color_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
  `price_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品价格相似度打分',
  `designer_id_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '特定编码相似度打分',
  `image_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品图片相似度打分',
  PRIMARY KEY (`id`),
  KEY `idx_im_product_id` (`im_product_id`),
  KEY `idx_wrapper_product_id` (`wrapper_name`,`wrapper_product_id`),
  KEY `idx_update_time` (`update_time`),
  KEY `idx_wrapper_id` (`wrapper_product_id`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=1060335 DEFAULT CHARSET=utf8mb4 COMMENT='IM与第三方网站商品关联映射表';

CREATE TABLE `product_mapping_check` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '自增主键',
  `mapping_id` bigint(20) NOT NULL COMMENT 'product_mapping_id',
  `im_product_id` varchar(50) NOT NULL COMMENT 'im商品的id',
  `wrapper_name` varchar(20) CHARACTER SET utf8 NOT NULL COMMENT '第三方爬虫名字',
  `wrapper_product_id` varchar(50) NOT NULL COMMENT '第三方爬虫的商品id',
  `mapping_operate_name` varchar(100) NOT NULL COMMENT '标注人',
  `mapping_result` tinyint(4) NOT NULL COMMENT 'mapping结果,0表示标注错误,1表示标注成功',
  `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '更新时间',
  PRIMARY KEY (`id`),
  UNIQUE KEY `mapping_id` (`mapping_id`) USING BTREE COMMENT '每个mapping_id只能插入一次,否则修改'
) ENGINE=InnoDB AUTO_INCREMENT=81309 DEFAULT CHARSET=utf8mb4;

CREATE TABLE `product_mapping_error` (
  `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
  `im_product_id` varchar(50) NOT NULL DEFAULT '' COMMENT 'IM商品ID',
  `wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '第三方网站爬虫名称',
  `wrapper_product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '第三方商品ID',
  `im_img_path` varchar(200) NOT NULL DEFAULT '' COMMENT 'IM商品图片存放目录',
  `wrapper_img_path` varchar(200) NOT NULL DEFAULT '' COMMENT '第三方商品图片存放目录',
  `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
  `operate_name` varchar(100) NOT NULL DEFAULT '' COMMENT '当前操作人',
  `mapping_source` int(11) NOT NULL DEFAULT '1' COMMENT '映射来源,1:人工标注,2:算法比较',
  `merge_algorithm` int(2) NOT NULL DEFAULT '1' COMMENT '聚合算法,1:feature,2:weka',
  `sort_index` int(4) NOT NULL DEFAULT '0' COMMENT '关联映射成功时排序索引号',
  `composite_score` double(16,4) DEFAULT '0.0000' COMMENT '相似度综合分数',
  `weka_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
  `score` double(16,4) DEFAULT '0.0000' COMMENT '相似度总分',
  `name_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品名称相似度打分',
  `area_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '产地相似度打分',
  `material_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
  `color_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
  `price_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品价格相似度打分',
  `designer_id_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '特定编码相似度打分',
  `image_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品图片相似度打分',
  `delete_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '标注错误删除时间',
  PRIMARY KEY (`id`),
  KEY `idx_im_product_id` (`im_product_id`),
  KEY `idx_wrapper_product_id` (`wrapper_name`,`wrapper_product_id`),
  KEY `idx_update_time` (`update_time`)
) ENGINE=InnoDB AUTO_INCREMENT=1875 DEFAULT CHARSET=utf8mb4 COMMENT='IM与第三方网站商品标注错误的映射表';

CREATE TABLE `product_not_mapping` (
  `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
  `im_product_id` varchar(50) NOT NULL DEFAULT '' COMMENT 'IM商品ID',
  `wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '第三方网站爬虫名称',
  `wrapper_product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '第三方商品ID',
  `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
  `operate_name` varchar(100) NOT NULL DEFAULT '' COMMENT '当前操作人',
  `mapping_source` int(11) NOT NULL DEFAULT '1' COMMENT '映射来源,1:人工标注,2:算法比较',
  `merge_algorithm` int(2) NOT NULL DEFAULT '1' COMMENT '聚合算法,1:feature,2:weka',
  `sort_index` int(4) NOT NULL DEFAULT '0' COMMENT '关联映射成功时排序索引号',
  `composite_score` double(16,4) DEFAULT '0.0000' COMMENT '相似度综合分数',
  `weka_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
  `score` double(16,4) DEFAULT '0.0000' COMMENT '相似度总分',
  `name_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品名称相似度打分',
  `area_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '产地相似度打分',
  `material_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
  `color_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT 'weka相似度分数',
  `price_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品价格相似度打分',
  `designer_id_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '特定编码相似度打分',
  `image_similarity_score` double(16,4) DEFAULT '0.0000' COMMENT '商品图片相似度打分',
  PRIMARY KEY (`id`),
  KEY `idx_im_product_id` (`im_product_id`),
  KEY `idx_wrapper_product_id` (`wrapper_name`,`wrapper_product_id`),
  KEY `idx_update_time` (`update_time`)
) ENGINE=InnoDB AUTO_INCREMENT=7710102 DEFAULT CHARSET=utf8mb4 COMMENT='IM与第三方网站商品没有关联上的映射表';

CREATE TABLE `product_skip_mapping` (
  `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
  `src_wrapper_name` varchar(50) NOT NULL DEFAULT '' COMMENT '原网站名称',
  `src_product_id` varchar(100) NOT NULL DEFAULT '' COMMENT '原商品ID',
  `target_wrapper_name` varchar(50) NOT NULL DEFAULT '' COMMENT '目标网站名称',
  `operate_name` varchar(100) NOT NULL DEFAULT '' COMMENT '当前操作人',
  `mapping_source` int(11) NOT NULL DEFAULT '1' COMMENT '映射来源,1:人工标注,2:算法比较',
  `merge_algorithm` int(2) NOT NULL DEFAULT '1' COMMENT '聚合算法,1:feature,2:weka',
  `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后更新时间',
  PRIMARY KEY (`id`),
  KEY `idx_update_time` (`update_time`),
  KEY `idx_src_wrapper_name_product_id` (`src_wrapper_name`,`src_product_id`)
) ENGINE=InnoDB AUTO_INCREMENT=718362 DEFAULT CHARSET=utf8mb4 COMMENT='标注跳过的商品信息表';

CREATE TABLE `secoo` (
  `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT,
  `name` varchar(128) DEFAULT NULL COMMENT '物品名称',
  `brand` varchar(64) DEFAULT NULL COMMENT '品牌',
  `brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准名称',
  `category_name` varchar(32) DEFAULT NULL COMMENT '分类名称',
  `category_name1_std` varchar(50) DEFAULT NULL COMMENT '标准一级分类名称',
  `small_category_name` varchar(32) DEFAULT NULL,
  `category_name2_std` varchar(50) DEFAULT NULL COMMENT '标准二级分类名称',
  `prdc` varchar(32) DEFAULT NULL COMMENT '产地',
  `product_area_std` varchar(100) NOT NULL DEFAULT '' COMMENT '产地标准名称',
  `sex` varchar(6) DEFAULT NULL COMMENT '适用人群',
  `material` varchar(64) DEFAULT NULL,
  `dimension` varchar(64) DEFAULT NULL COMMENT '尺寸',
  `third_party_seq` varchar(32) DEFAULT NULL COMMENT '第三方id',
  `size` varchar(64) DEFAULT NULL,
  `store` varchar(64) DEFAULT NULL,
  `price` int(11) DEFAULT '0',
  `description` varchar(256) DEFAULT NULL,
  `p_pic` text,
  `g_pic` text,
  `color` varchar(32) DEFAULT NULL COMMENT '颜色',
  `item_url` varchar(100) DEFAULT NULL COMMENT '物品url',
  `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后更新时间',
  `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT '原始数据MD5校验码',
  PRIMARY KEY (`id`),
  KEY `brand` (`brand`),
  KEY `group_name` (`category_name`),
  KEY `idx_create_time` (`create_time`)
) ENGINE=InnoDB AUTO_INCREMENT=10907647 DEFAULT CHARSET=utf8;

CREATE TABLE `secoo_std` (
  `product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID(唯一标识)',
  `wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫网站名称',
  `name` varchar(200) NOT NULL DEFAULT '' COMMENT '商品名称',
  `name_std` varchar(200) NOT NULL DEFAULT '' COMMENT '标准商品名称',
  `material` varchar(100) NOT NULL DEFAULT '' COMMENT '材料',
  `material_std` varchar(100) NOT NULL DEFAULT '' COMMENT '材料标准映射',
  `color` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色',
  `color_std` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色标准映射',
  `size` varchar(300) NOT NULL DEFAULT '' COMMENT '尺寸',
  `price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '当前售价人民币分',
  `original_price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '原价人民币分',
  `brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌',
  `brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准映射',
  `category_name1` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类',
  `category_name1_std` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类标准映射',
  `category_name2` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类',
  `category_name2_std` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类标准映射',
  `gender` varchar(20) NOT NULL DEFAULT '' COMMENT '性别',
  `gender_std` varchar(20) NOT NULL DEFAULT '' COMMENT '性别标准映射',
  `product_area` varchar(50) NOT NULL DEFAULT '' COMMENT '产地',
  `product_area_std` varchar(50) NOT NULL DEFAULT '' COMMENT '产地标准映射',
  `images` varchar(4000) NOT NULL DEFAULT '' COMMENT '图片地址',
  `oss_images` varchar(4000) NOT NULL DEFAULT '' COMMENT '阿里云图片地址',
  `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
  `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
  `merger_img_path` varchar(2000) NOT NULL DEFAULT '' COMMENT 'merger服务器存储该商品多张图片完整路径(json数组)',
  `imager_img_path` varchar(100) NOT NULL DEFAULT '' COMMENT 'imager服务器存储该商品图片目录路径',
  `store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
  `designer_id` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号',
  `designer_id_std` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号std',
  `season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
  PRIMARY KEY (`product_id`),
  KEY `idx_src_data_md5` (`src_data_md5`),
  KEY `idx_brand_std` (`brand_std`),
  KEY `idx_category_name2_std` (`category_name2_std`),
  KEY `idx_update_time` (`update_time`),
  KEY `idx_designer_id` (`designer_id`),
  KEY `idx_designer_id_std` (`designer_id_std`),
  KEY `idx_category_name1_std` (`category_name1_std`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='secoo标准映射表';

CREATE TABLE `two_ccm` (
  `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
  `product_id` bigint(20) unsigned NOT NULL COMMENT '商品ID',
  `sku` varchar(50) NOT NULL DEFAULT '' COMMENT '商品SKU',
  `name` varchar(300) NOT NULL DEFAULT '' COMMENT '商品名称',
  `brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌名称',
  `category_name1` varchar(50) NOT NULL DEFAULT '' COMMENT '一级分类名称',
  `category_name2` varchar(50) NOT NULL DEFAULT '' COMMENT '二级分类名称',
  `sex` varchar(20) NOT NULL DEFAULT '' COMMENT '商品所属性别',
  `size` varchar(500) NOT NULL DEFAULT '' COMMENT '尺寸(json数组)',
  `color` varchar(30) NOT NULL DEFAULT '' COMMENT '颜色',
  `is_in_stock` tinyint(2) NOT NULL DEFAULT '1' COMMENT '是否有库存,0:否,1:是',
  `price` int(11) NOT NULL DEFAULT '0' COMMENT '当前售卖价格',
  `original_price` int(11) NOT NULL DEFAULT '0' COMMENT '商品原价',
  `china_yuan` int(11) NOT NULL DEFAULT '0' COMMENT '人民币价格(等于price)',
  `description` varchar(1000) NOT NULL DEFAULT '' COMMENT '商品详细描述信息',
  `p_pic` varchar(2000) NOT NULL DEFAULT '' COMMENT '商品图片(json数组)',
  `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT '原始数据MD5校验码',
  `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后更新时间',
  PRIMARY KEY (`id`),
  KEY `idx_product_id` (`product_id`) USING BTREE,
  KEY `idx_create_time` (`create_time`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=2321779 DEFAULT CHARSET=utf8mb4 COMMENT='2ccm商品表';

CREATE TABLE `twoccm_std` (
  `product_id` varchar(50) NOT NULL DEFAULT '' COMMENT '商品ID(唯一标识)',
  `wrapper_name` varchar(20) NOT NULL DEFAULT '' COMMENT '爬虫网站名称',
  `name` varchar(200) NOT NULL DEFAULT '' COMMENT '商品名称',
  `name_std` varchar(200) NOT NULL DEFAULT '' COMMENT '标准商品名称',
  `material` varchar(300) NOT NULL DEFAULT '' COMMENT '材料',
  `material_std` varchar(300) NOT NULL DEFAULT '' COMMENT '材料标准映射',
  `color` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色',
  `color_std` varchar(100) NOT NULL DEFAULT '' COMMENT '颜色标准映射',
  `size` varchar(300) NOT NULL DEFAULT '' COMMENT '尺寸',
  `price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '当前售价人民币分',
  `original_price_china_fen` int(10) NOT NULL DEFAULT '0' COMMENT '原价人民币分',
  `brand` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌',
  `brand_std` varchar(100) NOT NULL DEFAULT '' COMMENT '品牌标准映射',
  `category_name1` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类',
  `category_name1_std` varchar(20) NOT NULL DEFAULT '' COMMENT '商品大类标准映射',
  `category_name2` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类',
  `category_name2_std` varchar(40) NOT NULL DEFAULT '' COMMENT '商品小类标准映射',
  `gender` varchar(20) NOT NULL DEFAULT '' COMMENT '性别',
  `gender_std` varchar(20) NOT NULL DEFAULT '' COMMENT '性别标准映射',
  `product_area` varchar(50) NOT NULL DEFAULT '' COMMENT '产地',
  `product_area_std` varchar(50) NOT NULL DEFAULT '' COMMENT '产地标准映射',
  `images` varchar(4000) NOT NULL DEFAULT '' COMMENT '图片地址',
  `oss_images` varchar(4000) NOT NULL DEFAULT '' COMMENT '阿里云图片地址',
  `src_data_md5` varchar(100) NOT NULL DEFAULT '' COMMENT 'md5值',
  `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '最后更新时间',
  `merger_img_path` varchar(2000) NOT NULL DEFAULT '' COMMENT 'merger服务器存储该商品多张图片完整路径(json数组)',
  `imager_img_path` varchar(100) NOT NULL DEFAULT '' COMMENT 'imager服务器存储该商品图片目录路径',
  `store` int(10) NOT NULL DEFAULT '0' COMMENT '库存数',
  `designer_id` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号',
  `designer_id_std` varchar(100) NOT NULL DEFAULT '' COMMENT '特定编号std',
  `season_code` varchar(128) NOT NULL DEFAULT '' COMMENT '季节编码',
  PRIMARY KEY (`product_id`),
  KEY `idx_src_data_md5` (`src_data_md5`),
  KEY `idx_brand_std` (`brand_std`),
  KEY `idx_category_name2_std` (`category_name2_std`),
  KEY `idx_designer_id` (`designer_id`),
  KEY `idx_update_time` (`update_time`),
  KEY `idx_designer_id_std` (`designer_id_std`),
  KEY `idx_category_name1_std` (`category_name1_std`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='twoccm标准映射表';

相关文章

  • scp_merger

    scp_spider项目 这个项目是爬虫模块,利用java语言编写,使用框架spiderman, gitee上有样...

网友评论

      本文标题:scp_merger

      本文链接:https://www.haomeiwen.com/subject/tujtoctx.html