美文网首页
为什么我不把业务系统全部迁移到Spark?(上)

为什么我不把业务系统全部迁移到Spark?(上)

作者: 日更专用小马甲 | 来源:发表于2019-04-26 09:39 被阅读0次

之前的半年,把一部分业务从MySQL+Java改造成了类HDFS+Spark的形式。

这部分业务,主要是从数据集根据特定的规则进行匹配。规则本身是带有业务标签的。经过一些检验之后,相同标签的数据会进行归并(理解成group by就好)。

经历这一步之后,数据总量从千万级“骤降”到千级。

完成这部分改造后,接下来要做的事情极度偏业务逻辑,从场景上来说大概还要区分国内一套,国际一套。目前依然是使用Java实现。

因为架构选型是我做的,因此我想谈谈为什么。

首先,升级的原因一定是系统有痛点,当时痛在2点:

  • 数据库单表基本已经到极限即使走到索性,速度依然快不起来。
  • 数据加载到内存之后,单个JVM支撑不了标记和归集的动作(当然,代码烂是很大一部分原因)。大约需要运算几个小时才能跑出结果。如果发现因为规则配置导致结果不符合预期,重跑又是几个小时。

再补充几个点:从描述应该可以看出来,系统具有很明显的OLAP的性质;同时,对于运行速度有很高的要求(5分钟出结果);最后,不太同于一般意义的离线分析系统,规则极度偏业务、易错,且一旦结果不符合预期,可能调整规则重新计算。

基于上面的描述。我选择了把部分存储和计算迁移到大数据框架下。

---华丽的分割线---

发现随便写了写,已经快500字了,那就拆分一下,下一篇继续吧。

相关文章

  • 为什么我不把业务系统全部迁移到Spark?(上)

    之前的半年,把一部分业务从MySQL+Java改造成了类HDFS+Spark的形式。 这部分业务,主要是从数据集根...

  • 为什么我不把业务系统全部迁移到Spark?(下)

    接上文。 在迁移之后,老板问我,有没有可能把所有业务都迁移到Spark上。说实话,有想过,但是,没有实施的主要原因...

  • 大润发:IT系统全面上阿里云,启动数据中台建设

    7月24日,大润发透露,计划两年内将IT系统全面迁移到阿里云上,不再自建IDC。同时,为了更好地支撑线上线下业务一...

  • Spark计算中的数据倾斜

    本文的讨论场景限定在spark计算引擎,但是并不局限于spark,相关的讨论可以迁移到其他的计算引擎Spark计算...

  • spark-天池O2O竞赛

    地址转移到 : spark-天池O2O竞赛

  • Six

    当初在微博上写了些东西,现在全部转移到简书上来了(在截图的时候系统少显示了4篇,然后我把微博全删了,那4篇...

  • 用BI在库存管理中“淘金”

    随着ERP、WMS、SCM等这些业务系统的普及,企业管理者逐渐把目光转移到了商业智能系统这类决策支持系统上来。因此...

  • 关于协同的点滴思考

    协同OA系统将把组织业务全部贯穿(集成其他业务系统ERP、CRM、HR等),并打通组织所有数据(所有数据的汇聚地,...

  • 21

    为什么不把“你有男朋友吗?”直接说“我想追你”;为什么不把“你为什么还没有回家”直接说“我担心你”;为什么不把“你...

  • Hive with Spark 实战

    前言 由于我司的系统已存在稳定的Hive on Hadoop集群以及Spark集群,随着业务发展,需要打通这两者,...

网友评论

      本文标题:为什么我不把业务系统全部迁移到Spark?(上)

      本文链接:https://www.haomeiwen.com/subject/ubnxnqtx.html