美文网首页
Storm从入门到精通6:Storm的数据处理流程分析

Storm从入门到精通6:Storm的数据处理流程分析

作者: 金字塔下的小蜗牛 | 来源:发表于2020-04-03 09:16 被阅读0次

1.Event Logger功能

通过查看Storm UI上每个组件的events链接,可以查看Storm每个组件(如spout、blot)发送的消息。但是Storm的event logger功能默认是禁用的,如需使用该功能需要在配置文件storm.yaml中打开该功能:

  1. “topology.eventlogger.executors”:0 默认是禁用的
  2. “topology.eventlogger.executors”:1 一个topology分配一个event logger
  3. “topology.eventlogger.executors”:nil 一个worker分配一个event logger

注意:冒号后面有一个空格。

image

2.Storm数据处理流程

这里以Storm的WordCount程序为例,来分析Storm的内部的数据处理流程:

image

说明:

  1. WordCountSpout相当于Mapper,为后续的处理过程提供源源不断的数据;
  2. Spout组件和Blot组件之间的分组策略有:随机分组、按字段分组、广播分组、直接分组、全局不分组等;这里一般采用随机分组;
  3. 分词和计算的Blot组件之间传递的数据格式为元组:tuple(schema,value),如:(1,I),(2,love)等;这里的shuffle过程的分组策略使用按字段分组;
  4. 整个Storm任务构成一个Topology(拓扑)。

相关文章

网友评论

      本文标题:Storm从入门到精通6:Storm的数据处理流程分析

      本文链接:https://www.haomeiwen.com/subject/efjkdhtx.html