1.Event Logger功能
通过查看Storm UI上每个组件的events链接,可以查看Storm每个组件(如spout、blot)发送的消息。但是Storm的event logger功能默认是禁用的,如需使用该功能需要在配置文件storm.yaml中打开该功能:
- “topology.eventlogger.executors”:0 默认是禁用的
- “topology.eventlogger.executors”:1 一个topology分配一个event logger
- “topology.eventlogger.executors”:nil 一个worker分配一个event logger
注意:冒号后面有一个空格。

2.Storm数据处理流程
这里以Storm的WordCount程序为例,来分析Storm的内部的数据处理流程:

说明:
- WordCountSpout相当于Mapper,为后续的处理过程提供源源不断的数据;
- Spout组件和Blot组件之间的分组策略有:随机分组、按字段分组、广播分组、直接分组、全局不分组等;这里一般采用随机分组;
- 分词和计算的Blot组件之间传递的数据格式为元组:tuple(schema,value),如:(1,I),(2,love)等;这里的shuffle过程的分组策略使用按字段分组;
- 整个Storm任务构成一个Topology(拓扑)。
网友评论