美文网首页
Storm个人学习总结

Storm个人学习总结

作者: 来往穿梭 | 来源:发表于2017-03-27 11:53 被阅读255次

Storm是一套流式的实时计算框架

  • Storm集群主要是由一个主节点(master node)和一群工作节点(worker nodes)组成,通过zookeeper集群进行协调;

  • 主节点通常运行在一个后台程序——Nimbus,用于响应分布在集群中的节点,分配任务和监测故障。工作节点同样会运行一个后台程序——Supervisor,用于收听工作指派并基于要求运行工作进程。每个工作节点都是topology中一个子集的实现。

Storm集群

各组件功能和特性

  • Nimbus:
  • 作为主节点,本身是无状态的,状态信息是由zookeeper存储(实现了高可用,当nimbus挂掉,可以找另外一个节点启动nimbus进程,状态信息从zookeeper获得)。
  • 在nimbus进程失败后,可以快速重启恢复正常工作,不需要很长的时间来进行初始化和状态恢复。
  • 接受客户端任务Topology的提交,然后把代码发布到zookeeper上,由supervisor到zookeeper上领取任务。
  • 当nimbus从zookeeper得知有supervisor节点挂掉,可以将该节点的任务重新分配给其他子节点。
  • Supervisor:
  • 作为从节点
  • 从zookeeper上获取nimbus分配的任务,负责启动和停止worker工作进程
    自己的状态信息汇报到zookeeper上,然后由nimbus监控
  • worker:负责启动和停止executor线程
  • executor:真正执行任务task的线程。
  • zookeeper:存储nimbus和supervisor的状态信息,这样使storm集群保持无状态,具有高可用性。


  • logviewer:负责storm集群中日志收集的进程,需要在每个supervisor节点上启动
整体架构图:
整体架构图

在Storm中,应用程序实现实时处理的逻辑被封装在Storm中的topology中(逻辑的);
一个topology是由一组Spout组件(数据源)Bolt组件(数据操作)通过Stream Groupings进行连接的图。

  • Spout:在一个topology中产生源数据流的组件,从来源处读取数据并放入topology;
  • Bolt:在一个topology中接受数据然后执行处理的组件;
  • Stream Groupings:消息的分组方法。

Storm应用程序执行过程:

Storm应用程序执行过程

应用举例:

  • 实时日志处理
  • 实时统计系统
  • 实时风控系统
  • 实时推荐系统
  • 信用卡欺诈分析

相关文章

网友评论

      本文标题:Storm个人学习总结

      本文链接:https://www.haomeiwen.com/subject/bpblottx.html