Spark Streaming用于流式数据的处理。Spark Streaming支持的数据源很多,例如:kafka等mq,文件和简单的socket套接字等等。数据输入后可以利用spark算子进行计算,结果也可以保存在如HDFS,数据库等。
和Spark基于RDD的概念相似,Spark Streaming使用离散化流(discretized stream)作为抽象表示,称为DStream。DStream是随时间推移后收到的数据的序列。在内部,每个时间区间收到的数据都作为RDD存在,而DStream是由这些RDD组成的序列。
Spark Streaming架构

网友评论