美文网首页程序员每天写1000字简友广场
开源的Flume系统实现流式数据收集的应用场景分析

开源的Flume系统实现流式数据收集的应用场景分析

作者: 皮皮杂谈 | 来源:发表于2019-05-03 00:13 被阅读66次

在生产环境中,通常会部署各种类型的服务,比如搜索、推荐、广告等,这些服务均会记录大量流式日志。比如搜索系统,当用户输入一个查询词时,该搜索行为会以日志的形式被后端系统记录下来,当并发访问用户数非常多时,搜索系统后端将实时产生大量日志。如何高效地收集这些日志,并发送到后端存储系统(比如Hadoop、数据仓库等)中进行统一分析和挖掘,是每个企业大数据平台需要解决的问题。本文将介绍开源的Flume系统实现流式数据收集的应用场景分析。如下图所示:

数据收集场景

开源的Flume系统是一个通用的流式数据收集系统,可以将不同数据源产生的流式数据近实时地发送到后端中心化的存储系统中,具有分布式、良好的可靠性以及可用性等优点。总结起来,Flume系统适用于解决日志收集过程中面临的以下场景:

数据源种类繁多:各种服务均会产生日志,这些日志格式不同,产生日志的方式也不同(有的写到本地日志文件中,有的通过HTTP发到远端等)。

数据源是物理分布的:各种服务运行在不同机器上,有的甚至是跨机房的。设计日志收集系统时需考虑这种天然的分布式特征。

流式的,不间断产生:日志是实时产生的,需要实时或近实时收集到,以便于后端的分析和挖掘。

对可靠性有一定要求:日志收集过程中,希望能做到不丢失数据,或丢失可控的少量数据。

相关文章

  • 开源的Flume系统实现流式数据收集的应用场景分析

    在生产环境中,通常会部署各种类型的服务,比如搜索、推荐、广告等,这些服务均会记录大量流式日志。比如搜索系统,当用户...

  • 二、Storm入门

    一、课程目录 二、Storm是什么 免费开源的分布式的实时计算系统 无界限流式处理 三、应用场景 实时分析 持续性...

  • Flume架构与实践

    Flume架构与实践 Flume是一款在线数据采集的系统,典型的应用场景是作为数据的总线,在线的进行日志的采集、分...

  • Flume实践

    Flume简介 flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume...

  • 流式数据处理

    流式数据处理的应用场景,包括基本概念和处理方式;也介绍了流式处理系统常见的编程模型和框架,最后介绍了流式数据处理的...

  • 分布式日志收集框架Flume入门到实战

    flume的诞生背景 现在大数据、数据分析在企业中的应用越来越广泛,大数据的一个主要应用场景是对一些日志进行分析,...

  • Flume 扫盲

    1 Flume 简介 Flume 作为 cloudera 开发的实时日志收集系统,受到了业界广泛的认可与应用。0....

  • Kafka学习笔记二:Flume+Kafka安装

    Flume介绍 Flume是流式日志采集工具,FLume提供对数据进行简单处理并且写到各种数据接收方(可定制)的能...

  • Flume原理解析

    一、Flume简介 flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flu...

  • Flume 日志收集

    作为大数据,我们需要获取大数据来源,今天把日志收集这块整理下,采用 Apache 的 开源技术 Flume 作为日...

网友评论

    本文标题:开源的Flume系统实现流式数据收集的应用场景分析

    本文链接:https://www.haomeiwen.com/subject/tfxinqtx.html