美文网首页大数据应用大数据我爱编程
Hadoop-模拟搭建用户行为日志采集系统分析

Hadoop-模拟搭建用户行为日志采集系统分析

作者: GuangHui | 来源:发表于2018-05-06 23:00 被阅读292次

一. kafka应用流程示意

image

1. 前端js埋点,就是调用后端提供的对应接口.接口请求示例如下:

http://pingserver.com?itemid=111&userid=110&action=show&...

为了保证轻量级,并发度高,前端js埋点向后端异步发送的请求不需要关注返回状态,只负责调用即可;

2. flume监听log日志,将实时增加的log日志通过flume管道注入kafka中,接下来可以由storm或spark streaming进行实时流处理;

3. 方向(1)中应用:storm,spark streaming更偏重于业务处理及数据挖掘;
4. 方向(2)中应用:是将非结构化的用户行为日志数据转换成结构化的数据存入hbase中,使用hive进行行为日志的分析,比如统计pv,uv,vv,ctr,dau等.

二. 搭建日志采集系统log server流程图

日志采集系统

上图,就是一个Log Server实现的最简单流程图.

  1. Nginx分发器:上面提到了前端js埋点请求,要求速度要快,并发度要高,所以这里使用了Nginx分发器作为web server,实现反向代理与LB(负载均衡);

  2. Spawn-cgi:上图只是示例提供一个server服务的场景,同样也可以在不同节点上,提供相同的服务,用nginx实现负载均衡,以能提供更快更高可用的服务;

Spawn-cgi的功能: 就是提供了一个网关接口,它可以快速的实现对外暴露server服务的功能,并能使底层的服务变成一个常驻的守护进程;

它的请求走的fcgi协议,这种协议更加适合外部请求,因为http请求很容易受到攻击;

  1. Thrift RPC:在定义接口规范之后,能够帮助我们快速的生成client和server代码,并能帮助我们实现服务之间的解耦:
  • client只负责字段的解析等轻量级的工作;
  • server才是真正的引擎核心,我们可以在这里实现自己的业务处理逻辑.

使用Thrift RPC生成的client和server之间的通信,走的是RPC协议,这种协议有如下好处:

  • 跨语言,支持多种语言去生成client和server代码,c++,Python,java等;
  • 保证数据的安全,相比http协议更不容易受到外部攻击;
  • 速度快,性能好,比如用c++生成代码,实现效果性能更好,速度更快,更能应对高并发的处理请求;

RPC协议更加适合底层内部的请求,所以设计上后端一般都是使用RPC协议.

另外,RPC的两端client和server只要遵循RPC协议和定义的scheme接口通信规范,两端可以使用不同的开发语言.

4. 上面的client server中server,并不只是一种简单的服务,它可以由多个server通过RPC协议构成,比如下面搭建推荐系统:

推荐系统

三. 模拟日志收集系统的相关技术功能梳理

  1. Thrift RPC:在定义接口通信规范后,可以用Thrift命令快速生成server和client代码,完成最基本的C/S架构;这种生成代码的方式,可以帮助我们实现服务之间的解耦,client只负责字段的解析等轻量级的工作,而server才是真正的处理引擎;

在server里面,我们可以实现自己的业务处理逻辑.通过glogs可以将收集到用户行为日志快速高效的写入log文件中.

  1. Spawn-CGI: 通过cgi提供的网关接口,可以将自己用thrift rpc生成的server服务提供给外部.

简单的可以理解为提供了一种代理,可以在非应用程序所在的机器上操作应用程序.

  1. Nginx分发器: 就是web server,用于分发用户的请求,实现反向代理与负载均衡;通过它可以将用户的js埋点请求分发给我们的server应用程序去处理;

  2. ab压测: 如果Thrift RPC使用c++生成client和server,可以大大的提供性能,这种场景下,可以使用ab压测工具,进行压力测试;

上面的技术部分,基本就实现了模拟日志收集系统的搭建,下面再扩展做一下介绍.

  1. Flume + Hbase/Hive : 用于用户行为日志分析;

  2. Flume+Kafka+Storm/Spark Streaming :用于实时流处理的数据挖掘;

相关文章

  • Hadoop-模拟搭建用户行为日志采集系统分析

    一. kafka应用流程示意 1. 前端js埋点,就是调用后端提供的对应接口.接口请求示例如下: 为了保证轻量级,...

  • 系统数据流程设计

    # 数据采集 日志生产服务器ECS,存放用户行为日志。 FLUME读取采集。 DATAHUB存数据。 数据发送到M...

  • 项目需求分析

    1.采集埋点日志数据 2.采集业务数据库中的数据 3.数据仓库的搭建(用户行为数仓,业务数仓) 4.分析统计业务指...

  • Hadoop-入门篇环境搭建(四)

    转载请注明原文出处 hadoop搭建 阿牛的资料下载Hadoop-入门篇环境搭建(一)Hadoop-入门篇环境搭建...

  • ELFK

    搭建ELFK日志采集系统 文章目录 环境准备 操作系统信息 服务器规划 日志采集系统搭建 安装elasticsea...

  • 实战!Nginx+Kafka实现页面采集

    0.架构简介 模拟线上的实时流,比如用户的操作日志,采集到数据后,进行处理,暂时只考虑数据的采集,使用Html+J...

  • Hadoop-入门篇环境搭建(一)

    转载请注明原文出处 linux安装+网络配置 阿牛的资料下载Hadoop-入门篇环境搭建(一)Hadoop-入门篇...

  • hadoop项目实战

    用户行为日志概述 用户行为日志:用户每次访问网站时所有的行为数据(访问、浏览、搜索、点击...);用户行为轨迹、流...

  • 数据产品经理之道(4)数据采集

    1. 数据类型及对应采集方式 用户行为数据,一般在消费端的日志中。需要通过埋点方式采集,具体方式看下面。 业务数据...

  • 推荐系统架构-4 用户行为日志

    一、推荐系统 二、阿里云智能推荐AIRec 三、用户画像介绍 四、用户行为日志 1、用户行为日志 用户行为数据在系...

网友评论

    本文标题:Hadoop-模拟搭建用户行为日志采集系统分析

    本文链接:https://www.haomeiwen.com/subject/hxjprftx.html