美文网首页首页投稿(暂停使用,暂停投稿)
利用Hive分析搜狗用户查询日志

利用Hive分析搜狗用户查询日志

作者: zhangxu0636 | 来源:发表于2016-08-18 08:02 被阅读353次

1.下载日志

http://www.sogou.com/labs/resource/q.php进行下载,我们下载的是mini版本


图片上面的SougouQ.sample文件是我解压出来的mini版本的文件,但是当我们打开文件的时候发现里面是乱码怎么办呢?

2.解决乱码问题

乱码

从上图明显发现文件内容呈现乱码,这个时候我们用下面的命令来转换文件的编码格式,产生不乱码的文件,来供我们查看。

iconv -f gbk -t utf8 Sougou.sample > Sougou1.sample

打开我们转换过后的文件,可以看到,搞定了。

乱码解决

3.转换文件的分隔符号

当我用pandas的dataFrame尝试载入数据的时候,我发现pagerank和clickorder两个字段之间的分隔符号不是所谓'\t'制表符。这个时候我用python将它转换成以逗号进行分隔。

#!/usr/bin/env python
lines = open('/home/xuzhang/data/spark/SogouQ.sample').readlines()
fp = open('/home/xuzhang/data/spark/Sougou.sample','w')
for line in lines:
    fp.write(",".join(line.split()))
    fp.write("\n")
处理好的文本

4.创建hive表

create table useractive(
time string,
userid string,
keyword string,
pagerank int,
clickorder int,
url string)
row format delimited
fields terminated by ','
lines terminated by '\n';

5.导入数据

load data local inpath 'file:///soug.sample' overwrite into table useractive;

6.进行sql查询

  • 查询点击最多的用户的前十个id
select userid,count(*) as c from useractive group by userid order by c desc limit 10;
  • 查询url中包含baidu的数量
select count(*) from useractive where url like '%baidu%';

相关文章

  • 利用Hive分析搜狗用户查询日志

    1.下载日志 在http://www.sogou.com/labs/resource/q.php进行下载,我们下载...

  • hive udf 函数:MD5

    利用 hive 做数据查询或者分析的时候,原生的 hive 函数可能无法满足我们的需求,这时候我们可以自定义 hi...

  • Hadoop MR ETL离线项目

    一、需求及步骤解析 1、需求 利用MR对日志进行清洗后交由Hive统计分析 2、步骤解析 1、自己造一份日志,包含...

  • 查询截取分析与优化

    分析步骤: 慢查询日志与捕获 explain+慢查询日志分析 show profile查询sql在mysql服务器...

  • Redis的实用小技巧,让你的缓存不再有压力!

    Redis实用技巧 慢日志查询分析 Redis的慢日志查询功能用于记录执行时间超过给定时长的命令,用户可以通过这个...

  • Hive介绍与核心知识点

    Hive Hive简介 Facebook为了解决海量日志数据的分析而开发了Hive,后来开源给了Apache软件基...

  • Postgresql慢查询分析

    检查数据库日志 日志相关配置官方文档 在日志中查看哪些可能是慢查询语句。 通过查询分析器(EXPLAIN)分析语句...

  • 大数据 - Hive

    大数据 - Hive hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储...

  • Hive案例02-数值累加

    介绍Hive查询中数值累加的思路的方法 1. 需求分析 现有 hive 表 record, 内容如下: 其中字段意...

  • hive日志分析

    一、数据来源: 对技术论坛网站的tomcat access log日志进行分析,计算该论坛的一些关键指标,供运营者...

网友评论

    本文标题:利用Hive分析搜狗用户查询日志

    本文链接:https://www.haomeiwen.com/subject/khapsttx.html