Presto Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随着数据越来越多,使用Hive...[作者空间]
参考资料: Hadoop权威指南第四版第七章 一、MapReduce是个what? 首先说下Hadoop 的四大组...[作者空间]
kafka consumer防止数据丢失 Kafka学习之怎么保证不丢,不重复消费数据 1 消费者pull数据时,...[作者空间]
oltp:联机事务处理,重点在于事务处理,实时性要求高,数据量不大,但是对数据处理的准确度要求度较高,一般都是交易...[作者空间]
分布式缓存是网站服务端经常用到的一种技术,在读多写少的业务场景中,通过使用缓存可以有效地支撑高并发的访问量,对后端...[作者空间]
1、driver的功能是什么? 1)一个Spark作业运行时包括一个Driver进程,也是作业的主进程,具有mai...[作者空间]
【简介】zookeeper是为分布式应用所设计的高可用、高性能且一致的开源协调服务,是大数据分布式集群的基础组件,...[作者空间]
HBase优化相关 HBase查询优化 1、设置scan缓存 scanner.SetCaching(10000) ...[作者空间]
姓名:周小蓬 16019110037 转载自:http://blog.csdn.net/YChenFeng/art...[作者空间]
第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访...[作者空间]
kafka学习笔记:知识点整理 转载网址:http://www.cnblogs.com/cyfonly/p/595...[作者空间]
以下大部分题目是从网上搜索得来,答案是笔者给的,若有错误,烦请指出,谢谢。 1 每天百亿数据存入HBase,如何保...[作者空间]
1 总体框架结构图 由上图我们可以看到Spark应用程序架构主要由Driver Program和Executor构...[作者空间]
当客户端以控制台Console、脚本--execute等方式提交SQL作业时,Presto的Client会将...[作者空间]
教你如何迅速秒杀掉:99%的海量数据处理面试题 本文经过大量细致的优化后,收录于我的新书《编程之法》第六章中,新书...[作者空间]
1 层级结构 Table (HBase 表) Region(表的Regions)Store(Region中以列族为...[作者空间]
HRegionServer是HBase中最主要的组件,负责table数据的实际读写,管理Region。在分布式集群...[作者空间]
1 背景知识 1.1 解决问题 解决HDFS不支持单条记录的快速查找和更新的问题。 1.2 适用情况 存在亿万条记...[作者空间]
Presto实现原理和美团的使用实践 -http://tech.meituan.com/presto.html F...[作者空间]
导语:随着大数据的发展,现在出现的列式存储和列式数据库,如Hbase。它与传统的行式数据库有很大区别的。 定义 行...[作者空间]