HBase是Hadoop Database的简称,基于Google Bigtable实现的开源、分布式、可伸缩的列式存储数据库,自其诞生之日起,就受到业界的追捧,而今已成为了Hadoop生态圈和各公司大数据平台不可或缺的组成部分。时间序列数据库Opentsdb.阿里的HQueue、OLAP分析引擎Kylin 等很多大数据开源项目也都是基于HBase的。
前言
随着Hadoop越来越受到很多人的欢迎,其生态系统也充满活力,包括广泛使用的工具,如Hive、 Spark、 Impala及 HBase。这本书着重于工具Apache HBase,它构建于Hadoop分布式文件系统(HDFS) 之上,具有可扩展性、容错性、低延迟等特征。
HBase整合了Hadoop的水平扩展能力和实时数据服务两方面的优势。在规模方面,HBase允许从单个集群中进行每秒钟数百万次的读写操作,同时仍可保持Hadoop所有应用的可用。HBase迅速普及,现在已经为世界上一些较大的Hadoop集群部署提供了支持,如Apple、 Salesforce.com及 Facebook。
HRegionServer:
然而,开始使用HBase是一个艰巨的任务。虽然有许多可以帮助开发人员入手的资源(包括邮件列表,联机手册和Javadocs),但使用Apache HBase构建、设计和部署真正生产应用程序的信息相当有限。这正是写作本书的原因。
本篇的目的是为了真正生产应用的HBase部署。虽然本篇中讨论的每个用例已经部署并投入生产,但这并不意味着没有改进的余地,或者即使你不需要修改你的特定任务,但它确实展示了事情的实际情况。
本篇的读者对象?
本篇主要针对那些架构师及开发人员而设计,希望他们能更好地理解大数据应用程序的部署。在这之前,你应该具备基本的Hadoop知识,包括所需组件的设置以及成功安装过Hadoop集群,我们不会在Hadoop的配置或NodeManager功能上花费时间。
阅读本篇的架构师不需要有一个完整的Java知识,但必须充分了解部署章节的内容。涵盖多个垂直用例,希望能够协助各个企业和初创公司。
架构师可以品读以细节为导向的用例章节,其中包括各个组件的部署方式以及它们是如何被集成在一起的。在开发章节,开发人员可快速查看详细代码示例,这样可以加快生产部署。部署章节提供了对特定API的深入了解以及相应的性能提升技巧,这样可大大减少我们的故障处理时间。那些对大数据好奇的人将会发现架构和部署章节都很有用,并且还可以深入了解HBase生态系统以及HBase的部署细节。
本篇结构
本篇分为三个部分:第一部分, HBase的介绍,涵盖的主题有: HBase是什么,HBase生态系统是什么样的以及如何部署它。
第二部分,涵盖了具体用例,是本书的核心。我们希望这是你最常参考的部分,因为它包含了对你有用的提示和技巧。
最后,第三部分讨论了故障处理,你应该经常参阅这-一部分。我们希望这将是第二个最常参考的部分(以积极的态度,而不是被动的)。本部分提供了关于region数量控制、垃圾收集调优和避免热点等方面的内容。
读本篇文章的时候,大家一定要带上以下五点来细细品读,你将会把文章理解的更加透彻。
学习HBase能用来做什么,其生态系统包括哪些组件以及如何搭建你的环境?
探索现实世界中HBase实例如何部署并投入生产环境?
查验用于追踪监控索赔的记录用例,并诊断数据管理以及产品质量。
理解HBase如何和Spark、kafka、 MapReduce,以及Java API一起使用。
学习如何识别最常见的HBase问题,并理解其结果。
大家如果需要此{HBASE应用架构}技术文档的话,可以转发此文关注小编,++我 V X ①⑧⑤⑥①③零⑤③⑨⑤ 就可以获取了。
当对大量数据构建索引的时候,HBase是一个出色的工具,但是从零开始学习分布式数据库及其生态系统是一件让人望而却步的事清。通过手把手的指导和对真实环境中案例的阐释,你将学会如何架构、设计,以及部署你自己的HBase应用程序。除了HBase原理和集群部署指南之外,本书通过对案例的深入研究,展示了大型企业如何利用HBase解决具体问题的用例。
本书提供了基本的解决方案和代码示例来帮助你实现自己的用例,包括主数据管理(MDM)和文件系统,以及准实时事件处理。你也能学习使用故障排除的方法来帮你避免部署时出现的一.些问题。








网友评论