一、介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? (1)数据量大不是问题,数据倾斜...[作者空间]
本节所讲优化策略适用于任何场景 1.核心思想 把Hive SQL 当做Mapreduce程序去优化以下SQL不会转...[作者空间]
一、简述 Hadoop的核心能力是parition和sort,因而这也是优化的根本。 观察Hadoop处理数据的过...[作者空间]
第一部分 Spark介绍第二部分 Spark的使用基础第三部分 Spark工具箱第四部分 使用不同的数据类型第五部...[作者空间]
以前在工作中主要写Spark SQL相关的代码,对于RDD的学习有些疏漏。本周工作中学习了一些简单的RDD的知识,...[作者空间]
现有数据类型如下(部分) A 202.106.196.115 手机 iPhone8 8000 B 202.106....[作者空间]
【转载】原文地址:原文地址 概述 GraphX是Spark中用于图和图计算的组件,GraphX通过扩展Spar...[作者空间]
第一步、编写python脚本,产生模拟数据 第二步、配置Flume 在Flume安装目录下(conf)添加配置文件...[作者空间]
Spark Streaming介绍 Spark Streaming是在Spark Core的基础上进行扩展,可实现...[作者空间]
使用Spark实现PageRank,强连通分量等图算法 PageRank 数据准备 边: 网页: 将这两个文件放入...[作者空间]
SparkStream在处理流数据时,按时间间隔把数据分成小批,在一个小批中利用RDD的函数完成各种运算。如果要在...[作者空间]
SparkStreaming从kafka读取文件流时(Java),默认是utf-8的,如果源文件的编码不是utf-...[作者空间]
写在前面 态度决定高度!让优秀成为一种习惯! 世界上没有什么事儿是加一次班解决不了的,如果有,就加两次!(- - ...[作者空间]
在场景系统中,通过SparkStream直接消费kafka数据,出现处理逻辑耗时在毫秒级,但是很多的job del...[作者空间]
Spark RDD(Resilient Distributed Datasets)论文 概要 1: 介绍 2: R...[作者空间]
Hive基础语法 1、创建表 – 用户表 CREATE[EXTERNAL外部表]TABLE[IF NOT EXIS...[作者空间]