美文网首页
单机版大数据开发环境安装方案(一)

单机版大数据开发环境安装方案(一)

作者: 阿乐_822e | 来源:发表于2025-07-29 16:55 被阅读0次

一、基本信息

主机名:xx-bigdata-server
IP:192.168.1.157
软件版本: hadoop-2.10.0/hbase-2.3.0/phoenix-5.1.3/hive-2.3.7

二、准备工作

2.1 配置ssh免登录

因为后面的dfs与yarn启动时需要多次输入密码,故先配置免密登录(启动脚本是先ssh到各个服务器上,再启动相关程序 )

$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa  # 生成密钥对(无密码)
$ chmod 700 ~/.ssh                          # 设置目录权限
$ ssh-copy-id -i ~/.ssh/id_rsa.pub xx-bigdata-server   # 只有一台服务器
$ ssh xx-bigdata-server                  # 测试一下

2.2 安装JAVA环境

过程略

三、部署伪Hadoop集群

3.1 安装 Hadoop

将安装文件hadoop-2.10.0.tar.gz上传至/usr/local目录

cd /usr/local && tar -xzf  hadoop-2.10.0.tar.gz
mv hadoop-2.10.0  hadoop

3.2 配置环境变量

vi  ~/.bashrc   # 添加:
export HADOOP_HOME=/usr/local/jdk1.8.0_211
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
# 再执行
source ~/.bashrc

3.3 修改4个核心配置文件

配置文件目录在:/usr/local/hadoop/etc/hadoop

3.3.1 core-site.xml文件

vi  core-site.xml                   # 添加:
<configuration>

  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://xx-bigdata-server:9000</value>
  </property>
  <!-- 临时目录,可自定义 -->
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/tmp</value>
  </property>

</configuration>

3.3.2 hdfs-site.xml文件



  <!-- 伪分布式副本数必须为 1 -->
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>

  <!-- Hadoop 2.x 使用 50070 -->
  <property>
    <name>dfs.namenode.http-address</name>
    <value>xx-bigdata-server:50070</value>
  </property>

  <!-- SecondaryNameNode 的 HTTP 地址(单机就写 localhost) -->
  <property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>xx-bigdata-server:50090</value>
  </property>

  <!-- 关闭权限检查,方便测试 -->
  <property>
    <name>dfs.permissions</name>
    <value>false</value>
  </property>

</configuration>

3.3.3 mapred-site.xml 文件

如果不存在mapred-site.xml 文件,要先复制之

cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml                          # 添加:
<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

3.3.4 yarn-site.xml 文件

<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>xx-bigdata-server</value>
  </property>
  
  <!-- NodeManager 上运行的附属服务 -->
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
</configuration>

3.4 格式化 HDFS

hdfs namenode -format

3.5 启动 Hadoop

start-dfs.sh
start-yarn.sh

说明:如果缺少步骤2.1,则这里需要多次输入密码

3.6 验证

3.6.1 查看节点

jps         # 观察节点启动情况  
59427 Jps
25717 NodeManager
27573 NameNode
25566 ResourceManager
27998 SecondaryNameNode
27759 DataNode

3.6.2 访问NameNode的网页

访问:http://192.168.1.157:50070/

image.png

3.6.3 访问yarn网页

访问:http://192.168.1.157:8088/

image.png

四、作业测试

以下是一个小测试案例——WordCount词频统计

# 1. 创建本地测试文件
echo "hello hadoop hello world" > input.txt
# 2. 在HDFS上创建输入目录
hadoop fs -mkdir /input
3. 上传测试文件到HDFS
hadoop fs -put input.txt /input
4. 运行WordCount程序
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.0.jar wordcount /input /output
# 此时注意查看控制台日志:mapreduce.Job:  map 100% reduce 100% ......  Job job_1753749954849_0002 completed successfully ......
5. 查看结果
hadoop fs -cat /output/part-r-00000   # 查看结果 
hadoop  1
hello   2
world   1

说明:

  • Hadoop要求输出路径是全新的目录,若/output已存在,需先删除:
hadoop fs -rm -r /output
  • 若出现Permission denied,检查HDFS目录权限:
hadoop fs -ls /               # 查看根目录权限
hadoop fs -chmod 777 /input   # 开放权限
  • 确保HDFS和YARN已启动:
start-dfs.sh    # 启动HDFS
start-yarn.sh   # 启动YARN
jps             # 验证进程(应有NameNode/DataNode/ResourceManager)

至此,一个伪分布式单机版Hadoop集群已经搭建完毕。下一节安装相关开发组件:Hbase、Phoenix、Hive

相关文章

网友评论

      本文标题:单机版大数据开发环境安装方案(一)

      本文链接:https://www.haomeiwen.com/subject/tdtxojtx.html