你好,游客 登录
rss订阅 手机访问 
Hadoop
(目录)Hadoop3.0.0-beta1 HDFS分布式搭建及运维手册
Hadoop3.0.0-beta1 HDFS分布式搭建及运维手册
写在前面的话
Hdfs采用分布式架构,为上层的应用和用户提供可扩展、高吞吐、高可靠的数据存储服务。在整个Hadoop生态系统中,hdfs处于最底层,也是最无可替代的一个基础设施。从2008年hadoop-0.10.1版本开始到现在的hadoop-3.0.0-beta1,hdfs已经走过了近10个年头,其架构和功能特性也发生了巨大的变化。特别是hdfs...
日期:12/06/2017 12:55:41 作者:艾叔 点击:1103
hadoop-3.0.0-beta1运维手册(010):hdfs3.0.0动态添加节点(2)
写在前面的话
Hdfs采用分布式架构,为上层的应用和用户提供可扩展、高吞吐、高可靠的数据存储服务。在整个Hadoop生态系统中,hdfs处于最底层,也是最无可替代的一个基础设施。��2008年hadoop-0.10.1版本开始到现在的hadoop-3.0.0-beta1,hdfs已经走过了近10个年头,其架构和功能特性也发生了巨大的变化。特别是hdfs3.0.0系列,和hdfs2.x相比,增加了基于纠删码(erasur...
日期:12/05/2017 13:11:10 作者:艾叔 点击:1116
hadoop-3.0.0-beta1运维手册(008):hdfs3.0.0基本操作-查看HDFS文件系统、查看文本文件、使用帮助
写在前面的话
Hdfs采用分布式架构,为上层的应用和用户提供可扩展、高吞吐、高可靠的数据存储服务。在整个Hadoop生态系统中,hdfs处于最底层,也是最无可替代的一个基础设施。从2008年hadoop-0.10.1版本开始到现在的hadoop-3.0.0-beta1,hdfs已经走过了近10个年头,其架构和功能特性也发生了巨大的变化。特别是hdfs3.0.0系列,和hdfs2.x相比,增加了基于纠删码(erasur...
日期:12/05/2017 12:39:51 作者:艾叔 点击:1031
hadoop-3.0.0-beta1运维手册(007):hdfs3.0.0基本操作-上传、下载、删除文件或目录
写在前面的话
Hdfs采用分布式架构,为上层的应用和用户提供可扩展、高吞吐、高可靠的数据存储服务。在整个Hadoop生态系统中,hdfs处于最底层,也是最无可替代的一个基础设施。从2008年hadoop-0.10.1版本开始到现在的hadoop-3.0.0-beta1,hdfs已经走过了近10个年头,其架构和功能特性也发生了巨大的变化。特别是hdfs3.0.0系列,和hdfs2.x相比,增加了基于纠删码(erasur...
日期:12/03/2017 21:11:38 作者:艾叔 点击:1135
hadoop-3.0.0-beta1运维手册(004):安装分布式hdfs3.0.0-配置JDK、设置主机名
3.4 配置JDK
1. 解压
注意:我们所指的路径是/home/user
解压的命令是:tar xf jdk-8u152-linux-x64.tar.gz
解压后,ls,可以看到蓝色的目录:jdk1.8.0_152
3-33 jdk解压目录
2. 添加JDK相关的环境变量
切换到root用户
3-34 su命令切换
编辑/etc/profile文件
3-35 编辑/etc/profile文件
在最后一行添加
...
日期:11/30/2017 21:06:28 作者:艾叔 点击:671
hadoop-3.0.0-beta1运维手册(003):安装全分布式HDFS3.0.0-准备软件和配置CentOS网络
3.1 准备软件
HDFS是Hadoop的一个组件,它并没有单独发布,因此,我们需要下载Hadoop的安装包。
1. 下载Hadoop3.0.0-beta1,保存到d:\hdfs3\soft
3-1 Hadoop存储路径图
有关beta1版本的介绍:它是API稳定的版本,但不保证质量,并且不打算用于生产环境。因此,此版本可以用来提前学习,待stable版本出来后,可以直接替换上生产环境。
This is the...
日期:11/29/2017 16:38:02 作者:艾叔 点击:1381
hadoop-3.0.0-beta1运维手册(002):安装Guest操作系统
2.1 什么是Guest操作系统
Guest指虚拟机,安装Guest操作系统,就是在我们刚才定制的虚拟机nn1上安装操作系统。
我们要安装的操作系统是Linux,它有很多发行版,在这里我们选择Centos系列,它主要用作服务器操作系统,非常稳定,在生产环境中应用广泛。具体版本是Centos 7,64位,下载地址为:CentOS-7-x86_64-Everything-1511。整个光盘有7GB多,因为它包含了更多...
日期:11/28/2017 08:54:28 作者:艾叔 点击:984
hadoop-3.0.0-beta1运维手册(001):定制虚拟机
01 定制虚拟机 1.1 什么是虚拟机
虚拟机是一个软件,运行在我们的计算机上,通过它可以模拟一台计算机。
虚拟机和真实的物理机器一样,也有CPU、硬盘、网卡、内存这些硬件,在虚拟机上同样可以安装操作系统,操作系统安装好后,使用起来和真实的机器基本一样。
利用虚拟机软件,我们可以在一台物理服务器上运行多个虚拟机,从而模拟多机环境,既经济又方便。...
日期:11/27/2017 20:18:34 作者:艾叔 点击:1533
Hadoop和Spark分别实现二次排序
将下列数据中每个分区中的第一列顺序排列,第二列倒序排���。 Text 1
日期:10/31/2017 16:54:30 作者:guohecang 点击:1467
Hadoop概念学习系列之Hadoop、Spark学习路线(很值得推荐)
说在前面的话
  此笔,对于仅对于Hadoop和Spark初中学者。高手请忽略!
1 Java基础:
  视频方面:
     推荐《毕向东JAVA基础视频教程》。学习hadoop不需要过度的深入,java学习到javase,在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化多多理解实践即可。
  书籍方面:
     推荐李兴华的《java开发实战经...
日期:10/31/2017 16:53:54 作者:大数据躺过的坑 点击:1447
大数据小视角1:从行存储到RCFile
1.数据存储格式
数据的布局结构深刻的影响着数据处理的效率与性能,在底层的存储系统之中如何组织数据。如何对数据进行布局会直接影响数据查询引擎的设计与实现,并且也影响着存储空间的利用效率。好的数据存储与布局能够更好的利用好存储空间,并且契合业务应用场景的查询实践。接下来,我们来看看存储数据的格式是如何随着数据需求的不同进行变迁的。
在传统的...
日期:01月13日 作者: 点击:381
大数据小视角2:ORCFile与Parquet,开源圈背后的生意
上一篇文章聊了聊基于PAX的混合存储结构的RCFile,其实这里笔者还了解一些八卦,RCfile的主力团队都是来自中科院的童鞋在Facebook完成的,算是一个由华人主导的编码项目。但是RCfile仍然存在一些缺陷,后续被HortonWorks盯上之后上马了ORCFile格式,而老对头Cloudera则紧抱Google大腿推出了Parquet格式。 其实二者需要解决的问题是殊途同归的,但是不同的爹似乎导致了不太相...
日期:01月13日 作者: 点击:377
大数据小视角3:CarbonData,来自华为的中国力量
连续两篇文章都聊了不同的存储格式,这篇我们继续深入来看看在存储格式的演变之上有什么新的"黑科技"。华为公司在2016年开源了类parquet的列存格式:CarbonData,并且贡献给了Apache社区。CarbonData仅仅用了不到一年的时间就成功毕业,成为了Apache社区的顶级项目,CarbonData是首个由华人公司主导的Apache顶级项目,(来源自eBay的Kylin算是首个由华人主导的顶级开源项目...
日期:01月13日 作者: 点击:381
优化Hadoop Balancer运行速度
1.修改dfs.datanode.max.transfer.threads =4096(如果运行hbase的话建议为16384),指定用于在DataNode间传输block数据的最大线程数,老版本的对应参数为dfs.datanode.max.xcievers
日期:03/29/2018 21:12:05 作者:代立冬 点击:647
hadoop更换硬盘
hadoop服务器更换硬盘操作步骤(datanode hadoop目录${HADOOP_HOME}/bin   日志位置:/var/log/hadoop)
日期:03/29/2018 21:10:04 作者:代立冬 点击:490
  • 1/5
  • 1
  • 2
  • 3
  • 4
  • 5
  • »