你好,游客 登录
rss订阅 手机访问 
Hadoop
(目录)Hadoop3.0.0-beta1 HDFS分布式搭建及运维手册
Hadoop3.0.0-beta1 HDFS分布式搭建及运维手册
写在前面的话
Hdfs采用分布式架构,为上层的应用和用户提供可扩展、高吞吐、高可靠的数据存储服务。在整个Hadoop生态系统中,hdfs处于最底层,也是最无可替代的一个基础设施。从2008年hadoop-0.10.1版本开始到现在的hadoop-3.0.0-beta1,hdfs已经走过了近10个年头,其架构和功能特性也发生了巨大的变化。特别是hdfs...
日期:12/06/2017 12:55:41 作者:艾叔 点击:1200
hadoop-3.0.0-beta1运维手册(010):hdfs3.0.0动态添加节点(2)
写在前面的话
Hdfs采用分布式架构,为上层的应用和用户提供可扩展、高吞吐、高可靠的数据存储服务。在整个Hadoop生态系统中,hdfs处于最底层,也是最无可替代的一个基础设施。��2008年hadoop-0.10.1版本开始到现在的hadoop-3.0.0-beta1,hdfs已经走过了近10个年头,其架构和功能特性也发生了巨大的变化。特别是hdfs3.0.0系列,和hdfs2.x相比,增加了基于纠删码(erasur...
日期:12/05/2017 13:11:10 作者:艾叔 点击:1210
大数据小视角1:从行存储到RCFile
1.数据存储格式
数据的布局结构深刻的影响着数据处理的效率与性能,在底层的存储系统之中如何组织数据。如何对数据进行布局会直接影响数据查询引擎的设计与实现,并且也影响着存储空间的利用效率。好的数据存储与布局能够更好的利用好存储空间,并且契合业务应用场景的查询实践。接下来,我们来看看存储数据的格式是如何随着数据需求的不同进行变迁的。
在传统的...
日期:01月13日 作者: 点击:512
大数据小视角2:ORCFile与Parquet,开源圈背后的生意
上一篇文章聊了聊基于PAX的混合存储结构的RCFile,其实这里笔者还了解一些八卦,RCfile的主力团队都是来自中科院的童鞋在Facebook完成的,算是一个由华人主导的编码项目。但是RCfile仍然存在一些缺陷,后续被HortonWorks盯上之后上马了ORCFile格式,而老对头Cloudera则紧抱Google大腿推出了Parquet格式。 其实二者需要解决的问题是殊途同归的,但是不同的爹似乎导致了不太相...
日期:01月13日 作者: 点击:501
大数据小视角3:CarbonData,来自华为的中国力量
连续两篇文章都聊了不同的存储格式,这篇我们继续深入来看看在存储格式的演变之上有什么新的"黑科技"。华为公司在2016年开源了类parquet的列存格式:CarbonData,并且贡献给了Apache社区。CarbonData仅仅用了不到一年的时间就成功毕业,成为了Apache社区的顶级项目,CarbonData是首个由华人公司主导的Apache顶级项目,(来源自eBay的Kylin算是首个由华人主导的顶级开源项目...
日期:01月13日 作者: 点击:510
优化Hadoop Balancer运行速度
1.修改dfs.datanode.max.transfer.threads =4096(如果运行hbase的话建议为16384),指定用于在DataNode间传输block数据的最大线程数,老版本的对应参数为dfs.datanode.max.xcievers
日期:03/29/2018 21:12:05 作者:代立冬 点击:734
hadoop更换硬盘
hadoop服务器更换硬盘操作步骤(datanode hadoop目录${HADOOP_HOME}/bin   日志位置:/var/log/hadoop)
日期:03/29/2018 21:10:04 作者:代立冬 点击:597
dfs.datanode.du.reserved 预留空间不生效的问题
生产环境(cdh5.5.1)遇到一个问题:已经设置 dfs.datanode.du.reserved预留空间为20G,但是磁盘仍然被写满了。
日期:03/29/2018 21:07:13 作者:代立冬 点击:756
大数据存储平台调优之Hadoop优化
大数据存储平台调优之Hadoop优化
在上节搭建完集群、完成Linux系统配置(优化)后以及建好HDFS上的目录后,我们接下来需要对Hadoop集群做一些优化的工作。我们从两个方面来说:一是HDFS存储方面,一是计算方面
1、 HDFS方面:
1> 存储格式的选择
对于分析类型的业务来说,最好的存储格式自然是列存储,因为数据量巨大,只扫关心的数据列无疑具有很大...
日期:03/29/2018 21:04:58 作者:代立冬 点击:1137
Hbase万亿级存储性能优化总结
背景
   hbase主集群在生产环境已稳定运行有1年半时间,最大的单表region数已达7200多个,每天新增入库量就有百亿条,对hbase的认识经历了懵懂到熟的过程。为了应对业务数据的压力,hbase入库也由最初的单机多线程升级为有容灾机制的分布式入库,为及早发现集群中的问题,还开发了一套对hbase集群服务和应用全面监控的报警系统。总结下hbase优化(针对0.94版本)方面...
日期:03/29/2018 21:02:07 作者:代立冬 点击:940
hadoop-3.0.0-beta1运维手册(011):HDFS Erasure Coding纠删码使用
写在前面的话
Hdfs采用分布式架构,为上层的应用和用户提供可扩展、高吞吐、高可靠的数据存储服务。在整个Hadoop生态系统中,hdfs处于最底层,也是最无可替代的一个基础设施。从2008年hadoop-0.10.1版本开始到现在的hadoop-3.0.0-beta1,hdfs已经走过了近10个年头,其架构和功能特性也发生了巨大的变化。特别是hdfs3.0.0系列,和hdfs2.x相比,增加了基于纠删码(erasur...
日期:12/06/2017 12:32:38 作者:艾叔 点击:2507
hadoop-3.0.0-beta1运维手册(009):hdfs3.0.0动态添加节点(1)
写在前面的话
Hdfs采用分布式架构,为上层的应用和用户提供可扩展、高吞吐、高可靠的数据存储服务。在整个Hadoop生态系统中,hdfs处于最底层,也是最无可替代的一个基础设施。从2008年hadoop-0.10.1版本开始到现在的hadoop-3.0.0-beta1,hdfs已经走过了近10个年头,其架构和功能特性也发生了巨大的变化。特别是hdfs3.0.0系列,和hdfs2.x相比,增加了基于纠删码(erasur...
日期:12/05/2017 12:58:11 作者:艾叔 点击:721
hadoop-3.0.0-beta1运维手册(008):hdfs3.0.0基本操作-查看HDFS文件系统、查看文本文件、使用帮助
写在前面的话
Hdfs采用分布式架构,为上层的应用和用户提供可扩展、高吞吐、高可靠的数据存储服务。在整个Hadoop生态系统中,hdfs处于最底层,也是最无可替代的一个基础设施。从2008年hadoop-0.10.1版本开始到现在的hadoop-3.0.0-beta1,hdfs已经走过了近10个年头,其架构和功能特性也发生了巨大的变化。特别是hdfs3.0.0系列,和hdfs2.x相比,增加了基于纠删码(erasur...
日期:12/05/2017 12:39:51 作者:艾叔 点击:1103
hadoop-3.0.0-beta1运维手册(007):hdfs3.0.0基本操作-上传、下载、删除文件或目录
写在前面的话
Hdfs采用分布式架构,为上层的应用和用户提供可扩展、高吞吐、高可靠的数据存储服务。在整个Hadoop生态系统中,hdfs处于最底层,也是最无可替代的一个基础设施。从2008年hadoop-0.10.1版本开始到现在的hadoop-3.0.0-beta1,hdfs已经走过了近10个年头,其架构和功能特性也发生了巨大的变化。特别是hdfs3.0.0系列,和hdfs2.x相比,增加了基于纠删码(erasur...
日期:12/03/2017 21:11:38 作者:艾叔 点击:1223
hadoop-3.0.0-beta1运维手册(006):hdfs3.0.0分布式构建-启动hdfs
3.10 启动hdfs3.0
普通用户,进入hadoop目录
[user@nn1 ~]$ cd ~/hadoop-3.0.0-beta1
格式化,非常重要!!!
[user@nn1 hadoop-3.0.0-beta1]$ bin/hdfs namenode -format
启动
[user@nn1 ~]$ cd ~/hadoop-3.0.0-beta1
[user@nn1 hadoop-3.0.0-beta1]$ sbin/start-dfs.sh
Starting namenodes on [nn1]
nn1: WARNING: /home/us...
日期:12/02/2017 18:15:24 作者:艾叔 点击:1140
  • 1/5
  • 1
  • 2
  • 3
  • 4
  • 5
  • »