你好,游客 登录
rss订阅 手机访问 
Hadoop
dfs.datanode.du.reserved 预留空间不生效的问题
生产环境(cdh5.5.1)遇到一个问题:已经设置 dfs.datanode.du.reserved预留空间为20G,但是磁盘仍然被写满了。
日期:03/29/2018 21:07:13 作者:代立冬 点击:525
大数据存储平台调优之Hadoop优化
大数据存储平台调优之Hadoop优化
在上节搭建完集群、完成Linux系统配置(优化)后以及建好HDFS上的目录后,我们接下来需要对Hadoop集群做一些优化的工作。我们从两个方面来说:一是HDFS存储方面,一是计算方面
1、 HDFS方面:
1> 存储格式的选择
对于分析类型的业务来说,最好的存储格式自然是列存储,因为数据量巨大,只扫关心的数据列无疑具有很大...
日期:03/29/2018 21:04:58 作者:代立冬 点击:751
Hbase万亿级存储性能优化总结
背景
   hbase主集群在生产环境已稳定运行有1年半时间,最大的单表region数已达7200多个,每天新增入库量就有百亿条,对hbase的认识经历了懵懂到熟的过程。为了应对业务数据的压力,hbase入库也由最初的单机多线程升级为有容灾机制的分布式入库,为及早发现集群中的问题,还开发了一套对hbase集群服务和应用全面监控的报警系统。总结下hbase优化(针对0.94版本)方面...
日期:03/29/2018 21:02:07 作者:代立冬 点击:619
hadoop-3.0.0-beta1运维手册(011):HDFS Erasure Coding纠删码使用
写在前面的话
Hdfs采用分布式架构,为上层的应用和用户提供可扩展、高吞吐、高可靠的数据存储服务。在整个Hadoop生态系统中,hdfs处于最底层,也是最无可替代的一个基础设施。从2008年hadoop-0.10.1版本开始到现在的hadoop-3.0.0-beta1,hdfs已经走过了近10个年头,其架构和功能特性也发生了巨大的变化。特别是hdfs3.0.0系列,和hdfs2.x相比,增加了基于纠删码(erasur...
日期:12/06/2017 12:32:38 作者:艾叔 点击:1699
hadoop-3.0.0-beta1运维手册(009):hdfs3.0.0动态添加节点(1)
写在前面的话
Hdfs采用分布式架构,为上层的应用和用户提供可扩展、高吞吐、高可靠的数据存储服务。在整个Hadoop生态系统中,hdfs处于最底层,也是最无可替代的一个基础设施。从2008年hadoop-0.10.1版本开始到现在的hadoop-3.0.0-beta1,hdfs已经走过了近10个年头,其架构和功能特性也发生了巨大的变化。特别是hdfs3.0.0系列,和hdfs2.x相比,增加了基于纠删码(erasur...
日期:12/05/2017 12:58:11 作者:艾叔 点击:492
hadoop-3.0.0-beta1运维手册(006):hdfs3.0.0分布式构建-启动hdfs
3.10 启动hdfs3.0
普通用户,进入hadoop目录
[user@nn1 ~]$ cd ~/hadoop-3.0.0-beta1
格式化,非常重要!!!
[user@nn1 hadoop-3.0.0-beta1]$ bin/hdfs namenode -format
启动
[user@nn1 ~]$ cd ~/hadoop-3.0.0-beta1
[user@nn1 hadoop-3.0.0-beta1]$ sbin/start-dfs.sh
Starting namenodes on [nn1]
nn1: WARNING: /home/us...
日期:12/02/2017 18:15:24 作者:艾叔 点击:809
hadoop-3.0.0-beta1运维手册(005):hdfs3.0.0分布式构建-hdfs配置、无密码登录
3.7 上传、解压Hadoop相关软件
我们将在nn1上配置1个namenode和1个datanode,构建一个最简的HDFS,成功后,再扩展datanode节点。
1. 切换到user,并进入/home/user
Ls应该能看到下面的文件和目录
3-50 hadoop存储目录
2. 解压hadoop
解压命令为:tar xf hadoop-3.0.0-beta1.tar.gz
解压后,应该能看到红圈内的目录
3-51 hadoop解...
日期:12/01/2017 21:07:42 作者:艾叔 点击:890
云日志分析:hadoop spark编程实战入门教程2:下载centos及安装
hadoop spark编程实战准备的第二步,就是要为spark集群、hadoop集群下载选型好的操作系统安装文件,即iso文件,这里我们选择CentOS-7.0-1406-x86_64-GnomeLive.iso GNOME桌面版
日期:11/16/2017 19:39:44 作者:pig2 点击:343
云日志分析:hadoop spark编程实战入门教程1:Linux操作系统选择centos
云日志分析:hadoop spark编程实战入门教程,第一步就是要为hadoop集群、spark集群选择合适的Linux操作系统,由于centos是由red hat服务器版本编译过来的,非常稳定,适合企业生产应用,因此,选择centos作为项目选择的操作系统,这里使用的是桌面版centos
日期:11/16/2017 19:34:54 作者:ping2 点击:348
云日志分析:hadoop spark编程实战入门教程|实战案例
本文面向spark编程入门的初学者,提供了一个hadoop spark编程实例,以《云日志分析》为实战案例,从spark的OS环境linux开始,到hadoop集群安装、spark集群安装与配置、kafka、flume、hive的安装与使用、spark编程语言Scala、spark sql编程与使用、spark streaming都有��细的说明,位于spark生态圈内的大数据处理相关技术基本都涉及到,是spark编程实战的一个综合应用。具...
日期:11/16/2017 19:26:50 作者: 点击:700
zookeeper配置文件详解
配置参数详解(主要是%ZOOKEEPER_HOME%/conf/zoo.cfg文件) 参数 说明 clientPort 客户端连接server的端口,即zk对外服务端口,一般设置为2181。 dataDir 就 是把内存中的数据存储成快照文件snapshot的目录,同时myid也存储在这个目录下(myid中的内容为本机server服务的标识)。写快照不需 要单独的磁盘,而且是使用后台线程进行异步写数据到磁盘,因...
日期:10/31/2017 20:52:37 作者:xuanxufeng 点击:753
云日志分析:hadoop spark编程实战入门教程9-1:flume应该思考的问题
问题导读
1.flume的配置你是如何理解的?
2.flume与kafka整合,kafka可以做哪些组件?
3.flume与kafka的区别是什么?
flume是比较常用的大数据技术,那么学习flume,我们还需要思考flume,这样理解才能在遇到问题的时候,更容易解决,使用起来更加的得心应手。下面介绍了flume的相关内容及个人的理解。
flume应用
一般来讲,我们接触flume可能更...
日期:10/31/2017 20:32:51 作者:pig2 点击:897
云日志分析:hadoop spark编程实战入门教程6-5-1:spark原理之spark主要模块及作用介绍
1.spark主要包含哪几个模块?
2.spark各个模块作用是什么?
3.spark通信通过什么框架实现?
Spark的主要模块包括 调度与任务分配 I/O模块 通信控制模块 容错模块 以及Shuffle模块
调度与任务分配
Spark按照应用、作业、Stage和Task几个层次分别进行调度,采用了经典的FIFO和FAIR等调度算法。
I/O模块
在Spark的I/O中,将数据以块为单位进...
日期:10/31/2017 20:31:42 作者:pig2 点击:298
Hadoop究竟是什么鬼
作者:吴大迪
  本文由 微信公众号星环科技 授权发布,版权所有归作者,转载请联系作者!
  不少读者反馈本号的内容太专业、太技术,虽然很想看懂点什么,但是满眼的专有名词,心累!
  为了和广大吃瓜群众融为一体,我们特别推出了《白话大数据》系列,从此麻麻再也不用担心我看不懂啦,今天先推第一集《Hadoop究竟是个什么鬼》
所以充满了使命感...
日期:10/27/2017 21:39:56 作者:吴大迪 点击:458
技术小白:Hadoop 到底是啥?
大数据是个铺天盖地的词,而谈论大数据又不可避免地要提到Hadoop,遗憾的是今天大多数大数据鼓吹者,甚至专业人士其实并不能说清楚Hadoop到底是什么玩意,以及有何功用,而他们的管理层小白听众更是一头雾水。
日期:10/27/2017 21:38:21 作者:Cashcow 点击:268
  • 2/5
  • «
  • 1
  • 2
  • 3
  • 4
  • 5
  • »