注册 留言板
当前位置:首页 > 云计算/大数据 > Hadoop

Hadoop 是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。
 

Hadoop操作拾遗

Hadoop操作拾遗

2017-06-25   作者:picway    浏览次数:0   

Hadoop的JVM参数设置 作为一个Java框架,Hadoop也可以设置其JVM的参数,主要参数如堆内存设置,垃圾回收设置等。 常见的有:(只放我设过的,逐渐增加) -Xms:初始堆大小 -Xmx:最大堆大小 -XX:NewSize=n:设置年轻代大小 -XX:NewRatio=n:设置年轻代和年

redhat7源码编译hadoop2.6.0

redhat7源码编译hadoop2.6.0

2017-06-25   作者:feinifi    浏览次数:0   

        以前在32位linux机器上编译过hadoop2.6.0,这次在redhat7 64bit上再次编译hadoop2.6.0,除必须的jdk,maven,protobuf需要安装之外,还需要安装系统依赖库gcc,gcc-c++,ncurses-devel,openssl-devel,c

HDFS概念,HDFS详解

HDFS概念,HDFS详解

2017-06-20   作者:latiohongjui    浏览次数:0   

HDFS概念      磁盘的block大小,是可以读写的最小单位。单一磁盘文件系统处理这些block中的数据,它通常是磁盘block大小的整数倍。文件系统的block大小通常是几kb,而磁盘block通常是 512b。这对于只是简单读写任意长度文件的文件系统使用者来说是透明的。尽管如此,  还是有

HBase概述,HBase入门

HBase概述,HBase入门

2017-06-20   作者:latiohongjui    浏览次数:0   

1-HBase的安装 HBase是什么? HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作,如

Hadoop基础教程-第7章 MapReduce进阶(7.4 MapReduce 连接)(草稿)

Hadoop基础教程-第7章 MapReduce进阶(7.4 MapReduce 连接)(草稿)

2017-06-20   作者:chengyuqiang    浏览次数:0   

第7章 MapReduce进阶 7.4 MapReduce 连接 连接操作,也就是常说的join操作,是数据分析时经常用到的操作。 比如有两份数据data1和data2,进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接。如果数据量比较大,在内存进行连接操会发生内存溢出。Map

Hadoop基础教程-第7章 MapReduce进阶(7.3 MapReduce API)(草稿)

Hadoop基础教程-第7章 MapReduce进阶(7.3 MapReduce API)(草稿)

2017-06-20   作者:chengyuqiang    浏览次数:0   

第7章 MapReduce进阶 7.3 MapReduce API 从Hadoop0.20开始Hadoop提供了两套MapReduce API,新的API在旧API基础上进行封装,在扩展性和易用性等方面有显著提高。旧API已经被废弃,不再介绍,新API在org.apache.hadoop.mapre

Hadoop基础教程-第7章 MapReduce进阶(7.2 MapReduce工作机制)(草稿)

Hadoop基础教程-第7章 MapReduce进阶(7.2 MapReduce工作机制)(草稿)

2017-06-19   作者:chengyuqiang    浏览次数:0   

第7章 MapReduce进阶 7.2 MapReduce工作机制 本节将从作业的角度来解读一个作业时如何在MapReduce计算框架下提交、运行等。注意,在Hadoop 2.x中,MapReduce的工作机制已经被YARN的工作机制所替代。 YARN框架下的Mapreduce工作流程如下图所示:

Hadoop 血统

Hadoop 血统

2017-06-19   作者:Kohang    浏览次数:0   

Cloudera的CDH和Apache的Hadoop的区别 目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是: Apache(最原始的版本,所有发行版均基于这个版本进行改进)、 Cloudera版本(Cloudera’s Distribution Including Apache

Hadoop 学习研究(九): NameNode启动过程

Hadoop 学习研究(九): NameNode启动过程

2017-06-19   作者:u012151684    浏览次数:0   

NameNode启动过程: fsimage加载过程 Fsimage加载过程完成的操作主要是为了: 1.         从fsimage中读取该HDFS中保存的每一个目录和每一个文件 2.         初始化每个目录和文件的元数据信息 3.         根据目录和文件的路径,构造出整个nam

Hadoop中关于MapReduce的编程实例(过滤系统日志)

Hadoop中关于MapReduce的编程实例(过滤系统日志)

2017-06-19   作者:tmac937436    浏览次数:0   

框架         Apache Hadoop:分布式处理架构,结合了 MapReduce(并行处理)、YARN(作业调度)和HDFS(分布式文件系统);  一.下载Hadoop相关文件      1.在Hadoop官网上下载Windows版本的Hadoop文件,这里以Hadoop-2.7.3为例

共666条记录 1/67页  首页 上一页 下一页 尾页  第
精彩专题
  • 本月排行
  • 总排行
友情链接:
QQ交流群:①群 155252576 ②群 469193068 ③群 531831996 ④群 243504572
设为首页 - 加入收藏 Copyright @2016 Infocool 版权所有 粤ICP备16000626号