注册 留言板
当前位置:首页 > 云计算/大数据 > Spark

Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
 

Spark RDD编程核心

Spark RDD编程核心

2017-02-24   作者:本站编辑    浏览次数:0   

一句话说,在Spark中对数据的操作其实就是对RDD的操作,而对RDD的操作不外乎创建、转换、调用求值。 什么是RDD     RDD(Resilient Distributed Dataset),弹性分布式数据集。   它定义了如何在集群的每个节点上操作数据的一系列命令,而不是指真实的数据,Spa

spark-submit介绍

spark-submit介绍

2017-02-24   作者:Quincuntial    浏览次数:0   

文章作者:Tyan 博客:noahsnail.com  |  CSDN  |  简书 1. spark-submit介绍 spark-submit脚本通常位于/usr/local/spark/bin目录下,可以用which spark-submit来查看它所在的位置,spark-submit用来启动

Spark源码分析之Spark Shell(上)

Spark源码分析之Spark Shell(上)

2017-02-23   作者:本站编辑    浏览次数:0   

终于开始看Spark源码了,先从最常用的spark-shell脚本开始吧。不要觉得一个启动脚本有什么东东,其实里面还是有很多知识点的。另外,从启动脚本入手,是寻找代码入口最简单的方法,很多开源框架,其实都可以通过这种方式来寻找源码入口。 先来介绍一下Spark-shell是什么? Spark-she

Spark核心原理1:相关术语介绍

Spark核心原理1:相关术语介绍

2017-02-23   作者:yellowboy_    浏览次数:0   

在了解Spark基本流程前,我们先了解几个概念: Application(应用程序):是指用户编写的Spark应用程序,包含驱动程序(Driver)和分布在集群中多个节点上运行的Executor代码,在执行过程中由1个或多个作业组成。 Driver(驱动程序):Spark中的Driver即运行上述A

1. 阅读spark源码之前的一些准备

1. 阅读spark源码之前的一些准备

2017-02-22   作者:u012940265    浏览次数:1   

在阅读之前具有以下知识或经验可能更好: 1.  在生产集群上使用过spark超过2个月; 2.  了解scala; 3.  了解spark; 4.   良好的英文阅读能力; 5.   了解git的使用; 6.    intellij IDE使用; 7.   MAVEN/SBT的使用; 作为源代码阅读

Hive扩展功能(七)--Hive On Spark

Hive扩展功能(七)--Hive On Spark

2017-02-22   作者:asd315861547    浏览次数:1   

软件环境: linux系统: CentOS6.7 Hadoop版本: 2.6.5 zookeeper版本: 3.4.8 主机配置: 一共m1, m2, m3这五部机, 每部主机的用户名都为centos 192.168.179.201: m1 192.168.179.202: m2 192.168

Spark-1.3.1与Hive整合实现查询分析

Spark-1.3.1与Hive整合实现查询分析

2017-02-21   作者:sysmedia    浏览次数:0   

在大数据应用场景下,使用过Hive做查询统计分析的应该知道,计算的延迟性非常大,可能一个非常复杂的统计分析需求,需要运行1个小时以上,但是比之于使用MySQL之类关系数据库做分析,执行速度快很多很多。使用HiveQL写类似SQL的查询分析语句,最终经过Hive查询解析器,翻译成Hadoop平台上的M

Hive on Spark解析

Hive on Spark解析

2017-02-21   作者:sysmedia    浏览次数:0   

Hive是基于Hadoop平台的数据仓库,最初由Facebook开发,在经过多年发展之后,已经成为Hadoop事实上的SQL引擎标准。相较于其他诸如Impala、Shark(SparkSQL的前身)等引擎而言,Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。Hive最初的计算引擎为Map

YDB技术原理

YDB技术原理

2017-02-21   作者:Coding_Cao    浏览次数:2   

第十二章YDB技术原理 一、铺一条让Spark跑的更快的路   二、YDB的本质 在Spark之上基于搜索引擎技术,实现索引和搜索功能。 既有搜索引擎的查询速度,又有Spark强大的分析计算能力。 可对多个字段进行关键字全匹配或模糊匹配检索,并可对检索结果集进行分组、排序、计算等统计分析操作。  

flume+kafka+spark streaming(持续更新)

flume+kafka+spark streaming(持续更新)

2017-02-21   作者:xuyaoqiaoyaoge    浏览次数:3   

kafka Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 kafka的设计初衷是希望作为一个统一的信息收集平台,能够实时的收集反馈信息,并需要能够支撑较大的数据量,且具备良好的容错能力. 一 、术语介绍 Broker Kafka集群包含一个或多个服

共414条记录 1/42页  首页 上一页 下一页 尾页  第
精彩专题
友情链接:
设为首页 - 加入收藏 Copyright @2016 Infocool 版权所有 粤ICP备16000626号