注册 留言板
当前位置:首页 > 云计算/大数据 > Spark

Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
 

《Spark 官方文档》监控和工具

《Spark 官方文档》监控和工具

2017-04-29   作者:SadOnMyOwn    浏览次数:0   

监控和工具 监控Spark应用有很多种方式:web UI,metrics 以及外部工具。 Web界面 每个SparkContext都会启动一个web UI,其默认端口为4040,并且这个web UI能展示很多有用的Spark应用相关信息。包括: 一个stage和task的调度列表 一个关于RDD大小

Sparksql语法,读json

Sparksql语法,读json

2017-04-29   作者:xbw12138    浏览次数:0   

sparksql语法,读json --样本 [hadoop@node1 resources]$ pwd /home/hadoop/spark-1.5.2-bin-hadoop2.6/examples/src/main/resources [hadoop@node1 resources]$ cat

使用NewHadoopRDD實現HBase分布式Scan操作

使用NewHadoopRDD實現HBase分布式Scan操作

2017-04-29   作者:qq_28890765    浏览次数:0   

實現十分簡單,作爲上文的補充,直接上測試代碼 def main(args: Array[String]): Unit{ val sparkConf = new SparkConf().setAppName("HBaseDistributedScanExample " + tableName).set

Learning Spark——RDD常用操作(一)

Learning Spark——RDD常用操作(一)

2017-04-29   作者:Trigl    浏览次数:0   

RDD支持两种操作:转换(Transformation)操作和行动(Action)操作。 为什么会分为两种操作,这两种操作又有什么区别呢? 我们先考虑一下平常我们使用的一些函数,举个例子Long.toString(),这个转换是把Long类型的转换为String类型的。 如果同样的事情在Spark中

spark学习之combineByKey函数

spark学习之combineByKey函数

2017-04-28   作者:jasontome    浏览次数:0   

在数据分析中,处理Key,V alue的Pair数据是极为常见的场景,例如我们可以针对这样的数据进行分组、聚合或者将两个包含Pair数据的RDD根据key进行join。从函数的抽象层面看,这些操作具有共同的特征,都是将类型为RDD[(K,V)]的数据处理为RDD[(K,C)]。这里的V和C可以是相同

Speak之RDD介绍

Speak之RDD介绍

2017-04-28   作者:wuxintdrh    浏览次数:0   

在自定义数据源中使用sparksql(Spark2.0+)带示例

在自定义数据源中使用sparksql(Spark2.0+)带示例

2017-04-28   作者:qq_28890765    浏览次数:0   

主要原理 spark sql 核心: ParseInterface: 专门负责解析外部数据源SQL的SqlParser。目前自带的parser已经能满足各种需求 RunnableCommand: 从反射的数据源中实例化relation,然后注册到temp table中。 Strategy: 将pla

spark RDD算子(十)之PairRDD的Action操作countByKey, collectAsMap

spark RDD算子(十)之PairRDD的Action操作countByKey, collectAsMap

2017-04-28   作者:T1DMzks    浏览次数:0   

countByKey def countByKey(): Map[K, Long] 以RDD{(1, 2),(2,4),(2,5), (3, 4),(3,5), (3, 6)}为例 rdd.countByKey会返回{(1,1),(2,2),(3,3)} scala例子 scala> val rdd

关于spark数据倾斜7种解决方式

关于spark数据倾斜7种解决方式

2017-04-28   作者:qq_19917979    浏览次数:0   

1、使用Hive ETL预处理数据 • 方案适用场景: 如果导致数据倾斜的是Hive表。如果该Hive表中的数据本身很不均匀(比如某个key对应了100万数据,其他key才对应了10条数据),而且业务场景需要频繁使用Spark对Hive表执行某个分析操作,那么比较适合使用这种技术方案。 • 方案实现

项目积累

项目积累

2017-04-27   作者:hyp1006346386    浏览次数:0   

项目名称: convertpytohive.scala 功能: 将已经打过标签的数据存储到一个hive表中,partition字段值为category_param,category值为文件中类别值,param为要传进去的值。 开发中遇到问题: 在rdd中不能给外部变量赋值 var contentst

共573条记录 1/58页  首页 上一页 下一页 尾页  第
精彩专题
友情链接:
设为首页 - 加入收藏 Copyright @2016 Infocool 版权所有 粤ICP备16000626号