注册 留言板
当前位置:首页 > 云计算/大数据 > Spark

Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
 

RDD、DataFrame和DataSet三者的关系

RDD、DataFrame和DataSet三者的关系

2017-06-20   作者:Lin_wj1995    浏览次数:0   

RDD、DataFrame和DataSet三者的关系

RDD、DataFrame和DataSet三者的关系

2017-06-20   作者:Lin_wj1995    浏览次数:0   

Spark任务卡死

Spark任务卡死

2017-06-19   作者:keyuquan    浏览次数:0   

spark阶段 parkcore standalone /yarn 模式运行的时候 client 模式正常运行, cluster 模式卡死 spark-env.sh 里的配置  SPARK_MASTER_PORT=7077 SPARK_MASTER_WEBUI_PORT=8080 SPARK_WOR

spark程序运行缓慢

spark程序运行缓慢

2017-06-19   作者:keyuquan    浏览次数:0   

spark程序运行缓慢 原因一:在map ,reducebykey ,transform 等算子里进行耗时操作 耗时操作包括: 读取配置文件,打印,读取数据库的数据 对象    boolean local =ConfigurationManager.getBoolean(Constants.SPAR

大数据学习七

大数据学习七

2017-06-19   作者:chenwiehuang    浏览次数:0   

SPARK 1、Spark的生态系统     Spark Core:engine     Spark SQL :交互式查询     Spark Streaming:流式计算     MLLib:机器学习和数据挖掘     GraphX:图计算 2、基本概念    RDD:分布式内存的一个抽象    

[Spark]Spark RDD 指南五 持久化

[Spark]Spark RDD 指南五 持久化

2017-06-18   作者:SunnyYoona    浏览次数:0   

1. 概述 Spark中最重要的功能之一是操作时在内存中持久化(缓存)数据集(persisting (or caching) a dataset in memory across operations)。当我们让Spark持久化存储一个RDD时,每个节点都会将其计算的任何分区存储在内存中,并将其重用

Spark RDD、DataFrame和DataSet的区别

Spark RDD、DataFrame和DataSet的区别

2017-06-17   作者:shengmingqijiquan    浏览次数:0   

RDD RDD(Resilient Distributed Datasets) ,弹性分布式数据集, 是分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创建,然而这些限制

Spark机器学习(2):逻辑回归算法

Spark机器学习(2):逻辑回归算法

2017-06-17   作者:本站编辑    浏览次数:0   

逻辑回归本质上也是一种线性回归,和普通线性回归不同的是,普通线性回归特征到结果输出的是连续值,而逻辑回归增加了一个函数g(z),能够把连续值映射到0或者1。 MLLib的逻辑回归类有两个:LogisticRegressionWithSGD和LogisticRegressionWithLBFGS,前者

sparkSQL写数据到hdfs中出现Snappy报错

sparkSQL写数据到hdfs中出现Snappy报错

2017-06-17   作者:sydt2011    浏览次数:0   

今天spark在写数据到hive中出现错误 Job aborted due to stage failure: Task 7 in stage 5.0 failed 4 times, most recent failure: Lost task 7.3 in stage 5.0 (TID 68, N

spark的基本工作原理和RDD

spark的基本工作原理和RDD

2017-06-17   作者:VectorYang    浏览次数:0   

1.spark的基本工作原理 1>迭代式计算: Spark与MapReduce最大的不用在于其迭代式计算模型: 1)MapReduce,分为两个阶段,map和reduce,两个阶段完成,就结束了。所以我们在一个job里能做的处理很有限,只能在map和reduce里处理数据。 2)Spark,迭代式计

共717条记录 1/72页  首页 上一页 下一页 尾页  第
精彩专题
友情链接:
设为首页 - 加入收藏 Copyright @2016 Infocool 版权所有 粤ICP备16000626号