注册 留言板
当前位置:首页 > 云计算/大数据 > Spark

Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
 

Spark RDD 二次分组排序取TopK

Spark RDD 二次分组排序取TopK

2017-03-27   作者:wangpei1949    浏览次数:0   

基本需求   用spark求出每个院系每个班每个专业前3名。 样本数据   数据格式:id,studentId,language,math,english,classId,departmentId,即id,学号,语文,数学,外语,班级,院系 1,111,68,69,90,1班,经济系 2,112,7

Spark SQL中的broadcast join分析

Spark SQL中的broadcast join分析

2017-03-27   作者:dabokele    浏览次数:0   

  在Spark-1.6.2中,执行相同join查询语句,broadcast join模式下,DAG和执行时间如下图所示: 1、broadcast join (1)DAG          (2)执行时间 122 rows selected (22.709 seconds)    2、非broadc

pyspark调用jupyter notebook

pyspark调用jupyter notebook

2017-03-27   作者:qq_34493390    浏览次数:0   

spark性能优化(一)

spark性能优化(一)

2017-03-27   作者:monkeysheep1234    浏览次数:0   

性能优化概述: (随着自己学习,持续更新,让博客见证我的成长之路吧) spark计算本质基于内存,真正使用过的人,肯定遇到各种各样的性能问题,各种OOM;spark性能瓶颈很多:cpu、网络带宽、或者是内存等 数据量太大,内存放不下所有数据,需要对内存进行优化,比如使用些手段减少内存的消耗;内存容量

Spark性能优化——解决Spark数据倾斜

Spark性能优化——解决Spark数据倾斜

2017-03-26   作者:qq_21835703    浏览次数:0   

为何要处理数据倾斜(Data Skew)   什么是数据倾斜 对Spark/Hadoop这样的大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。 何谓数据倾斜?数据倾斜指的是,并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著多于其它部分,从而使得该部分的处

Spark之训练分类模型练习(1)

Spark之训练分类模型练习(1)

2017-03-26   作者:dataningwei    浏览次数:0   

本博文为 spark机器学习 第5章学习笔记。 所用数据下载地址为:实验数据集train.tsv 各列的数据意义为: “url” “urlid” “boilerplate” “alchemy_category” “alchemy_category_score” “avglinksize” “comm

数据倾斜解决方案

数据倾斜解决方案

2017-03-26   作者:qq_33580952    浏览次数:0   

什么是数据倾斜 对Spark/Hadoop这样的大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。 何谓数据倾斜?数据倾斜指的是,并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。 数据倾斜是如

2.sparkSQL--DataFrames与RDDs的相互转换

2.sparkSQL--DataFrames与RDDs的相互转换

2017-03-25   作者:本站编辑    浏览次数:0   

Spark SQL支持两种RDDs转换为DataFrames的方式 使用反射获取RDD内的Schema     当已知类的Schema的时候,使用这种基于反射的方法会让代码更加简洁而且效果也很好。 通过编程接口指定Schema     通过Spark SQL的接口创建RDD的Schema,这种方式会

spark-rdd-api

spark-rdd-api

2017-03-25   作者:qq_14950717    浏览次数:0   

RDD[T] Transformations persist/cache 缓存rdd(存储级别的不同 disk,disk-and-mem,mem ) map(f: T => U) 转换 keyBy(f: T => K) 特殊的map,提key作用于key-value 数据 flatMap(f: T

Spark的性能调优(1)

Spark的性能调优(1)

2017-03-25   作者:zccaogong    浏览次数:0   

下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。 基本概念和原则       首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起:       每一台host上面可以并行N个worker,每一个worker下面可以并行M个ex

共535条记录 1/54页  首页 上一页 下一页 尾页  第
精彩专题
友情链接:
设为首页 - 加入收藏 Copyright @2016 Infocool 版权所有 粤ICP备16000626号