注册 留言板
当前位置:首页 > 云计算/大数据 > Spark

Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
 

spark-streaming状态流之mapWithState

spark-streaming状态流之mapWithState

2017-01-25   作者:czmacd    浏览次数:0   

背景 刚接触spark-streaming,然后写了一个WordCount程序,对于不停流进来的数据,需要累加单词出现的次数,这时就需要把前一段时间的结果持久化,而不是数据计算过后就抛弃,在网上搜索到spark-streaming可以通过updateStateByKey和mapWithState来实

使用阿里云E-MapReduce遇到的那些坑

使用阿里云E-MapReduce遇到的那些坑

2017-01-25   作者:bob601450868    浏览次数:0   

  由于需要做实验来验证自己系统的scalability,实验室机器数又不够,所以选择用商业服务器来完成实验。 在AWS和阿里云之间选择了阿里云。在完成试验后对实验过程中遇到的那些坑进行了总结。   自己的实验主要是做一个分布式序列比对系统(DSA: Distributed Sequence Ali

spark操作读取hbase实例

spark操作读取hbase实例

2017-01-25   作者:bitcarmanlee    浏览次数:0   

博主项目实践中,经常需要用spark从hbase中读取数据。其中,spark的版本为1.6,hbase的版本为0.98。现在记录一下如何在spark中操作读取hbase中的数据。 对于这种操作型的需求,没有什么比直接上代码更简单明了的了。so,show me the code! object Dem

spark 运行的bug总结

spark 运行的bug总结

2017-01-24   作者:qq_34009542    浏览次数:2   

1,Diagnostics: Container [......] is running beyond physical memory limits. Current usage: 4.5G of  4.5 GB physical memory used ;6.2 GB of 9.4 GB virt

spark学习1

spark学习1

2017-01-24   作者:w616358337    浏览次数:1   

1.算子的分类 大致可以分为三大类算子。 1)Value数据类型的Transformation算子,这种变换并不触发提交 作业,针对处理的数据项是Value型的数据。 2)Key-Value数据类型的Transfromation算子,这种变换并不触发 提交作业,针对处理的数据项是Key-Value型

Spark_MLlib_数据类型

Spark_MLlib_数据类型

2017-01-24   作者:xf_87    浏览次数:0   

一、概述 MLlib支持在单独节点上存储本地向量(local vectors) 和矩阵(matrices),也可以依赖一个或更多的RDD来进行分布式的存储矩阵。本地向量和本地矩阵是作为公共接口的简单的数据模型。底层的线性代数操作由 Breeze 和 jblas 提供。在MLlib中,一个使用监督式学

基于Spark Streaming和Spark MLlib实现文本情感分析

基于Spark Streaming和Spark MLlib实现文本情感分析

2017-01-24   作者:zeb_perfect    浏览次数:0   

前言: 文章主要是学习实验楼《使用Spark MLlib进行情感分析》课程后的总结,这里只简单说明,没有具体操作步骤。代码和操作步骤可去课程实践获得,也可在我的资源下载中找到(资源中除课程介绍的随机森林模型训练数据方法,我还加入了自己学习使用朴素贝叶斯模型训练数据的方法)。项目实际利用推特上的数据结

Spark RDD生成HFile快速导入数据到HBase

Spark RDD生成HFile快速导入数据到HBase

2017-01-24   作者:qq_28890765    浏览次数:0   

Spark RDD生成HFile快速导入数据到HBase 主要思路 通过观察hbase regionserver对put操作的处理,可以发现,数据首先写入到 memstore,在达到指定大小后会调用StoreFile的Writer类将数据flush到存储设 备中,如果开启过压缩算法则会先执行相应的压

Hadoop完全分布式部署---Hadoop学习笔记(3)

Hadoop完全分布式部署---Hadoop学习笔记(3)

2017-01-24   作者:miaote    浏览次数:0   

    偶然看到家里的台式机闲置没用,于是索性想到了部署一次完全分布式的Hadoop试试看。本来伪分布式模式部署好了就用到现在,苦于装备条件不够,没办法实现真正的分布式运算。现在终于有时间又有机器,可以部署(折腾)一番。 我用的hadoop和spark是:    1. Hadoop-2.6.0  

使用Spark RDD实现HBase分布式scan

使用Spark RDD实现HBase分布式scan

2017-01-24   作者:qq_28890765    浏览次数:0   

使用Spark RDD实现hbase分布式Scan 主要思路 利用Spark RDD的分布式计算,将一个Scan任务按照自定义的范围切分为小的scan,使用这些RDD实现对scan的并行查询,提高查询效率。核心是手动实现RDD的compute方法与getPartitions方法。 关于Spark R

共332条记录 1/34页  首页 上一页 下一页 尾页  第
精彩专题
友情链接:
设为首页 - 加入收藏 Copyright @2016 Infocool 版权所有 粤ICP备16000626号