2017最新注册送金娱乐网

Spark 编程 spark 简介 Spark 是一个通用的大数据计算平台,基于“one Stack to rule them all”的理念成功 成为了一个多元化的大数据处理平台, 轻松应对大数据处理中的实时流计算、 SQL 交互式查询、机器学习和图计算等。

术语     RDD - resillient distributed et 弹性分布式数据集 Application 创建了 SparkContext 实例对象的 Spark 用户,包含了 Driver 程序 Operation - 作用于 RDD 的各种操作分为 transformation 和 action Job - 作业,一个 JOB 包含多个 RDD 及作用于相应 RDD 上的各种 operation 和 spark 的 action 相对应,每一个 action 例如 count、saveAsTextFile 等都会 对应一个 Job 实例,该 Job 实例包含多任务的并行计算。

Stage - 一个 Job 会被拆分成很多任务,每一组任务被称为 Stage,划分 Stage 的依据在于: Stage 开始一般是由于读取外部数据或者 Shuffle 数据、 一个 Stage 的结束一般是由于发生 Shuffle 结束或者整个 Job 结束。

Partition - 数据分区,一个 RDD 中的数据可以分成多个不同的区 DAG - Directed Acycle graph, 有向无环图,反应 RDD 之间的依赖关系 Narrow dependency - 窄依赖,子 RDD 依赖于父 RDD 中固定的 data partition Wide Dependency - 宽依赖, 子 RDD 对父 RDD 中的所有 data partition 都有依 赖 Caching Managenment - 缓存管理,对 RDD 的中间计算结果进行缓存管理以 加快整体的处理速度       RDD RDD 源码 RDD 主要分为两种:

其中的 transformations 是 lazy execution 的, 需要具体的 action 去触发, 每个 action 操作都是一个单独的 job。

Transformations map(func) 数据集中的每条元素经过 func 函数转换 后形成一个新的分布式数据集 filter(func) 数据集中让 func 函数返回值为 true 的元 素形成一个新的分布式数据集 flatMap(func) 类似于 map, 但是每个输入元素可能会被 映射为 0 到多个元素 sample groupByKey 按照 key 进行分组,即在一个由(K,V)对组 成的数据集上调用,返回一个 (K,Seq[V]) 对的数据集 reduceByKey(func 类似于 MapReduce 中的 Reduce 阶段,将 ) 数据按照 key 分组后, 调用 func 函数处理 Union 合并两个数据集 Join(otheret 根据 Key 连接两个数据集,即将类型为 ) (K,V) 和 (K,W) 类 型 的 数 据 集 合 并 成 一 个 (K,(V,W))类型数据集 Cogroup 根据 Key 连接两个数据集,即将类型为 (K,V) 和 (K,W) 类 型 的 数 据 集 合 并 成 一 个 (K,(Seq[V],Seq[W]))类型数据集 crossProduct mapValues(func) (K,V)经过 func 函数转换为(K,W) Sort partitionBy sortByKey([ascen 按照 Key 对数据集进行排序,其中参数 dingOrder]) ascendingOrder 决定升序还是降序 Actions Count 返回数据集的元素个数 countByKey 只能用于(K,V)类型的 RDD 数据集, 它能够 按照 Key 分组,并每个组的元素目, 即针对每个 Key 返回一个(K,Int)对

Collect Reduce(func) Lookup(key) saveAsTextFile 在驱动程序中以数组的形式返回数据集 的所有元素。

这通常在 filter 或者其他操 作后调用,返回一个足够小的数据子集 通过函数 func 对数据集中所有元素进行 规约操作。

func 函数接受两个参数并返回 一个值。

需要注意的是,这个函数必须具 有可交换性和关联性, 以确保可以被正确 地并发执行 根据 key 查找所有的 value

运行的时候以 RDD 为抽象并行化运行

RDD 在持久化的时候需要考虑内存策略: Spark 了很多 StorageLevel 可供选择: RDD.cache = RDD.persist(StorageLevel.MEMORY_ONLY); RDD.persist(StorageLevel.MEMORY_ONLY);

作业调度 1、 构造 DAG 图 2、 把 DAG 图 split 分割成包含 task 的 stage(TaskSet) 3、 把 TaskSet 发送给管理节点 4、 管理节点把任务分配给工作节点 共享变量 广播变量:可以缓存到各个节点的内存中的变量。

通常为只读,类似于 Hadoop 中 DistributedCache 的数据。

累加器:只能用来做加法。

可以通过调用 SparkContext.accumulator(V)2017最新注册送金娱乐网来创 建计数器 (v 是初始值) 而运行在集群上的任务可以使用“加法”增加该值。

然后, 运算过程中, 这些任务不能读取累加器的值, 只有驱动程序, 可获取累加器的值。

分布式数据集 并行集合:并行集合是通过调用 SparkContext 的 parallelize 2017最新注册送金娱乐网,在一个已经存 在的 Scala 集合上创建而来。

集合的对象将会被复制成多份以创建一个分布式数 据集,进而实现并行处理。

Hadoop 数据集: 从任何存储在 HDFS 文件系统或者 Hadoop 支持的其他文件系统 (包括本地文件、Hbase 等)上的文件创建数据集。

  • spark编程模型

    spark编程模型

    spark编程模型...

    贡献者:网络收集
    620791
  • Spark多语言编程

    Spark多语言编程

    Spark多语言编程...

    贡献者:网络收集
    384649
  • spark编程指南中文

    spark编程指南中文

    spark编程指南中文...

    贡献者:网络收集
    76191
  • Spark实时流处理编程指南(v1.2.0)

    Spark实时流处理编程指南(v1.2.0)

    Spark实时流处理编程指南(v1.2.0)...

    贡献者:网络收集
    423884
  • Spark编程模型和解析

    Spark编程模型和解析

    Spark编程模型和解析...

    贡献者:网络收集
    98033
  • spark的函数式编程

    spark的函数式编程

    spark的函数式编程...

    贡献者:网络收集
    402891
  • Spark编程模型SparkShell

    Spark编程模型SparkShell

    Spark编程模型SparkShell...

    贡献者:网络收集
    129196
  • Spark Streaming编程指南

    Spark Streaming编程指南

    Spark Streaming编程指南...

    贡献者:网络收集
    479010
  • SCALA与SPARK编程基础

    SCALA与SPARK编程基础

    SCALA与SPARK编程基础...

    贡献者:网络收集
    930971
  • spark架构设计与编程模型-1

    spark架构设计与编程模型-1

    spark架构设计与编程模型-1...

    贡献者:网络收集
    298772
  • 网友在搜
    lol按空格走路发抖 国债利率上行 korea cam mimi sex kafka topic 消息数量 最伟大的门将 ps4三国志 亲子共读推荐书目 心理健康的重要性 内部分享站 声美e10和mx375 赞美古筝的诗朗诵 90级韩服金身审判刷图 r语言 rollmean ios http tcp socket linux启动字符界面 50美元怎么兑换人民币 saki s urabukkake 女生说我相信你 等级筹资理论 魔戒3免费 李白的故事100字 miaopai.in 我推荐西游记演讲稿 字画真伪鉴定 字画真伪鉴定 airport 搜索不到基站 VPN 禁令 2018 gbt 27405 2008 头上长头皮癣怎么办 淬火后铁碳合金相图 营养心脏血管的食物 dakitbn空调冷暖 linux documentroot apple pencil老断 魔古山宫殿在哪 baixar youtube 沈子瑜吉利副总裁 惠州仲恺汇港城评论 动漫资讯软件 画师pako是男是女 taigamepokemongo american blackjack 上海松江办健康证时间 jb qb ld128e m 云浮新兴招聘网21ccnn 赢星河资质 wholly moly公司 九江到湖口水下隧道 农村马拉车图片 穆里尔的婚礼影评 jquery获取被点击的li kafka消费不到数据 梦到房屋漏雨 ios2015版qq下载 sdrmn 128g1zed2df 内分泌失调的中成药 奔驰gla200隐qq功能 沙漠玫瑰吧

    声明:本站内容部分源于网络转载,出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,请咨询相关专业人士。

    如果无意之中侵犯了您的版权,或有意见、反馈或投诉等情况, 联系我们:点击这里给我发消息

    Copyright © 2016 All Rights Reserved 紫菜网 手机站