Spark 调优 ——cache(persist)与 checkpoint_五道口纳什的博客-程序员秘密

技术标签: Hadoop-Scala-Spark  

  • cache 是对 persist 的进一步调用;

1. 为什么要 checkpoint

  • 为了保证数据安全性,需要对运行出的中间结果进行 checkpoint
    • 最好将结果 checkpoint 到 hdfs,便于集群所有节点进行访问;
  • checkpoint 之前先进行 cache(persist),将数据放在缓存中
  • 什么时候 checkpoint:
    • 在发生 shuffle 之后做 checkpoint

2. checkpoint 的步骤

  • 建立 checkpoint 存储目录:
    • sc.setCheckpointDir(“hdfs://node01.9000/ck”)
  • rdd1.cache()
  • rdd1.checkpoint()
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/lanchunhui/article/details/86439632

智能推荐

MVC三层模型(struts+spring+hibernate)总结_dos_186的博客-程序员秘密

简单的说:struts 控制用的hibernate 操作数据库的spring 用解耦的详细的说:STRUTS 在 SSH 框架中起控制的作用 , 其核心是 Controller, 即 ActionServlet, 而 ActionServlet 的核心就是 Struts-confi g.xml. 主要控制逻辑关系的处理 .hibernate 是数据持

非码农也能看懂的“机器学习”原理_weixin_34291004的博客-程序员秘密

  我们先来说个老生常谈的情景:某天你去买芒果,小贩摊了满满一车芒果,你一个个选好,拿给小贩称重,然后论斤付钱。自然,你的目标是那些最甜最成熟的芒果,那怎么选呢?你想起来,啊外婆说过,明黄色的比淡黄色的甜。你就设了条标准:只选明黄色的芒果。于是按颜色挑好、付钱、回家。啊哈,人生完整了?呵呵呵。告诉你吧人生就是各种麻烦等你回到家,尝了下芒果。有些确实挺甜,有些就不行了。额~显然,外婆教...

打算从今天开始写一写视频标准HEVC HM代码的学习的总结了_hevc hm流程_「已注销」的博客-程序员秘密

由于之前没有写过C程序,现在读研了,发现要学的东西全是要用C++,算法之类的东西,不学没有办法了。还要兼顾硬件逻辑语言。。。。开始真的好难。所以借以此博客作为开始。关于HEVC前一段研究明白了熵编码CABAC部分。改了一部分代码。然后学习了国内的视频标准AVS的熵编码部分代码。因为AVS很少人研究,只能看标准和RM代码,花了很多时间,尤其在代码不是熟悉的情况下。详细的内

Solr 7.2.1 配置中文分词器 IK Analyzer_appleyk的博客-程序员秘密

一、什么是中文分词器?为什么不来个英文分词器呢?“嘿,小伙子,就是你,说的就是你,你那么有才咋不上天呢!”首先我们来拽一句英文:“He is my favorite NBA star”然后我们再来一句中文:“他是我最喜欢的NBA球星”从英文的结构我们很容易区分每个单词,因为,每个单词之间都是空格隔开的,你肯定不会这样写

docker 拷贝文件失败_Ternence_Hsu的博客-程序员秘密

docker 拷贝文件报错错误信息如下:$ docker cp test.txt mydocker:/optFATA[0000] Error: Path not specifieddocker 拷贝文件错误原因因为 docker 1.6的版本还不支持 docker cp 文件的功能,升级到最新的版本就可以了更新前:$ docker -vDocker version 1.6.2...

随便推点

聊一聊Java中的GUI编程_TJ统计的博客-程序员秘密

l图形用户界面(GUI,Graphical User Interface)使用图形的方式,借助菜单、按钮等标准界面元素和鼠标操作,帮助用户方便地向计算机系统发送指令,启动操作,并将系统运行的结果同样以图形方式显示给用户。图形用户界面操作简单,省去了字符界面用户必须记忆各种命令的麻烦,深受广大用户的喜爱和欢迎。所以学习设计和开发图形用户界面,是应用软件开发人员必修的一课。图形用户界面的概念...

Vue2 Element Vite2 整合问题解决_path-browserify_浮生成诗的博客-程序员秘密

突然想在Vue2 老项目中使用 Vite2,比较 Vite2 是那么的快准狠。在这里记录一下过程中遇到的一些问题1. 整合 Vite2在gayHub 上有大神做了个由 webpack 转换到 vite 的插件 (https://github.com/originjs/webpack-to-vite),致敬一下,这里就直接用吧2. 整合 Element UI 的问题Scss 的整合整合 Vite 后会发现 scss 中的 :export就不好使了,例如:Vite2 默认不支持超过预处理器的.

origin绘图同时添加柱状图和折线图_origin柱状图加折线图_工科pai的博客-程序员秘密

在绘制数据图时,为了清晰反应不同数据之间的关系,往往需要在同一个图中同时添加柱状图和点线图。这时候需要左右两个纵坐标。下面介绍这种图的绘制方法1、首先绘制一个柱状图,具体绘制方法可以参考上一篇博客:origin绘图软件安装包及入门使用2在图的右侧插入刻度线,插入顺序如下图所示,点击图-->新图层(轴)-->右Y轴3、添加完后双击右侧刻度线修改刻度的起始值和要插入的点线图数值范围对应4、插入折线图,选择图->添加点线图,从book中选择要绘制点线图的数据导入到右侧

SpringMVC+Ibatis架构_菜鸟攻城师的博客-程序员秘密

1: spring框架介绍Spring框架是一个分层架构,由7个定义好的模块组成。Spring模块构建在核心容器上,核心容器定义了创建、配置和管理bean的方式。每个模块的功能如下:核心容器:核心容器提供Spring框架的基本功能。核心容器的主要组件是BeanFactory,它是工厂模式的实现,BeanFactory使用控制反转(IoC)模式将应用程序的配置和依赖性规范与实

Python 面试中可能会被问到的30个问题_weixin_30851867的博客-程序员秘密

第一家公司问的题目1 简述解释型和编译型编程语言?解释型语言编写的程序不需要编译,在执行的时候,专门有一个解释器能够将VB语言翻译成机器语言,每个语句都是执行的时候才翻译。这样解释型语言每执行一次就要翻译一次,效率比较低。用编译型语言写的程序执行之前,需要一个专门的编译过程,通过编译系统,把源高级程序编译成为机器语言文件,翻译只做了一次,运行时不需要翻译,所以编译型语言的程序执行效率高,但也...

【pandas】[2] DataFrame 基础,创建DataFrame和增删改查基本操作(1)_百事悠弦的博客-程序员秘密

作者:lianghc地址:http://blog.csdn.net/zutsoft        DataFrame 是pandas最常用的数据结构,类似于数据库中的表,不过DataFrame不仅仅限制于2维,可以创建多维数据表。DataFrame既有行索引,也有列索引,可以看做是Series组成的字典,每个Series看做DataFrame的一个列。1.DataFrame创建

推荐文章

热门文章

相关标签