假期学习【五】RDD编程实验四

news/2024/7/7 19:38:08

今天完成了实验四的第二问和第三问

第二题

对于两个输入文件 A 和 B,编写 Spark 独立应用程序,对两个文件进行合并,并剔除其
中重复的内容,得到一个新文件 C。下面是输入文件和输出文件的一个样例,供参考。
输入文件 A 的样例如下:
20170101 x
20170102 y
20170103 x
20170104 y
20170105 z
20170106 z
输入文件 B 的样例如下:
20170101 y
20170102 y
20170103 x
20170104 z
20170105 y
根据输入的文件 A 和 B 合并得到的输出文件 C 的样例如下:
20170101 x
20170101 y
20170102 y
20170103 x
20170104 y
20170104 z
20170105 y
20170105 z
20170106 z

 

 源代码如下

 

 实验结果:

 

 第三题

每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生
名字,第二个是学生的成绩;编写 Spark 独立应用程序求出所有学生的平均成绩,并输出到
一个新文件中。下面是输入文件和输出文件的一个样例,供参考。
Algorithm 成绩:
小明 92
小红 87
小新 82
小丽 90
Database 成绩:
小明 95
小红 81
小新 89
小丽 85
Python 成绩:
小明 82
小红 83
小新 94
小丽 91
平均成绩如下:
(小红,83.67)
(小新,88.33)
(小明,89.67)
(小丽,88.67)
 
源代码如下:

 

 运行结果:

 

 


http://www.niftyadmin.cn/n/2762485.html

相关文章

microsoft office 2010 完全 卸载 工具 来自微软官方

来自微软自家的Office卸载工具,支持Office 2010卸载 。可以彻底解决Office卸载不了或卸载不干净的问题。下载地址: http://www.400gb.com/file/119385617 另有如下,在我的其它文章里。

加一度强烈推荐:信息流广告精准投放大杀器

最近,在信息流群中,经常看到有人抱怨说“信息流客户商品量大,每天光上创意就累死了,效果还不好优化,流量也明显偏低”。 所以,对此加一度向大家推荐一款信息流产品——闪投。不仅能解决人力成本高的问题&am…

SAP S4 实施 会计科目表的实施方法论

会计科目表是财务配置和开发的基础,会计科目表确定的越晚对项目的不利影响越大。 实施过程中,在系统配置前 就要完成会计科目表设计以及新旧系统的会计科目映射工作,后续新旧系统的会计科目表保持同步更新,这样才是一个正常的项目…

假期学习【六】Python网络爬虫2020.2.4

今天通过Python网络爬虫视频复习了一下以前初学的网络爬虫,了解了网络爬虫的相关规范。 案例:京东的Robots协议 https://www.jd.com/robots.txt 说明可以爬虫的范围 #注释. *代表所有 /代表根目录 robots协议 http://www.baidu.com/robots.txt 百度 http…

HDU 1283 最简单的计算机

最简单的计算机 Problem Description 一个名叫是PigHeadThree的研究组织设计了一台实验用的计算机,命名为PpMm。PpMm只能执行简单的六种命令A,B,C,D,E,F;只有二个内存M1,M2&#xff…

javascript中的原形继承(一)

“面向对象”有三种基本特性,即封装、继承和多态。一般来说,三个特性都完全满足的话,我们称之为“面向对象语言”,而称满足部分特性的语言为“基于对象语言”。“对象系统”的继承特性,有三种实现方案,包括…

会计科目主数据 由非成本要素变为成本要素

会计科目主数据发生业务后,变更为“成本要素”是可行的。 但是从成本要素变为非成本要素是不可行的。

如何实现网页在线咨询框架

在这pop800网站。下一个client&#xff0c;哦&#xff0c;记得要申请一个帐号&#xff1b;注册后&#xff0c;它有可能获得一个代码&#xff0c;<div class"service"> <script language"javascript" src"http://api.pop800.com/800.js?n144…