python写spark_使用Python的Spark:将RDD输出保存到文本文件中

news/2024/8/26 15:27:25

我正在使用

python尝试使用spark计算单词计数问题.但是当我尝试使用.saveAsTextFile命令将输出RDD保存在文本文件中时,我遇到了问题.这是我的代码.请帮我.我被卡住了.感谢您的时间.

import re

from pyspark import SparkConf , SparkContext

def normalizewords(text):

return re.compile(r'\W+',re.UNICODE).split(text.lower())

conf=SparkConf().setMaster("local[2]").setAppName("sorted result")

sc=SparkContext(conf=conf)

input=sc.textFile("file:///home/cloudera/PythonTask/sample.txt")

words=input.flatMap(normalizewords)

wordsCount=words.map(lambda x: (x,1)).reduceByKey(lambda x,y: x+y)

sortedwordsCount=wordsCount.map(lambda (x,y):(y,x)).sortByKey()

results=sortedwordsCount.collect()

for result in results:

count=str(result[0])

word=result[1].encode('ascii','ignore')

if(word):

print word +"\t\t"+ count

results.saveAsTextFile("/var/www/myoutput")


http://www.niftyadmin.cn/n/2610681.html

相关文章

mysql中使用limit 分页

一、mysql中limit语法 SELECT * FROM table LIMIT [offset,] rows | rows OFFSET offset 二、mysql中limit分页说明 1、LIMIT接受一个或两个数字参数。 2、参数必须是一个整数常量 3、如果给定两个参数,第一个参数指定返回记录行的偏移量…

还叫你爸爸

一家人去云南丽江 大理 在回旅馆楼梯上 儿子忧伤的说 等我长大了 你就变老了 爸爸 到时候 我还叫你爸爸

python程序片段编程题_基本编程题 --python

基本编程题 --python 1、让Python帮你随机选一个饮品吧! import random ​ listC [加多宝, 雪碧, 可乐, 勇闯天涯, 椰子汁] print(random.choices(listC), type(random.choices(listC))) # choices函数返回列表类型数据 print(random.choice(listC), type(random.c…

jQuery中height()、innerheight()、outerheight()有什么不同

一、jQuery 中 height() 获取匹配元素集合中的第一个元素的当前计算高度值,总是返回内容宽度 二、jQuery 中 innerheight() 包括padding,但是不包括border,即: height padding 三、jQuery 中 outerhei…

jquery如何遍历json字符串

对JSON字符串的遍历 var json [{"id":"1","tagName":"apple"},{"id":"2","tagName":"orange"}, {"id":"3","tagName":"banana"},{"id":…

python 3.6 + numpy + matplotlib + opencv + scipy 安装

首先,下载并安装 python3.6; 然后,在网址http://www.lfd.uci.edu/~gohlke/pythonlibs/ 上 分别下载 numpy、scipy、matplotlib、opencv 的安装包,可以看到包与包之间的依赖关系,以matplotlib为例,matplotli…

c语言3级菜单_送你一个超级简单但实用的程序模板,用于收集C语言知识点

前言好记性不如烂笔头,我们平时学习也应该多做一些记录,多整理自己所学的知识,以便之后有必要的时候可以回顾。以前我刚开始学习C语言的时候经常需要验证一些比较模糊的知识点,或则想要验证一些函数时,所以我每次都会建…

MVC中如何获取当前action、controller

1、在controller中获取 RouteData.Values["controller"] RouteData.Values["action"] 2、在视图中获取 ViewContext.RouteData.Values["controller"] ViewContext.RouteData.Values["action"] 3、例如 loca…