微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

安装Spark与Python练习

一、安装Spark

检查基础环境hadoop,jdk

 

 

 

下载Spark

 

 

 

 

二.Python编程练习:英语文本的词频统计

代码

# 导入模块
# 导入字符串模块
import string

# 2读取文件,并分词
list_dict = {}  # 创建一个空字典,放词频与单词,无序排列
data = []  # 创建一个空列表,放词频与单词,有序:从多到少
f = open('test.txt', 'r')  # 打开文件
content = f.read()  # 读取文件
f.close()  # 关闭文件
content = content.replace('-', ' ')  # 连字符—用空格代替
words = content.split()  # 字符串按空格分割--分词

# 迭代处理:将字典变列表,存入数据
for i in range(len(words)):
    words[i] = words[i].strip(string.punctuation)  # 去掉标点符号,去掉首尾
    words[i] = words[i].lower()  # 统一大小写
    if words[i] in list_dict:  # 统计词频与单词
        list_dict[words[i]] = list_dict[words[i]] + 1  # 不是第一次
    else:
        list_dict[words[i]] = 1  # 第一次
# print(list_dict)  # 打印字典(词频与单词,无序)

# 遍历字典
for key, value in list_dict.items():  # 遍历字典
temp = [value, key] # 变量,变量值 data.append(temp) # 添加数据 data.sort(reverse=True) # 排序 print(data) # 打印列表(词频与单词,有序,从多到少)

结果:

 

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐