全国计算机二级Python第13套-综合应用-46-问题2

考生文件夹下,存在2个Python源文件和1个文本文件。其中,2个Python源文件对应2个问题,文本文件
“data.txt” 中包含一篇从互联网上下载的关于“德国工业4.0战略规划实施建议摘要”的文章。请分别补充2个
Python源文件,完成以下功能。
问题1:文件内容清洗。要求:在文件PY301-1.py中补充代码,对文件da.txt的内容进行清理,去除中文
标点符号,只保留中文、英文、数字、英文标点符号等字符,将结果输出到文件clean.txt中。示列如下:
德国工业4.0战略计划实施建议摘编机械工业信息研究院战略与规化研究所-德国实施工业… (略)
问题2:提取主题词及其出现频次。要求:在文件PY301-2.py中补 充代码,提取clean.txt文 件中长度不少于
3个字符的词语并统计词频,将词频最高的10个词语作为主题词,并将主题词及其频次输出到屏幕。示例如
下:
4.0:10,制造业.9…(略)
注意:输出格式采用英文冒号和英文逗号,标点符号前后无空格,各词语中间用逗号分隔,最后一个词
语后无逗号。

参考答案

import jieba
fi=open("clean.txt","r",encoding='utf-8')
data=fi.read()
fi.close()
ls=jieba.lcut(data)

d = {}##d:{'4.0': 80, '研究院': 1,... }
for i in ls:
if len(i)>=3:
d[i]=d.get(i,0)+1

lt = list(d.items())
lt.sort(key = lambda x:x[1],reverse = True)
#lt:[('4.0', 80), ('CPS', 19)...]
s=""
for l in lt[:10]:
s+="{}:{},".format(l[0],l[1])

print(s.rstrip(","))


转载请注明:文章转载自 阿福课堂 https://www.afuketang.com
阿福课堂官方网站》免责声明:
1、因考试政策、内容不断变化与调整,本网站提供的以上信息仅供参考,如有异议,请考生以权威部门公布的内容为准!
2、本网信息来源为其他媒体的稿件转载,免费转载出于非商业性学习目的,版权归原作者所有,如有内容与版权问题等请与本站联系。联系邮箱:1225682794@qq.com。
历年真题

全国计算机二级Python第13套-综合应用-46-问题1

2024-4-22 10:15:47

历年真题

全国计算机二级Python第14套-基本操作-41

2024-4-22 10:23:27

个人中心
购物车
优惠劵
今日签到
搜索