考生文件夹下,存在2个Python源文件和1个文本文件。其中,2个Python源文件对应2个问题,文本文件
“data.txt” 中包含一篇从互联网上下载的关于“德国工业4.0战略规划实施建议摘要”的文章。请分别补充2个
Python源文件,完成以下功能。
问题1:文件内容清洗。要求:在文件PY301-1.py中补充代码,对文件da.txt的内容进行清理,去除中文
标点符号,只保留中文、英文、数字、英文标点符号等字符,将结果输出到文件clean.txt中。示列如下:
德国工业4.0战略计划实施建议摘编机械工业信息研究院战略与规化研究所-德国实施工业… (略)
问题2:提取主题词及其出现频次。要求:在文件PY301-2.py中补 充代码,提取clean.txt文 件中长度不少于
3个字符的词语并统计词频,将词频最高的10个词语作为主题词,并将主题词及其频次输出到屏幕。示例如
下:
4.0:10,制造业.9…(略)
注意:输出格式采用英文冒号和英文逗号,标点符号前后无空格,各词语中间用逗号分隔,最后一个词
语后无逗号。
参考答案
import jieba fi=open("clean.txt","r",encoding='utf-8') data=fi.read() fi.close() ls=jieba.lcut(data) d = {}##d:{'4.0': 80, '研究院': 1,... } for i in ls: if len(i)>=3: d[i]=d.get(i,0)+1 lt = list(d.items()) lt.sort(key = lambda x:x[1],reverse = True) #lt:[('4.0', 80), ('CPS', 19)...] s="" for l in lt[:10]: s+="{}:{},".format(l[0],l[1]) print(s.rstrip(","))
《 阿福课堂官方网站》免责声明:
1、因考试政策、内容不断变化与调整,本网站提供的以上信息仅供参考,如有异议,请考生以权威部门公布的内容为准!
2、本网信息来源为其他媒体的稿件转载,免费转载出于非商业性学习目的,版权归原作者所有,如有内容与版权问题等请与本站联系。联系邮箱:1225682794@qq.com。