博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
软件工程作业:项目1--文本词频统计
阅读量:4314 次
发布时间:2019-06-06

本文共 546 字,大约阅读时间需要 1 分钟。

要求:

写一个程序,分析一个文本文件中各个词出现的频率,并且把频率最高的10个词打印出来。文本文件大约是30KB~300KB大小。

本程序使用java编写,对中英文文本分词后用hashmap存储键值,然后对其排序输出前10个高频词。

程序主界面:

图一

通过下拉菜单“菜单”中打开文件的选项,选择需要打开分析的文件:

图二

程序会自动根据文本内容识别中英文,按下“统计”按钮后分析统计,在右侧显示结果:

图三

中文文本采用中科院的ICTCLAS进行分词,并滤去单个汉字及标点符号后进行统计,结果如下:

图四

点击“重置”会恢复到主界面(图一),然后再选择需要分析的文本,也可以直接在菜单中选择“退出”,退出程序。

用MS的visual studio2013的WPR记录CPU使用,并用WPA分析程序。

图五

javaw.exe应是我们要分析的程序:

图六

 

图七

不知道为什么,按照网上教程,并没有显示函数名以及堆栈具体内容,有待探索!

 

 

课外补充:

用到一种很巧妙的数据结构——单词树,优化了程序效率。

WPA、WPR用法

 

本人信息:

班级:0491101

学号:2011212007

 

转载于:https://www.cnblogs.com/SelLakeFish/p/3604199.html

你可能感兴趣的文章
Swift - 点击箭头旋转
查看>>
git配置
查看>>
【hexo】01安装
查看>>
CI框架源码学习笔记2——Common.php
查看>>
005---书籍添加和编辑的提交数据
查看>>
使用case语句给字体改变颜色
查看>>
JAVA基础-多线程
查看>>
面试题5:字符串替换空格
查看>>
JSP九大内置对象及四个作用域
查看>>
ConnectionString 属性尚未初始化
查看>>
数据结构-栈 C和C++的实现
查看>>
发布功能完成
查看>>
MySQL基本命令和常用数据库对象
查看>>
poj 1222 EXTENDED LIGHTS OUT(位运算+枚举)
查看>>
秘密:之所以不搞军事同盟,俄罗斯
查看>>
进程和线程概念及原理
查看>>
Lucene、ES好文章
查看>>
后视镜应该这样用!能帮避免80%的车祸!
查看>>
PDB调试python代码常用命令
查看>>
web性能优化-浏览器渲染原理
查看>>