软工作业2:论文查重
github仓库地址:https://github.com/Chynsh/Chynsh/tree/main/3121005252/Paperchecker
作业要求
这个作业属于哪个课程 |
软件工程 |
这个作业要求在哪里 |
个人项目 |
这个作业的目标 |
设计一个论文查重算法,在答案文件中输出其重复率。 |
PSP表记录
PSP2.1 |
Personal Software Process Stages |
预估耗时(分钟) |
实际耗时(分钟) |
Planing |
计划 |
20 |
15 |
Estimat |
估计这个任务需要多少时间 |
480 |
600 |
Develop |
开发 |
240 |
330 |
Analysis |
需求分析(包括学习新技术) |
30 |
50 |
Design Spec |
生成设计文档 |
10 |
10 |
Design Review |
设计复审 |
10 |
5 |
Coding Standard |
代码规范 |
5 |
5 |
Design |
设计 |
20 |
25 |
Coding |
具体编码 |
120 |
200 |
Code Review |
代码复审 |
10 |
10 |
Test |
测试 |
10 |
10 |
Test Report |
测试报告 |
20 |
40 |
Size Measurement |
计算工作量 |
10 |
10 |
Postmortem & Process Improvement Plan |
事后总结, 并提出过程改进计划 |
20 |
20 |
|
合计 |
260 |
370 |
计算模块设计
-
基本思想
通过计算余弦相似度进行查重
-
Vector类设计和实现
- 实现了向量的基本运算
- 定义了一个列表参数,用于保存向量坐标
- 定义了构造摘要的函数,保存有文件的摘要向量
- 实现了余弦相似度的计算
- 进行了简单的文件读取
- 调用了Catcher类的similarTo()方法得出结果
计算结果