题目3.基于词频的文件相似度
【难度系数】3
【问题描述】
大家熟悉的文件查重系统,实际上就是计算2个文件的相似度。而实现一种简单原始的文件相似度计算,即以两文件的公共词汇占总词汇的比例来定义相似度。两文件的相似度,
即两文件的公共词汇量占两文件总词汇量的百分比。若相似度超过80%,则认为两文件为相似。本算法只计算英文文件相似度(中文的分词比较复杂)。本题要求建立一个倒排索引表存储分词后词汇。
文件请自选。
【基本要求】
命令1,用户输入2个文件名,导入文件到内存中,展示2个文件内容。
命令2,开始对文件分词,展示分词结果。
命令3,建立倒排索引表(设计哈希函数实现),展示索引结果。
命令4,展示2个文件的相似度及公共词汇。
命令5,退出系统运行。
链接:https://pan.baidu.com/s/1JJs9vbZahUCB6cQvXLgAVg?pwd=1111
提取码:1111