毕业论文研究的主要内容
由于多数搜索引擎返回结果界面是一个个独立的网页,而不是网页集。所以本文中,我们主要分析针对单个网页的近似镜像网页检测算法。关于针对网页集的近似镜像网页集的检测算法,可以参考[Cho, et al., 2000]。
我们首先分析了近似镜像网页的含义,明确了相同和相似网页的定义,并在此定义的基础上,提出了一种全文分块签名的多指纹近似镜像网页检测算法。该算法利用网页的标签树结构选取文本块生成MD5指纹序列,先通过部分MD5的预消重处理,然后将预消重处理的结果网页对两两比较得到算法的最终结果。设网页个数为N,每个网页的MD5序列长度为m,则算法的时间和空间复杂度分别是 和 。
然后我们设定了针对近似镜像网页检测算法的评测与比较方法。该方法延续了传统的近似镜像网页检测算法的评测方法,并且重点分析了不同近似镜像检测算法结果的差集,提出了相对精确比ρ的概念,并以次作为算法优劣性的评判标准。
最后,本文在1,000,000网页的数据集内评测了全文分块签名的多指纹近似将向网页检测算法的性能,并利用天网现用的近似镜像网页检测算法作为基准程序,进行了优劣性的对比分析。
在第二章中,我们介绍了相关的研究工作,并提出了本文的贡献。在第三章中,我们讨论了网页的相似性标准。然后在第四章中,我们介绍了本文所使用的近似镜像网页检测算法。在第五章中,我们分析了如何评测近似镜像网页检测算法的性能。以及在第六章中,我们分析了实验数据并得出了结论。