毕业设计在已有的基于Dom-Tree和启发式规则的网页信息提取算法的基础上,通过为所有符合W3C规范的Html标签分类,逐个分析各Html标签所包含的语义信息,细化规则设置,实现了一种自底向上的无信息遗漏的网页分块算法,并在此基础上,利用统计方法得到详细的概率分布数据,实现了文本相似度比较和Bayes后验概率估计两种网页主题内容信息块识别算法,并将其求交,提高了主题内容信息块的识别精确度。
本文提出了一套基于语义的网页分块和主题内容信息提取算法,在天网搜索引擎预处理模块中将其实现,并通过了SEWM2008中文Web信息检索评测项目的检验。在该套算法基础上,还实现了基于Map-Reduce的分布式QuarkRank算法,该算法改进了PageRank算法的效果。
1、基于语义的网页分块。提出了QuarkRecognizer算法,该算法详细剖析了所有符合W3C标准的Html标签的功能特性,将它们分为超级标签、大标签、排版标签、显示标签、附属标签、定制标签等六大类,按类处理,较好地实现了网页分块功能。该算法具有十分强的鲁棒性,能适应各种不常见的Html代码,同时将原先树型架构的网页语义块层次结构转换成为平行架构,各个语义块相互独立开来,方便在此基础上的应用。
2、网页主题内容信息提取。提出了QuarkAnalyzer算法,该算法是对文本相似度和Bayes后验概率估计两种方法的结合。文本相似度算法偏重于语义块内部的文字内容,是从文本的角度衡量一个语义块的重要程度;而Bayes后验概率估计算法提出的7条先验概率都反映的是语义块内部的结构信息,是从结构的角度衡量语义块的重要程度。两个算法分别计算主题内容信息块,然后求交,最后得到的信息块既能反映其文本的重要性,又能反映其内部结构的重要性,防止了单个算法可能导致的偏差,提高了网页主题内容信息提取的精度和召回率。
3、SEWM2008中文Web信息检索评测项目。本文介绍了这次评测项目的题目设计,测试集产生、评测方法和评测结果,检讨了这次评测的不足之处。通过这次评测,Quark算法的效果得到了检验,同时,受大连理工等参赛队伍的思路启发,我改进了Quark算法,提高了效率。
4、QuarkRank算法。QuarkRank算法起源于MSRA的BLPR算法,但后者不是分布式的。QuarkRank算法基于网络实验室的天网文件系统和Map-Reduce计算平台,本文描述了Map环节和Reduce环节的算法步骤。