因特网中不同网页通过超文本链接协议(HTTP, HyperText Transfer Protocol)互相链接的结构构成一个有向图,其中以每个网页为顶点,网页之间的链接关系为有向边。网页搜集系统从其中一个顶点出发在图中进行遍历,每到达一个新的顶点便会将对应网页的内容抓取下来,并通过链接提取模块找到其中包含的新链接并提供给网页搜集系统。网页搜集系统便可以沿新的有向边继续上述的遍历过程了。整个过程可以是完全自动化的(只要提供一个起始的顶点,网页搜集系统就可以通过不断获取新链接自动地在因特网中进行遍历),然后索引器将搜集到的资源信息进行索引并存入数据库以备今后查询使用。
本文总结了设计链接提取模块所要求的“容错性”、“正确性”、“全面性”、“高效性”和“可扩展性”等五个目标,并从这些角度去分析传统的链接提取方法的不足,并作为改进,提出了一种新的设计思路。
本文将链接提取的过程划分为信息提取,信息加工,信息分析以及信息储存四个过程来进行研究。信息的获取通过HTML文法分析方法从文档中得到初始URI(Uniform Resource Indetifier)数据;信息加工阶段通过运用URI解析算法对初始数据进行精练;然后在信息分析过程中进一步地筛选与过滤;最后将结果存储在一个双链表结构中。
基于上述方法,本文实现了一个新的链接提取模型,并将该模型运用于北京大学天网WWW搜索引擎;在获得足够的实验数据之后,全面的比较了这种新的链接提取模式与传统方法在各项指标上的优劣。结果表明该模型有明显的优势。