万维网在人们生活中扮演着越来越重要的角色,随着万维网信息量的不断膨胀,搜索引擎显现出它无可替代的应用价值和随之产生的商业契机。研究机构和商业公司都对Web信息检索的研究投入了大量的精力,但对于如何保存易失的以网页为载体的宝贵信息,如何利用这些信息提供公共信息服务却没有给予充分的重视。本文试图从实际出发,对这一课题做了一些有益的探讨和尝试。
本文第二部分在对InfoMall系统数据和应用前景细致分析的基础上,提出和定义了InfoMall数据检索服务,定义了服务原语,设计了服务的实现。本文的第三部分重点讨论了利用压缩技术减少全文索引的倒排文件索引的大小,为海量历史网页数据的检索服务提供现实可行的基础设施保障。
计算机毕业论文通过对InfoMall网页信息博物馆的数据需求的分析,利用基于时间、空间、内容的网页数据三维模型,设计了InfoMall数据检索服务,并规约了服务原语,设计了系统组成。例如,利用我们提供的服务,用户可以查询“1997年2月到2005年2月期间内蒙古自治区范围内所有*.gov.cn域名下内容包含‘民主’的网页文档的全文”。毕业论文设计和实现了InfoMall数据检索服务的系统组成中的主要模块――全文索引系统。我们主要针对InfoMall数据的特点和数据检索服务的需求,在空间利用率和系统灵活性两个方面做了探讨和优化。