本文阐述了第四代搜索引擎天网主题搜索引擎的设计与实现,并着重分析了导向词、特征提取、权威和中心网页、超链分析以及网页评分等多种搜集策略的运用。论文最后定义了独创的“主题度”来衡量主题搜索引擎的性能,一个搜索引擎在一个主题下的主题度越高,证明这个搜索引擎越贴近这个主题,用户就越容易找到跟这个主题相关的资料。 有了“主题度”,就可以很容易的比较使用多种搜集策略以后的天网主题搜索引擎与原天网通用搜索引擎的差别,说明了前者在特定的主题下要比后者更准确贴切。
本文以搜索引擎的发展历史开始,介绍了前三代搜索引擎的特点和性能,并从它们的不足和网络的发展状况引出了第四代搜索引擎——主题搜索引擎的产生背景和现实需要。
接着论文阐述了主题搜索引擎区别于传统的前三代搜索引擎的重要特征,即导向词、特征提取、权威和中心网页、超链分析以及网页评分等多种搜集策略在主题搜索引擎的设计中的运用。在这些策略的基础上,本文描述了对原天网通用搜索引擎的搜索器和主控程序的重新设计,体现了一个完整的主题搜索引擎的实现过程。
论文最后定义了独创的“主题度”来衡量主题搜索引擎的性能,一个搜索引擎在一个主题下的主题度越高,证明这个搜索引擎越贴近这个主题,用户就越容易找到跟这个主题相关的资料。 有了“主题度”,就可以很容易的比较使用多种搜集策略以后的天网主题搜索引擎与原天网通用搜索引擎的差别,说明了前者在一个特定的主题下比后者要准确贴切,这样,用户就能更快的找到需要的信息。
由此可以总结出第四代搜索引擎——主题搜索引擎的重要特征:
1. 分类细致精确;
2. 对硬件要求低;
3. 数据全面深入;
4. 更新及时。