目前的搜索引擎大致可分为三大类:分类编目搜索引擎(Directory Search Engine)、机器人搜索引擎(Robots Search Engine)和元搜索引擎(Meta Search Engine)。分类编目搜索引擎以Yahoo公司的Yahoo!为代表,机器人搜索引擎以Digital的AltaVista、Inktomi公司的HotBot为代表, 元搜索引擎以go2net的MetaCrawler为代表。
国外搜索引擎起步较早,功能全面,性能良好,但是它们的共同缺点是都不能很好地支持中文信息的发现和查询。虽然AltaVista、Yahoo等搜索引擎在1998年上半年宣布支持中文,但在对中文信息的处理上尚存在很多不足,如不能准确切词,不能在上下文环境中理解语义等等。
本文首先介绍了Internet及WWW的迅速发展状况,分析了Internet信息资源的特点。在介绍已有的搜索引擎之后,分析了这些搜索引擎的特点。
随后,本文对“天网”搜索引擎系统进行了介绍,给出了该系统的总体结构、技术特征,并分析了该系统的性能。
然后,文章介绍了“天网”系统中的信息统计子系统。信息统计子系统是为系统管理人员评估系统性能、维护系统效率、更好满足用户的查询要求而设计实现的。本文给出了信息统计子系统的总体结构,并详细介绍了该子系统的两个重要部分,数据库信息处理和日志文件信息处理的设计目标和实现算法,并介绍了如何让机器自动学习新词。