系统设计目标
1.开发能支持HTTP,NEWS协议的信息发现系统。
2.设计具有高度智能性和适应性的信息发现方法。
3.支持多种汉字编码,如HZ、GB、BIG5等。
4.使用中文分词技术,提取中文摘要和关键词,使中文信息的分析和索引更为有效。
5.跟踪研究HTML、HTTP等相关协议和技术,尽量支持最新的Internet标准。
6.设计开发大型信息索引数据库,及相关的高效的管理和检索算法。
7.开发WWW、EMAIL两种用户访问接口。用户既可以使用任何WWW浏览器进行访问,也可通过发EMAIL来检索。不需要专门的客户程序。
8.开发提供一定的URL映像功能。用户可以直接从本服务器下载已映像的URL的内容,无须再访问原URL。这能在一定程度上减少网络流量。
9.开发跟踪检索功能。能根据用户需要,对某方面的信息进行跟踪查找,定期将新发现的信息用EMAIL通知用户。
10.为用户开发一些信息发现的实用工具程序。
§2.2 系统总体结构
如图2.1所示(下页),系统由HTML存取分析子系统,NEWS存取分析子系统,主控子系统,索引数据库子系统,检索接口子系统,在加上图上未表示出的转接层子系统共6个子系统组成。系统内含有三个数据库,即素材数据库DB1,素材数据库DB2,和索引数据库。
系统运转时序如下:
第一步:主控子系统控制HTML、NEWS存取分析子系统从WWW和NEWS服务器上获得原始信息,并存入素材数据库DB1和DB2。
第二步:索引数据库子系统从素材数据库DB1和DB2中取出原始信息,分析整理后生成索引数据库。
第三步:接收到用户的WWW或E-mail格式的检索要求,检索接口子系统通过索引数据库子系统得到检索结果,输出给用户。