我这次毕业设计的主要任务是:
考察现在面向主题的搜集系统所采用的各种,对各种算法,有大概的了解,同时对其进行初步的分析,把其结合进目前的”天网搜索引擎”系统中来,实现一个 基于天网的面向主题的搜索引擎.
通过一些考察,我发现现在面向主题, 是搜索引擎发展的必然趋势.现在的网络发展这么快,仅靠我们已有的基于robot的搜索引擎,每次的用户检索,必然返回成千上万的结果.让用户在这样庞大的结果中找寻他所需要的东西,真是 让人望而却步.
因此,我们有必要 把面向对象和现在的robot 搜索引擎结合起来, 也就是新一代的目录型的搜索引擎. 但是我们的目录型,和以往的目录型最大的差别是,我们是用面向对象的搜集系统来进行网页分类,而不像从前是用人工分类.
目前我们可以看到各大网站都相继退出了分类目录,google也刚刚推出了目录式的分类目录.
因此我们完全有必要 发展面向主题的搜集
在对各种面向主题的搜集系统的考察中,我发现, 大多数面向主题的系统都分为三个部分
1. 搜集例子网页
2. 提取特征信息
3. 根据特征信息进行搜集
通过实现了一个系统,在对系统结果进行分析的过程(参见$4.4小节),我们可以得出一下有用的结论:
面向主题搜集系统的网络覆盖率是远远大于通用的搜索引擎,因此它可以
也就是说,.面向主题能够在尽可能短的时间内覆盖尽可能大的网络范围,把主题相关的网页,搜集完全.