广义的信息资源,应该定义为互联网上的一切信息,即所有存在于WWW上的文档。这些文档有些能通过浏览器浏览,有些则不能;有些存在于网站的数据库中,经过动态的请求方能生成,有些则是静态存在的且被其它网页链接到。搜索引擎当前所能搜集的绝大多数就是这种静态的网页,且在处理过程中进一步过滤掉了某些不可浏览的部分如可执行文件等。在这里,我们所研究的搜集系统覆盖目标是WWW上的所有静态网页,它们通常可通过浏览器显示内容,且其URL一般静态存在于其它网页中。我们可以从多个角度来考虑搜索引擎对WWW信息资源的覆盖程度。
搜集系统应该力图遍历WWW的所有网页,在数量这一角度上达到完全覆盖的程度。这提供一个衡量搜集系统覆盖WWW信息能力的全局标准。例如当前WWW上的网页估计约为2,500,000,000个[2] ,Google系统的网页搜集数量是2,073,418,204个[6] ,因此可以估计其数量覆盖率为百分之八十左右。如果系统的数量覆盖率足够高,我们就可以认为它基本上覆盖了WWW上的所有信息资源。高的数量覆盖率应该是任何一个搜集系统及以此为基础的网上信息博物馆的首要目标。
网上信息资源极为丰富,但也存在不少冗余,大量的广告页面和内容重复页面便是此例。即使去除这些冗余后,用户感兴趣的网页通常也只是数以十亿计的数量中的极少数。因此,考虑搜集系统在质量上对WWW网页的覆盖程度显得尤为重要。这一指标可以告诉我们,对那些用户会感兴趣的重要的网页,系统覆盖了其中的百分之几。从更深的层次来说,如果搜集系统覆盖了绝大多数的“重要”网页,它也就覆盖了当前社会信息在每一个重要主题上映射到WWW上的部分,成为它的一个有效特征子集。类似于 WebInfomall的系统如果将这些重要网页全部记录下来,以后就能通过历史网页回放来重现人类社会信息资源在时间和空间两维上的每一个角落。
从信息的表现形式来看,搜集系统当前存储的信息中相当一部分日后将是不可见的。这一方面是由于存储系统的资源所限,未能搜集类似于图片影音之类的大文档;另一方面是因为搜集技术的不成熟,无法获得类似于JavaScript、Applet等格式的网页。因此,考察搜集系统对可视网上信息资源的覆盖率,也有着积极的意义。它可以告诉我们当前所搜集到的网页当中,多大比例的一部分能够在若干年后通过浏览器重新浏览。
在本毕业论文的研究中,将对前面的两种进行详细的讨论和量化分析。