首页
会员中心
到顶部
到尾部
计算机

搜索引擎研究基础—资源分布

时间:2020/10/27 9:20:17  作者:  来源:  查看:0  评论:0
内容摘要:        在本文中我们对Web分析研究构造了一个基于时间、空间、内容的多维、多层次模型。首先我们从数据挖掘[12]和数据仓库[13]中引入维、层次和粒度的概念。一般来说,维是关于一个组织想要记录的透视和实...

        在本文中我们对Web分析研究构造了一个基于时间、空间、内容的多维、多层次模型。首先我们从数据挖掘[12]和数据仓库[13]中引入维、层次和粒度的概念。
一般来说,维是关于一个组织想要记录的透视和实体。这个定义很抽象,我们举例说明:假如一个商店记录商品的销售情况,记录中会有这个商品的出售时间这个属性。商品的出售时间就是商品销售记录的一个维。
         通常维的属性可以进行分层。概念分层定义了一个映射序列,将底层概念映射到更一般的高层概念。仍以上述的商品销售记录举例,对商品的出售时间,我们可以精确到的商品售出日期,如2003-5-18;我们也可以只记录商品的售出月份,如2003-5;若我们对商品售出时间不太关注,我们也可以只记录年份,如2003。这样商品出售的时间维上就出现一个层次划分:天、月、年。从左到右代表着更一般的概念。我们把相对左面的概念称为低层概念,把相对右面的概念称为高层概念。或简单的称之为较低层次或较高层次。
          和层次相关的一个概念是粒度。粒度是指数据单元的细节程度或综合程度的级别。细节程度越高,粒度级别就越低;相反,细节程度越低,粒度级别就越高。如上述的商品销售记录中,如果我们记录每一件商品的出售情况,它就处于较低粒度级别;如果我们只记录每月所有商品出售情况的汇总,则它就处于一个较高的粒度级别。
          我们给出的Web分析模型(如图1),记录了Web在时间、空间和内容三个维上的信息,在每个维上又可划分为不同的层次,允许分析者根据不同的分析需求选择不同的粒度进行研究。在下面几个小节中,我们分别阐释Web在时间、空间和内容维上的特征。
 



相关评论
广告联系QQ:45157718 点击这里给我发消息 电话:13516821613 杭州余杭东港路118号雷恩国际科技创新园  网站技术支持:黄菊华互联网工作室 浙ICP备06056032号