在本文中我们对Web分析研究构造了一个基于时间、空间、内容的多维、多层次模型。首先我们从数据挖掘[12]和数据仓库[13]中引入维、层次和粒度的概念。
一般来说,维是关于一个组织想要记录的透视和实体。这个定义很抽象,我们举例说明:假如一个商店记录商品的销售情况,记录中会有这个商品的出售时间这个属性。商品的出售时间就是商品销售记录的一个维。
通常维的属性可以进行分层。概念分层定义了一个映射序列,将底层概念映射到更一般的高层概念。仍以上述的商品销售记录举例,对商品的出售时间,我们可以精确到的商品售出日期,如2003-5-18;我们也可以只记录商品的售出月份,如2003-5;若我们对商品售出时间不太关注,我们也可以只记录年份,如2003。这样商品出售的时间维上就出现一个层次划分:天、月、年。从左到右代表着更一般的概念。我们把相对左面的概念称为低层概念,把相对右面的概念称为高层概念。或简单的称之为较低层次或较高层次。
和层次相关的一个概念是粒度。粒度是指数据单元的细节程度或综合程度的级别。细节程度越高,粒度级别就越低;相反,细节程度越低,粒度级别就越高。如上述的商品销售记录中,如果我们记录每一件商品的出售情况,它就处于较低粒度级别;如果我们只记录每月所有商品出售情况的汇总,则它就处于一个较高的粒度级别。
我们给出的Web分析模型(如图1),记录了Web在时间、空间和内容三个维上的信息,在每个维上又可划分为不同的层次,允许分析者根据不同的分析需求选择不同的粒度进行研究。在下面几个小节中,我们分别阐释Web在时间、空间和内容维上的特征。