首页
会员中心
到顶部
到尾部
计算机

点击流数据仓库的设计与实现

时间:2020/10/27 9:20:32  作者:  来源:  查看:0  评论:0
内容摘要:        本课题的主要任务是在电子商务网站上收集到的点击流数据上构建数据仓库,即点击流数据仓库。文中,首先简单介绍点击流数据和数据仓库的基本概念,接着对点击流数据仓库中已有的两种星型模式—&m...

        本课题的主要任务是在电子商务网站上收集到的点击流数据上构建数据仓库,即点击流数据仓库。文中,首先简单介绍点击流数据和数据仓库的基本概念,接着对点击流数据仓库中已有的两种星型模式——点击星型模型和会话星型模型作简要分析,在此基础上提出建立一种新的用于事务分析的点击流数据模型——事务星型模型,并给出该模型具体的设计和实现方法。该模式与点击星型模型和会话星型模型的最显著的区别在于,该模式中一系列有意义的页面组合序列代替了单个点击序列,因而一方面提高了数据的查询性能,另一方面也有利于在其上直接进行更深层次的数据挖掘分析,简化了大量的数据预处理工作。
点击流数据仓库
        为了对点击流数据进行分析,通常需要为原始点击流数据建立数据仓库。这是因为,1)点击流数据来源与web服务器上原始的日志记录,对于一个较大的电子商务网站来说,每天将产生的数以百万条的日志记录,数据仓库本质上来说就是一种大型的数据库,因而能有效组织和管理大量的点击流数据;2)原始的点击流数据中含有一些无用的数据成分,因此在点击流数据分析之前,需要对其进行适当的预处理,数据仓库中的数据一般是经过抽取、转换、清洗与集成了的合成数据,因而在数据仓库上进行点击流数据分析可免去好多数据预处理的工作;3)数据仓库中集成了大量的历史数据,而点击流数据分析中好多也都与时间有关,如点击序列模式分析等。因此建立面向点击流的数据仓库,已成为点击流数据分析中的一个基本而重要的环节。
        因为Web日志蕴涵了大量的有用信息,因此记录和分析web日志数据已成为e企业的一项重大活动。国内外许多企业使用点击流数据仓库对原始的web日志数据进行处理,以便于利用联机分析处理和数据挖掘技术对点击流数据作进一步分析,从而为企业创造巨大的信息财富。
点击流数据
        简单来说,点击流数据就是指web服务器上一系列有序的日志记录。顾客从进入一个电子商务网站,到离开这个站点的一个访问周期中,所浏览的页面滞留时间、点击的链接和广告都会被顺序地记录在网站的日志文件中。这种有序的web日志记录形成了所谓的点击流数据。
       点击流数据从本质上来说仍是日志文件。一般来说,日志文件分为普通格式(Common Log Format,简称CLF)和扩展格式Extended Common Log Format,简称ECLF)两种

Tags:数据



相关评论
广告联系QQ:45157718 点击这里给我发消息 电话:13516821613 杭州余杭东港路118号雷恩国际科技创新园  网站技术支持:黄菊华互联网工作室 浙ICP备06056032号