毕业论文题目:数据仓库的设计与实现
数据仓库技术
1 数据仓库的概念
目前并没有一个对于数据仓库的统一定义,但是一个被大多数人认可的描述性的定义是由美国著名工程学家W.H.Inmon在《Building Data Warehouse》中给出的:“数据仓库是一个面向主题的(subject-Oriented)、集成了的(Integrated)、相对稳定的(Non-volatile)和反映历史变化的(Time-variant)数据集合,用于对管理决策的支持。”这个定义给出了数据仓库系统的四大特征:
*数据仓库是面向主题的。主题是在较高的层次上的将企业信息系统中的数据综合、归类并进行分析利用的抽象,在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。每一个主题基本对应一类宏观的分析领域。面向主题,就是把数据按照主题进行重新组织,这样才能为该主题的决策过程提供快速的信息支持。我们应该按照分析决策的需求来划分主题,而不应该按照日常操作流程或者原有的事务型操作过程来划分上题。
*数据仓库是集成的。数据仓库中的数据可能要从多个异构的数据源中取得,这些异构数据源中的数据表示可能会有很多同名不同义、同义不同名的现象。集成时就要消除这些不同数据源中的歧义现象。此外,数据仓库中的数据可能要从不同数据源取得之后进行一些计算和综合,把原有的面向应用转变为面向主题的综合数据。
*数据仓库是相对稳定的。在数据库中的数据通常会不断发生变化的,用户会不断的增加、删除和修改数据。而在数据仓库中的数据是相对稳定的,通常的数据更新只有定期的数据加载。这是因为数据仓库中的数据反映的是企业长时间内的历史数据情况,它与操作型的数据相分离。
*数据仓库是反映历史变化的。数据仓库中的数据并不只是关于企业当前的信息,而是反映的企业长时间内的历史数据情况。
2数据仓库的体系
系统结构是建立数据仓库平台时始终贯彻的一个蓝图,它是一种底层基础,用来指导在建立数据仓库平台时所必须制定的大多数决策。成功建立一个高性能、可扩展的数据仓库平台,关键是要首先建立一个可扩展的结构。这种体系结构应该允许最大程度的性能和可扩展性,以适合数据量巨大和快速增长的数据仓库平台。如果使用一个较差的结构,那么在数据仓库生命周期的开始就会遇到种种局限性。通常可以将数据仓库的结构分为三层。
1) 三层结构的组成
第一层是由己经存在的操作型系统组成,它们主要是联机事务处理系统的日常业务数据。联机事务处理系统负责所有与业务用户的直接交互式操作,包括数据检索、增加、删除以及简单的报表生成与打印等。除此之外,还包括外部数据、遗留数据和一些其他的相关数据,其中外部数据包括一些人口统计信息,地理位置信息等,它们以一种不同的方式存储。这些都用来为数据仓库提供原始的数据。
第二层是一个企业级的中心数据仓库;
第三层是多个部门级的从属于中心数据仓库的数据集市;
数据仓库毕业设计的设计过程
开发数据仓库需要完成的工作包括:
1.数据仓库的规划。即建立开发数据仓库工程的目标及制定工程计划。计划包括数据范围、提供者、技术设备、资源、技能、组员培训、责任、方式方法、工程跟踪及详细工程调度。
2.选择实现数据仓库的软硬件资源。包括开发平台、DBMS、网络通信、开发工具、终端访问工具及建立服务水平目标如:可用性、装载、维护及查询性能等。
3.确定主题进行仓库结构设计。数据仓库是面向决策支持的,具有数据量大但更新不频繁等特点,所以必须对数据仓库进行精心设计,才能满足数据量快速增加而查询性能并不下降的要求。
4.数据仓库的物理库设计。基于用户的需求,着眼于某个主题,开发数据仓库中数据的物理存储结构。
5.数据抽取、精练、分布。根据数据仓库的设计,实现从源数据抽取数据、清理数据、综合数据和装载数据。
6.对数据仓库的OLAP访问。建立数据仓库的目的是要为决策支持服务,所以需要各种能对数据仓库进行访问分析的工具集,包括优化查询工具、统计分析工具、C/S工具及数据挖掘工具,通过分析工具实现决策支持需要。