数据仓库(六):概念设计

系统 1945 0

在数据集市设计中可以使用3种基本的系统方法:数据驱动的方法、需求驱动的方法和混合方法。它们的区别在于源数据库分析和终端用户需求分析阶段所占的比重。方法的选择将极大地影响概念设计的方式。

数据驱动方法包括:基于实体-关系模式的设计、基于关系模式的设计、基于XML模式的设计。概念型实体-关系模式比关系型逻辑模式更具表达力。因此通常认为前者是更好的设计源。但实际情况是公司经常无法提供精确完整的实体-关系模式(丢失、文档不完整或者其他原因)。那么就只能根据数据库的逻辑模式来做。另一方面,Web数据大部分是XML格式的,基于XML模式的设计可以从XML源的模式派生一个数据集市概念模式。

1 数据驱动方法设计

1.1 基于实体-关系模式的设计

在数据集市的符合维度事实模型(DFM)的概念设计中使用的基于实体-关系模式的技术包含以下步骤:

(1)定义事实。

(2)对于每个事实:

          a. 建立一个属性树。

          b. 修剪和移植属性树。

          c. 定义维度。

          d. 定义度量。

          e. 创建事实模式。

首先从数据源模式中选择相关事实。然后以半自动模式创建属性树。这是一个过渡结构,可用于确定事实模式的边界以清除不相关属性及修改链接到这些不相关属性的依赖关系(对应步骤(2).b)。 属性树 链接了数据集市和数据源模式。这个链接是 数据准备过程的关键 。之后将属性树转换为事实模式(步骤(2).e)就相对简单了。其中,步骤a基于一种算法;步骤cde基于属性的目标特性;步骤1和b需要深入理解公司的商业模型。

1.1.1 定义事实

事实通常对应于公司中动态发生的事件。在实体-关系模式中, 事实 可能对应着一个 实体 或者E1,E2,...,En实体间的n元 关系 R。对于后者,为简便起见,可将R转换为一个实体( 实体化过程 )。为此,添加一个新实体F,并使用F和Ei间的二元关系(Ri)替换R的每个分支。若使用min(E, A)和max(E, A)分别表示 最小基数等级 最大基数等级 (基数等级是指实体E在相应等级上参与关系A,通常min(E, A)∈{0, 1},max(E, A)∈{1, n}),则:min(F, Ri) = max(F, Ri) = 1, min(Ei, Ri) = min(Ei, R), max(Ei, Ri) = max(Ei, R)。

注意:有时不同的实体可能是表达个体事实的候选。建议选作事实的实体应该是构建包含尽可能多的属性的属性树的实体。

1.1.2 构建属性树

属性树

给定实体-关系数据源模式的一个相关部分,以及它的一个被分类为事实的实体F,属性树是满足以下要求的树:

 

  • 每个节点对应于一个数据源模式属性(简单或复合属性)。
  • 根对应于F实体的标识符。
  • 对于每个节点v,对应的属性通过函数决定了对应于v的后继的所有属性。

 


1.1.3 修剪和移植属性树


1.1.4 定义维度


1.1.5 定义度量


1.1.6 生成事实模式


1.2 基于关系模式的设计


1.3 基于XML模式的设计


2 混合方法设计


3 需求驱动方法设计


参考资料:

《数据仓库设计:现代原理与方法》Matteo Golfarelli,Stefano Rizzi著

 

数据仓库(六):概念设计


更多文章、技术交流、商务合作、联系博主

微信扫码或搜索:z360901061

微信扫一扫加我为好友

QQ号联系: 360901061

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧,狠狠点击下面给点支持吧,站长非常感激您!手机微信长按不能支付解决办法:请将微信支付二维码保存到相册,切换到微信,然后点击微信右上角扫一扫功能,选择支付二维码完成支付。

【本文对您有帮助就好】

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描上面二维码支持博主2元、5元、10元、自定义金额等您想捐的金额吧,站长会非常 感谢您的哦!!!

发表我的评论
最新评论 总共0条评论