ETL即数据抽取(Extract)、转换(
(1)ETL的处理方式
本文所采用的ETL方法是数据库段区域中的ETL处理方式,
(2)ETL过程中实现数据清洗的实现方法
首先,在理解源数据的基础上实现数据表属性一致化。
其次,通过数据缩减,大幅度缩小数据量。由于源数据量很大,
最后,通过预先设定数据处理的可视化功能节点,
-----------
数据集成:快速实现ETL
ETL的质量问题具体表现为正确性、完整性、一致性、完备性、
实现ETL,首先要实现ETL转换的过程。
空值处理 可捕获字段空值,进行加载或替换为其他含义数据,
规范化数据格式 可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,
拆分数据 依据业务需求对字段可进行分解。例,主叫号 861084613409,可进行区域码和电话号码分解。
验证数据正确性 可利用Lookup及拆分功能进行数据验证。例如,
数据替换 对于因业务因素,可实现无效数据、缺失数据的替换。
Lookup 查获丢失数据 Lookup实现子查询,并返回用其他手段获取的缺失字段,
建立ETL过程的主外键约束 对无依赖性的非法数据,可替换或导出到错误数据文件中,
为了能更好地实现ETL,
第一,如果条件允许,可利用数据中转区对运营数据进行预处理,
第二,如果ETL的过程是主动“拉取”,而不是从内部“推送”,
第三,ETL之前应制定流程化的配置管理和标准协议;
第四,关键数据标准至关重要。目前,
ETL过程在很大程度上受企业对源数据的理解程度的影响,
管理简单;采用元数据方法,集中进行管理;接口、数据格式、
数据模型:标准定义数据
合理的业务模型设计对ETL至关重要。数据仓库是企业惟一、
模型的重要之处在于对数据做标准化定义,实现统一的编码、
元数据:拓展新型应用
对业务数据本身及其运行环境的描述与定义的数据,称之为元数据(
元数据的典型表现为对象的描述,即对数据库、表、列、列属性(
而元数据对于ETL的集中表现为:
ETL体系结构
下图为ETL体系结构,
ETL体系结构图
Design manager 提供一个图形化的映射环境,让开发者定义从源到目标的映射关系、
Meta data management 提供一个关于ETL设计和运行处理等相关定义、
Extract 通过接口提取源数据,例如ODBC、
Transform 开发者将提取的数据,按照业务需要转换为目标数据结构,
Load 加载经转换和汇总的数据到目标数据仓库中,
Transport services 利用网络协议或文件协议,在源和目标系统之间移动数据,
Administration and operation 可让管理员基于事件和时间进行调度、运行、监测ETL作业、