自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wzy0623的专栏

数据库、数据仓库、大数据

原创 基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化(二)

二、Hive、Spark SQL、Impala比较        Hive、Spark SQL和Impala三种分布式SQL查询引擎都是SQL-on-Hadoop解决方案,但又各有特点。前面已经讨论了Hive和Impala,本节先介绍一下SparkSQL,然后从功能、架构、使用场景几个角度比较这三...

2016-08-19 12:35:08

阅读数 29148

评论数 8

原创 基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化(一)

一、OLAP与Impala简介1. OLAP简介        OLAP是Online Analytical Processing的缩写,意为联机分析处理。此概念最早是由关系数据库之父E.F.Codd于1993年提出,至今已有20多年。OLAP允许以一种称为多维数据集的结构,访问业务数据源经过聚合...

2016-08-17 16:30:54

阅读数 15367

评论数 7

原创 基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化(六)

六、Hue数据可视化实例        本节用Impala、DB查询示例说明Hue的数据查询和可视化功能。1. Impala查询        在Impala OLAP实例一节中执行了一些查询,现在在Hue里执行查询,直观看一下结果的图形化表示效果。(1)登录Hue,点击图标进入“我的文档”页面。...

2016-08-31 16:16:51

阅读数 7124

评论数 4

原创 基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化(五)

五、Hue、Zeppelin比较        上一节简单介绍了Hue这种Hadoop生态圈的数据可视化组件,本节讨论另一种类似的产品——Zeppelin。首先介绍一下Zeppelin,然后说明其安装的详细步骤,之后演示如何在Zeppelin中添加MySQL翻译器,最后从功能、架构、使用场景几方面...

2016-08-30 16:17:47

阅读数 6774

评论数 5

原创 基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化(四)

四、数据可视化与Hue简介1. 数据可视化简介        数据可视化在维基百科上是这样定义的:指一种表示数据或信息的技术,它将数据或信息编码为包含在图形里的可见对象(如点、线、条等),目的是将信息更加清晰有效地传达给用户,是数据分析或数据科学的关键技术之一。简单地说,数据可视化就是以图形化方式...

2016-08-29 14:44:28

阅读数 6473

评论数 1

原创 基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化(三)

三、Impala OLAP实例        本节使用前面销售订单的例子说明如何使用Impala做OLAP类型的查询,以及实际遇到的问题及解决方案。为了处理SCD和行级更新,我们前面的ETL使用了Hive ORCFile格式的表,可惜到目前为止,Impala还不支持ORCFile。用Impala查...

2016-08-25 14:38:41

阅读数 5621

评论数 2

原创 基于hadoop生态圈的数据仓库实践 —— 进阶技术(十五)

十五、维度合并        随着数据仓库中维度的增加,我们会发现有些通用的数据存在于多个维度中。例如,客户维度的客户地址相关信息、送货地址相关信息和工厂维度里都有邮编、城市和州。本节说明如何把三个维度里的邮编相关信息合并到一个新的维度。1. 修改数据仓库模式        为了合并维度,需要改变...

2016-08-09 18:21:48

阅读数 5484

评论数 3

原创 基于Hadoop生态圈的数据仓库实践 —— 进阶技术(十)

十、杂项维度        本节讨论杂项维度。简单地说,杂项维度就是一种包含的数据具有很少可能值的维度。例如销售订单,它可能有很多离散数据(yes-no这种类型的值),如verification_ind(如果订单已经被审核,值为yes)credit_check_flag(表示此订单的客户信用状态是...

2016-08-01 16:16:40

阅读数 4792

评论数 0

原创 基于hadoop生态圈的数据仓库实践 —— 进阶技术(十七)

十七、分段维度        本节说明分段维度的实现技术。分段维度包含连续值的分段。例如,年度销售订单分段维度可能包含有叫做“低”、“中”、“高”的三档;各档定义分别为0.01到15000、15000.01到30000.00、30000.01到99999999.99。如果一个客户的年度销售订单金额...

2016-08-11 17:01:10

阅读数 4103

评论数 1

原创 基于Hadoop生态圈的数据仓库实践 —— 进阶技术(九)

九、退化维度        本节讨论一种称为退化维度的技术。该技术减少维度的数量,简化维度数据仓库模式。简单的模式比复杂的更容易理解,也有更好的查询性能。当一个维度没有数据仓库需要的任何数据时就可以退化此维度,此时需要把退化维度的相关数据迁移到事实表中,然后删除退化的维度。1. 退化订单维度   ...

2016-08-01 13:12:48

阅读数 4060

评论数 0

原创 基于Hadoop生态圈的数据仓库实践 —— 进阶技术(十二)

十二、间接数据源        本节讨论如何处理间接数据源。间接数据源与维度表具有不同的粒度,因此不能直接装载进数据仓库。在这里通过修改进阶技术(八)——“多路径和参差不齐的层次”里的促销源数据说明怎样处理间接数据源。CAMPAIGN SESSION,MONTH,YEAR 2016 First C...

2016-08-04 17:23:49

阅读数 3922

评论数 1

原创 基于Hadoop生态圈的数据仓库实践 —— 进阶技术(十四)

十四、迟到的事实        装载日期在生效日期后的事实就是迟到的事实。晚于订单日期进入源数据的销售订单可以看做是一个迟到事实的例子。销售订单被装载进其事实表时,装载的日期晚于销售订单的订单日期,因此是一个迟到的事实。(因为定期装载的是前一天的数据,所以这里的晚于指的是晚2天及其以上。)    ...

2016-08-08 18:12:57

阅读数 3706

评论数 2

原创 基于hadoop生态圈的数据仓库实践 —— 进阶技术(十六)

十六、累积的度量        本篇说明如何实现累积月底金额,并对数据仓库模式和初始装载、定期装载脚本做相应地修改。累积度量是半可加的,而且它的初始装载比前面做的要复杂的多。        可加、半可加、不可加事实        事实表中的数字度量可划分为三类。最灵活、最有用的度量是完全可加的,可...

2016-08-10 18:09:45

阅读数 3334

评论数 2

原创 基于Hadoop生态圈的数据仓库实践 —— 进阶技术(十三)

十三、无事实的事实表        本节讨论一种技术,用来处理源数据中没有度量的需求。例如,产品源数据不包含产品数量信息,如果系统需要得到产品的数量,很显然不能简单地从数据仓库中直接得到。这时就要用到无事实的事实表技术。使用此技术可以通过持续跟踪产品的发布来计算产品的数量。可以创建一个只有产品(计...

2016-08-05 15:31:51

阅读数 2741

评论数 0

原创 基于Hadoop生态圈的数据仓库实践 —— 进阶技术(十一)

十一、多重星型模式        从“进阶技术”开始,已经通过增加列和表扩展了数据仓库,在进阶技术(五) “快照”里增加了第二个事实表,month_end_sales_order_fact表。这之后数据仓库模式就有了两个事实表(第一个是在开始建立数据仓库时创建的sales_order_fact表)...

2016-08-04 14:26:03

阅读数 2436

评论数 1

提示
确定要删除当前文章?
取消 删除