自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wzy0623的专栏

数据库、数据仓库、大数据

原创 第二本书出版啦!

        这是目前唯一一本介绍HAWQ技术的中文书。涵盖HAWQ技术解析、其上的数仓架构及实现、简单数据挖掘三部分,内容较为全面,每部分均有详细配置说明及示例代码。用不打折扣的SQL教据库玩转大数据,无论是学习、开发,还是部署、运行,HAWQ是你的效率之选!        我体验的HAWQ五...

2018-03-27 13:39:59

阅读数 1176

评论数 14

翻译 MADlib——基于SQL的数据挖掘解决方案(30)——模型评估之预测度量

一、预测度量        该模块提供了一组度量来评估模型预测的质量。除非另有说明,典型的函数将采用一组“预测”和“观察”值,并使用它们来计算所需的度量。所有功能都支持分组(混淆矩阵除外)。二、预测度量函数平均绝对误差:mean_abs_error(table_in, table_out,pred...

2018-03-16 11:36:37

阅读数 379

评论数 0

原创 MADlib——基于SQL的数据挖掘解决方案(29)——模型评估之交叉验证

        验证是评估数据挖掘模型对实际数据执行情况的过程。在将挖掘模型部署到生产环境之前,必须通过了解其质量和特征来对其进行验证,评估模型的准确性、可靠性和可用性。可以使用多种方法评估数据挖掘模型的质量和特征:使用统计信息有效性的各种度量值来确定数据或模型中是否存在问题。将数据划分为定型集和...

2018-03-16 11:15:24

阅读数 987

评论数 0

原创 MADlib——基于SQL的数据挖掘解决方案(28)——图算法之单源最短路径

        图算法指利用特制的线条算图求得答案的一种简便算法。无向图、有向图和网络能运用很多常用的图算法,其中主要包括各种遍历算法(这些遍历类似于树的遍历),寻找最短路径的算法,寻找网络中最低代价路径的算法。这些算法常被用以回答一些与图相关的问题,诸如图是否是连通的,图中两个顶点间的最短路径是...

2018-03-15 11:01:28

阅读数 564

评论数 0

原创 MADlib——基于SQL的数据挖掘解决方案(27)——关联规则之Apriori算法

        数据仓库或数据挖掘从业者一定对“啤酒与尿布”的故事不会陌生。这就是一个使用关联规则的经典案例。根据对超市顾客购买行为的数据挖掘发现,男顾客经常一起购买啤酒和尿布,于是经理决定将啤酒与尿布放置在一起,让顾客很容易在货架上看到,从而使销售额大幅度增长。关联规则挖掘在多个领域得到了广泛应...

2018-03-14 10:42:17

阅读数 641

评论数 0

原创 MADlib——基于SQL的数据挖掘解决方案(26)——聚类之k-means方法

        “物以类聚,人以群分”,其核心思想就是聚类。所谓聚类,就是将相似的事物聚集在一起,而将不相似的事物划分到不同的类别的过程,是数据分析中十分重要的一种手段。比如古典生物学中,人们通过物种的形貌特征将其分门别类,可以说就是一种朴素的人工聚类。如此,我们就可以将世界上纷繁复杂的信息,简化...

2018-03-13 12:36:44

阅读数 1003

评论数 1

原创 MADlib——基于SQL的数据挖掘解决方案(25)——分类之随机森林

一、随机森林简介1. 装袋        装袋(bagging)又称自助聚集(bootstrap aggregating),是一种根据均匀概率分布从数据集中重复抽样(有放回的)的技术。每个自助样本集都和原始数据集一样大。由于抽过程是有回放的,因此一些样本可能在同一训练数据集总出现多次,而其它一些却...

2018-03-12 18:14:48

阅读数 995

评论数 0

原创 MADlib——基于SQL的数据挖掘解决方案(24)——分类之决策树

一、决策树简介1. 决策树的基本概念        决策树(Decision Tree)又称为分类树(Classification Tree),是最为广泛的归纳推理算法之一,处理类别型或连续型变量的分类预测问题,可以用图形和if-then的规则表示模型,可读性较高。决策树模型通过不断地划分数据,使...

2018-03-10 09:26:18

阅读数 2310

评论数 0

原创 MADlib——基于SQL的数据挖掘解决方案(23)——分类之SVM

一、SVM简介        SVM法即支持向量机(Support Vector Machine,SVM)法,由Vapnik等人于1995年提出,具有相对优良的性能指标。该方法是建立在统计学理论基础上的机器学习方法。通过学习算法,SVM可以自动寻找那些对分类有较好区分能力的支持向量,由此构造出的分...

2018-03-08 10:52:11

阅读数 3220

评论数 2

原创 MADlib——基于SQL的数据挖掘解决方案(22)——分类之朴素贝叶斯

一、贝叶斯分类简介1.  贝叶斯分类原理        贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。贝叶斯分类是一种利用概率统计知识进行分类的算法,其分类原理是贝叶斯定理。贝叶斯定理是由18世纪概率论和决策论的早期研究者Thomas Bayes发明的,故用其名...

2018-03-06 14:49:24

阅读数 819

评论数 1

原创 MADlib——基于SQL的数据挖掘解决方案(21)——分类之KNN

一、分类方法概要 1.  分类的概念        数据挖掘中分类的目的是学会一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个。分类可描述如下:输入数据,或称训练集(Training Set),是由一条条数据库记录(Record)组成的。每一条记录包含若干个属性(Attr...

2018-03-05 11:06:26

阅读数 1468

评论数 0

提示
确定要删除当前文章?
取消 删除