自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wzy0623的专栏

数据库、数据仓库、大数据

原创 MADlib——基于SQL的数据挖掘解决方案(20)——时间序列分析之ARIMA

一、时间序列分析简介1. 时间序列的定义        所谓时间序列就是按照一定的时间间隔排列的一组数据,其时间间隔可以是任意的时间单位,如小时、日、周、月等。这一组数据可以表示各种各样的含义,如经济领域中每年的产值、国民收入、商品在市场的销量、股票数据的变化情况等;社会领域中某一地区的人口数、医...

2018-02-11 15:36:26

阅读数 1419

评论数 0

翻译 MADlib——基于SQL的数据挖掘解决方案(19)——回归之聚类方差

        Clustered Variance模块调整聚类的标准误。例如,将一个数据集合复制100次,不应该增加参数估计的精度,但是在符合独立同分布假设(Independent Identically Distributed,IID)下执行这个过程实际上会提高精度。另一个例子是在教育经济学的...

2018-02-08 13:45:39

阅读数 513

评论数 0

翻译 MADlib——基于SQL的数据挖掘解决方案(18)——回归之稳健方差

Robust Variance模块中的函数用于计算线性回归、逻辑回归、多类逻辑回归和Cox比例风险回归的稳健方差(Huber-White估计)。它们可用于计算具有潜在噪声异常值的数据集中数据的差异。此处实现的Huber-White与R模块“sandwich”中的“HC0”三明治操作完全相同。   ...

2018-02-07 14:56:36

阅读数 432

评论数 0

原创 MADlib——基于SQL的数据挖掘解决方案(17)——回归之Cox比例风险回归

一、Cox比例风险回归简介        Cox比例风险回归模型(Cox’s proportional hazards regression model),简称Cox回归模型,由英国统计学家D.R.Cox于1972年提出,主要用于肿瘤和其它慢性病的预后分析,也可用于队列研究的病因探索。 1.  基...

2018-02-06 11:39:18

阅读数 2613

评论数 0

原创 MADlib——基于SQL的数据挖掘解决方案(16)——回归之弹性网络回归

一、弹性网络回归简介        要想理解弹性网络(Elastic Net)回归,正则化是必须要首先知道的,其次是岭回归和Lasso回归,知道了这些,弹性网络回归自然也就明白了。 1.  正则化        假设利用最小二乘法来做线性回归,最小二乘法回归成功的条件是:        即上面这个...

2018-02-05 16:32:17

阅读数 878

评论数 0

原创 MADlib——基于SQL的数据挖掘解决方案(15)——回归之序数回归

上篇介绍的多类回归,因变量的多个分类是无序的,即所谓的定类数据。还有一种分类数据,其类别存在大小顺序,即定序数据。这两类逻辑回归的原理是不同的。本篇介绍MADlib的序数回归模型。 一、序数回归简介        在统计学中,序数回归(Ordinal Regression,也称为“序数分类”)是一...

2018-02-02 13:42:51

阅读数 1157

评论数 0

原创 MADlib——基于SQL的数据挖掘解决方案(14)——回归之多类回归

一、多类回归简介1. 基本介绍        如上篇所述,逻辑回归比较常用的是因变量为二分类的情况,这也是比较简单的一种形式。但在现实中,因变量的分类有时候多于两类,如疗效可能是“无效”“显效”“痊愈”三类,当然可以把其中两类进行合并,然后仍然按照二分类逻辑回归进行分析,但是合并的弊端是显而易见的...

2018-02-01 14:15:21

阅读数 426

评论数 0

提示
确定要删除当前文章?
取消 删除