自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wzy0623的专栏

数据库、数据仓库、大数据

原创 MADlib——基于SQL的数据挖掘解决方案(5)——数据转换之邻近度

MADlib的线性代数模块(linalg module)包括基本线性代数操作的实用函数,其中包括多种范式、距离、相似度、向量均值、矩阵聚合等函数。本篇先从讨论相似性和相异性的基本概念,然后对照概念说明MADlib的线性代数函数,并用简单示例描述这些函数的用法。一、邻近度的度量        相似性...

2017-12-29 18:45:57

阅读数 933

评论数 0

原创 MADlib——基于SQL的数据挖掘解决方案(4)——数据类型之矩阵

矩阵可以用来表示数据集,描述数据集上的变换,是MADlib中数据的基本格式,通常使用二维数组数据类型存储。MADlib中的向量是一维数组,可看作是矩阵的一种特殊形式。MADlib的矩阵运算模块(matrix_ops)实现SQL中的矩阵操作。本篇介绍矩阵的概念,说明MADlib矩阵运算相关函数,并举...

2017-12-26 17:31:25

阅读数 718

评论数 0

原创 MADlib——基于SQL的数据挖掘解决方案(3)——数据类型之向量

通常数据挖掘操作的数据集可以看作数据对象的集合。数据对象有时也叫做记录、点、向量、模式、事件、案例、样本、观测或实体。数据对象用一组刻画对象基本特征(如物体质量或事件发生的时间)的属性描述。属性有时也叫做变量、特性、字段、特征或维。而在数学上,向量和矩阵可以用来表示数据对象及其属性。       ...

2017-12-22 15:56:56

阅读数 1052

评论数 0

原创 MADlib——基于SQL的数据挖掘解决方案(2)——MADlib基础

一、MADlib简介        MADlib是Pivotal公司与伯克利大学合作开发的一个开源机器学习库,提供了多种数据转换、数据探索、统计、数据挖掘和机器学习方法,使用它能够简易地对结构化数据进行分析和挖掘。用户可以非常方便地将MADlib加载到数据库中,扩展数据库的分析功能。2015年7月...

2017-12-19 17:22:04

阅读数 5408

评论数 1

原创 MADlib——基于SQL的数据挖掘解决方案(1)——数据挖掘入门

一、什么是数据挖掘        数据挖掘(Data Mining),也叫数据开采、数据采掘等,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,自动提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息的过程。这些信息的表现形式为规则、概念、规律及模式等。        从上述定义...

2017-12-19 11:09:30

阅读数 13483

评论数 0

提示
确定要删除当前文章?
取消 删除