数据挖掘-笔记

2018-12-04

数据挖掘

大数据呈现的特点通常有4个”V”:体量(volume)、速度(velocity)、多样性(variety)、真实性(veracity)。

体量是指数据量；

速度是指流速，即生成和改变数据的速度；

多样性是指数据生成时的不同类型(货币、日期、数字、文本、图片等等)；

真实性是指有机分布式流程(比如数百万人注册服务或免费下载)生成数据的事实。

用于预测和分析的方法有很多，每种方法都有自身的优缺点，方法的有用性取决于以下因素：数据集大小、存在于数据中的模式类型、数据是否满足方法的某些基本假设。数据噪声大小以及数据分析的特定目标等等。

根据数据性质组织的数据挖掘方法如下图： algorithm

一个好的预测模型应该预测准确度上胜过基准（平均值）

预测准确度的测度：

● MAE/MAD/AAE(平均绝对误差/偏差):对误差的绝对值求平均，表明了平均误差的大小。

● 平均误差：因为保留误差的符号，正负会有所抵消，因此该指标也是一种对响应预测结果是高估还是低估的指示。

● MAPE(平均绝对误差百分比)：误差除以真实标签值的绝对值的平均，表示了预测值用真实值偏离程度的百分比。

● RMSE/RASE(均方根误差):误差平方的均值再开方，该指标是通过验证集而不只是训练集计算出来的。

● SSE(误差平方和)

可以参见我的博客《机器学习常用评价指标》文章。

分为以下四种类型：

1）定类数据：表现为类别，但不区分顺序。例如：性别数、班级数等

2）定序数据：表现为类别，但有顺序。例如产品按一等品、二等品、三等品计数等。

3）定距数据：表现为数值，可进行加、减运算。如：身高、体重、收入等。

4）定比数据：表现为数值，可进行加、减、乘、除运算。

前两类说明的是事物的品质特征，也称为定性数据或品质数据；后两类说明的是现象的数量特征，统称为定量数据或数量数据。