微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

数据挖掘-噪声数据处理

数据挖掘中对噪声数据的处理主要有

1、分箱法

通过考察数据的周围值来光滑有序数据的值。

例子:

假定箱子大小:3

4,8,15

用均值进行光滑:

9,9,9

用边界光滑(用距离最近的值替换原值):

4,4,15

2、回归

一个函数拟合数据来光滑数据。主要有线性拟合和多远线性拟合等。

拟合:形象的说,就是用一个曲线将平面上的点连接起来。

拟合以及插值还有逼近是数值分析的三大基础工具,通俗意义上它们的区别在于:拟合是已知点列,从整体上靠近它们,插值是已知点列并且完全经过点列;逼近是已知曲线,或者点列,通过逼近使得构造的函数无限靠近它们。(引自百度百科http://baike.baidu.com/view/1148275.htm

3、聚类

通过聚类将类似的值组织成群或者簇,可以直观检测离群点。

 

摘自:《数据挖掘-概念与技术》

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐