数据挖掘中对噪声数据的处理主要有
1、分箱法
通过考察数据的周围值来光滑有序数据的值。
例子:
假定箱子大小:3
4,8,15
用均值进行光滑:
9,9,9
用边界光滑(用距离最近的值替换原值):
4,4,15
2、回归
用一个函数拟合数据来光滑数据。主要有线性拟合和多远线性拟合等。
拟合:形象的说,就是用一个曲线将平面上的点连接起来。
拟合以及插值还有逼近是数值分析的三大基础工具,通俗意义上它们的区别在于:拟合是已知点列,从整体上靠近它们,插值是已知点列并且完全经过点列;逼近是已知曲线,或者点列,通过逼近使得构造的函数无限靠近它们。(引自百度百科http://baike.baidu.com/view/1148275.htm)
3、聚类
通过聚类将类似的值组织成群或者簇,可以直观检测离群点。
摘自:《数据挖掘-概念与技术》
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。