挖掘软件:
软件介绍
数据挖掘:SPSS
数据统计: SPSS(简单易用,常用算法), SAS (入手有点困难,可编程) STATA
Weka软件:
实验室使用,非商用
参考网站: www。chinakdd.com www.wekacn.org
Explorer: 算法可行性(对数据预处理,建立模型(分类、关联、聚类等))
Experimenter:算法评估(使用多个算法对一组数据进行分析),完成分布式任务处理
KNowledge FLow: 对大型数据处理的递增算法,画一个工作流
Simple CLI: 简单的命令行
转换为rrdf格式
1. 进入explorer
2. 打开csv文件
3. Save 为 rrdf格式
数据预处理
简单操作:
1. 进入explorer 部分
2. 选择数据源 : 安装目录data下有实例数据
4. 分类
选择部分数据作为训练集
通过交叉验证防止过度拟合;
correctly classified instances 代表成功率;
confusion matrix对角线上数字是正确预测的
应用模型
将模型应用到剩下的数据中,在set中选择要应用的数据文件
聚类
选择【cluster】
没有训练数据,所以选择 Use Training Set
参考教程:
http://wenku.baidu.com/view/360d99146edb6f1aff001f40.html
数据库 UCI
有很多数据挖掘的实例数据
加州大学尔湾分校 www.uci.edu
下载地址: archive.ics.uci.edu/ml
数据流挖掘
场景: 网络安全, 骚扰短信等, 金融市场,视频流挖掘
特点: 高速到达, 连续不断的 , 计算一个精确结果不可能(时间要求高)
模型: 收银机模型 十字转门模型
算法:VFDT算法; fVFDT UFFT(超快速森林算法)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。