大数据
辛苦整理,未经允许,严禁转载!
1.特点(6V)
- Volume:数据体量大,数据越来越多。大公司处理的数据量基本上每天至少在TB级别左右。
- Variaty:数据的种类和样式多,数据可以划分为结构化,半结构化,非结构化数据。
- VeLocity:数据量的增长速度是越来越快的。
- Varecity: 数据的价值密度低。(有用的数据越来越少)
- Value:数据的真实性,越来越多的无用数据
- valence:最近两年加入的数据的连通性,数据之间的关系
- 动态性
- 可视化
- 合法性(隐私性)
大数据的一些术语:杀生,大数据杀熟,用的旧的一些数据来分析你行为。
人工智能:模型 + 训练
5G:IT界推动VR开始发展,试水区,医疗事业
2.包含技术点
- 数据收集
- 数据存储
- 数据清洗 — ETL
- 数据分析
- 离线分析
- 实时分析
- 数据挖掘
重点3,4,5
Hadoop
1.概述
- Hadoop是Apache提供的一套开源的,可扩展/可伸缩的,可靠地用于分布式计算的框架
- 市面上,不同的厂商针对Hadoop提供了不同的商用版本:Cloudera的CDH等
- Apache官网上提供的Hadoop版本比较混乱
2.发展历程
- 创始人:Doug Cutting(核心人
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。