微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

大数据Haddop学习最详细的环境配置,保证成功!一

大数据

辛苦整理,未经允许,严禁转载!

1.特点(6V)

  1. Volume:数据体量大,数据越来越多。大公司处理的数据量基本上每天至少在TB级别左右。
  2. Variaty:数据的种类和样式多,数据可以划分为结构化,半结构化,非结构化数据。
  3. VeLocity:数据量的增长速度是越来越快的。
  4. Varecity: 数据的价值密度低。(有用的数据越来越少)
  5. Value:数据的真实性,越来越多的无用数据
  6. valence:最近两年加入的数据的连通性,数据之间的关系
  7. 动态性
  8. 可视化
  9. 合法性(隐私性)

大数据的一些术语:杀生,大数据杀熟,用的旧的一些数据来分析你行为。
人工智能:模型 + 训练
5G:IT界推动VR开始发展,试水区,医疗事业

2.包含技术点

  1. 数据收集
  2. 数据存储
  3. 数据清洗 — ETL
  4. 数据分析
    • 离线分析
    • 实时分析
  5. 数据挖掘
    重点3,4,5

Hadoop

1.概述

  1. Hadoop是Apache提供的一套开源的,可扩展/可伸缩的,可靠地用于分布式计算的框架
  2. 市面上,不同的厂商针对Hadoop提供了不同的商用版本:Cloudera的CDH等
  3. Apache官网上提供的Hadoop版本比较混乱

2.发展历程

  1. 创始人:Doug Cutting(核心人

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐