大数据生态与Spark

一、大数据
大数据不仅仅是数据的大量化而是包含快速化多样化和价值化等多重属性。他的数据类型繁多，是由结构化和非结构化数据组成的，10%的结构化数据，存储在数据库中，90%的非结构化数据，它们与人类信息密切相关。
特点：
1.大量大数据的特征首先就体现为“大”，从先Map3时代，一个小小的MB级别的Map3就可以满足很多人的需求，然而随着时间的推移，存储单位从过去的GB到TB，乃至现在的PB、EB级别。只有数据体量达到了PB级别以上，才能被称为大数据。1PB等于1024TB，1TB等于1024G，那么1PB等于1024*1024个G的数据。随着信息技术的高速发展，数据开始爆发性增长。面对网络大量的数据迫切需要智能的算法、强大的数据处理平台和新的数据处理技术，来统计、分析、预测和实时处理如此大规模的数据
2.高速就是通过算法对数据的逻辑处理速度非常快，1秒定律，可从各种类型的数据中快速获得高价值的信息。数据无时无刻不在产生，谁的速度更快，谁就有优势。
3.多样广泛的数据来源，决定了大数据形式的多样性。每个地区，每个时间段，都会存在各种各样的数据多样性。任何形式的数据都可以产生作用，目前应用最广泛的就是推荐系统，如淘宝，网易云音乐、今日头条等。
4.价值这也是大数据的核心特征。现实世界所产生的数据中，有价值的数据所占比例很小。相比于传统的小数据，大数据最大的价值在于通过从大量不相关的各种类型的数据中，挖掘出对未来趋势与模式预测分析有价值的数据，并通过机器学习方法、人工智能方法或数据挖掘方法深度分析，发现新规律和新知识。
二、Spark
Spark最初由美国加州大学伯克利分校(UC Berkeley)的AMP实验室于2009年开发，是鉴于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。
Spark具有如下几个主要特点：
1.运行速度快：Spark使用先进的有向无环图(Directed Acyclic Graph，DAG)执行引擎，以支持循环数据流与内存计算，基于内存的执行速度可比 Hadoop MapReduce快上百倍，基于磁盘的执行速度也能快十倍。
2.容易使用：Spark支持使用Scala、Java、Python和R语言进行编程，简洁的API设计有助于用户轻松构建并行程序，并且可以通过Spark Shell 进行交互式编程。
3.通用性：Spark提供了完整而强大的技术栈，包括 SQL查询、流式计算、机器学习和图算法组件，这些组件可以无缝整合到同一个应用中，足以应对复杂的计算。
4.运行模式多样：Spark 可运行于独立的集群模式中，或者运行于 Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源。

大数据生态与Spark

相关推荐