特征:
大量化
、快速化
、多样化
、价值化
- IT基础设施
- 1.云计算
- 2.虚拟化
- 3.大数据
- 4.Hadoop生态圈(分布式存储与并行计算及其框架)
1. 关键技术
1.1 数据采集
- 利用ETL工具将分布的、异构数据源中的数据(如关系数据、平面数据文件),抽取到临时中间层后进行清洗、转换、集成
- 最后加载到
数据仓库
或数据集市
中,成为联机分析处理
、数据挖掘
的基础 - 或者可以把实时采集的数据作为流计算系统的输入,进行实时处理分析
1.2 数据存储和管理
- 利用分布式文件系统、数据仓库、关系数据库、NoSQL、云数据库等
- 实现对
结构化
、半结构化
和非结构化
海量数据的存储和管理
1.3 数据处理与分析
- 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法
- 实现对海量数据的处理和分析(对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据)
1.4 数据隐私和安全
- 在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全
2. Hadoop生态圈
- 资源
HDFS存储
MapReduce框架
- 服务
HDFS操作
HDFS编程
MapReduce提供分布式并行计算
HBase数据库
Hive数据仓库
- 数据库与数据仓库对比
- 数据仓库的数据一般由数据库的数据经过一定的规则转换得到
- 数据仓库主要用来分析数据,一般是TB级数据(如决策支持系统、数据挖掘)
数据仓库 | 数据库 |
---|---|
面向分析 | 面向事务处理 |
数据基本不变 | 根据日常业务而更新 |
3. 大数据计算模式
典型大数据计算模式 | 典型系统 |
---|---|
批处理计算 | Hadoop MapReduce ,Spark 等 |
流式计算 | Scribe,Flume,Storm ,S4, Spark Steaming等 |
迭代计算 | HaLoop,iMapReduce,Twister,Spark等 |
图计算 | Pregel,Giraph,Trinity,PowerGraph,GraphX 等 |
内存计算 | Dremel,Hana,Spark等 |
大数据查询分析计算 | HBase,Hive ,Cassandra,Impala,Shark,Hana等 |
注:本文内容部分来自互联网整理,部分来自个人经验总结;本文将持续收集更新,欢迎留言补充!