1.话说大数据

发表于 2018-09-17 | 更新于 2018-09-18 | 分类于云计算与物联网 | 次阅读

| 字数统计 640 字 | 阅读时长 2 分钟

一些简单的关于云计算的基础概念总结

特征：大量化、快速化、多样化、价值化

IT基础设施
- 1.云计算
- 2.虚拟化
- 3.大数据
- 4.Hadoop生态圈(分布式存储与并行计算及其框架)

1. 关键技术

1.1 数据采集

利用ETL工具将分布的、异构数据源中的数据(如关系数据、平面数据文件)，抽取到临时中间层后进行清洗、转换、集成
最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础
或者可以把实时采集的数据作为流计算系统的输入，进行实时处理分析

1.2 数据存储和管理

利用分布式文件系统、数据仓库、关系数据库、NoSQL、云数据库等
实现对结构化、半结构化和非结构化海量数据的存储和管理

1.3 数据处理与分析

利用分布式并行编程模型和计算框架，结合机器学习和数据挖掘算法
实现对海量数据的处理和分析(对分析结果进行可视化呈现，帮助人们更好地理解数据、分析数据)

1.4 数据隐私和安全

在从大数据中挖掘潜在的巨大商业价值和学术价值的同时，构建隐私数据保护体系和数据安全体系，有效保护个人隐私和数据安全

2. Hadoop生态圈

资源
- HDFS存储
- MapReduce框架
服务
- HDFS操作
- HDFS编程
- MapReduce提供分布式并行计算
- HBase数据库
- Hive数据仓库

数据库与数据仓库对比
- 数据仓库的数据一般由数据库的数据经过一定的规则转换得到
- 数据仓库主要用来分析数据，一般是TB级数据(如决策支持系统、数据挖掘)

数据仓库	数据库
面向分析	面向事务处理
数据基本不变	根据日常业务而更新

3. 大数据计算模式

典型大数据计算模式	典型系统
批处理计算	`Hadoop MapReduce`，`Spark`等
流式计算	Scribe，Flume，`Storm`，S4, Spark Steaming等
迭代计算	HaLoop，iMapReduce，Twister，Spark等
图计算	Pregel，Giraph，Trinity，PowerGraph，`GraphX`等
内存计算	Dremel，Hana，Spark等
大数据查询分析计算	HBase，`Hive`，Cassandra，Impala，Shark，Hana等

注：本文内容部分来自互联网整理，部分来自个人经验总结；本文将持续收集更新，欢迎留言补充！

要是觉得不错，就鼓励一下吧！