1.话说大数据

一些简单的关于云计算的基础概念总结

特征:大量化快速化多样化价值化

  • IT基础设施
    • 1.云计算
    • 2.虚拟化
    • 3.大数据
    • 4.Hadoop生态圈(分布式存储与并行计算及其框架)

1. 关键技术

1.1 数据采集

  • 利用ETL工具将分布的、异构数据源中的数据(如关系数据、平面数据文件),抽取到临时中间层后进行清洗、转换、集成
  • 最后加载到数据仓库数据集市中,成为联机分析处理数据挖掘的基础
  • 或者可以把实时采集的数据作为流计算系统的输入,进行实时处理分析

1.2 数据存储和管理

  • 利用分布式文件系统数据仓库关系数据库NoSQL云数据库
  • 实现对结构化半结构化非结构化海量数据的存储和管理

1.3 数据处理与分析

  • 利用分布式并行编程模型计算框架,结合机器学习数据挖掘算法
  • 实现对海量数据的处理和分析(对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据)

1.4 数据隐私和安全

  • 在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系数据安全体系,有效保护个人隐私和数据安全

2. Hadoop生态圈

  • 资源
    • HDFS存储
    • MapReduce框架
  • 服务
    • HDFS操作
    • HDFS编程
    • MapReduce提供分布式并行计算
    • HBase数据库
    • Hive数据仓库

  • 数据库与数据仓库对比
    • 数据仓库的数据一般由数据库的数据经过一定的规则转换得到
    • 数据仓库主要用来分析数据,一般是TB级数据(如决策支持系统、数据挖掘)
数据仓库数据库
面向分析面向事务处理
数据基本不变根据日常业务而更新

3. 大数据计算模式

典型大数据计算模式典型系统
批处理计算Hadoop MapReduceSpark
流式计算Scribe,Flume,Storm,S4, Spark Steaming等
迭代计算HaLoop,iMapReduce,Twister,Spark等
图计算Pregel,Giraph,Trinity,PowerGraph,GraphX
内存计算Dremel,Hana,Spark等
大数据查询分析计算HBase,Hive,Cassandra,Impala,Shark,Hana等

:本文内容部分来自互联网整理,部分来自个人经验总结;本文将持续收集更新,欢迎留言补充!

要是觉得不错,就鼓励一下吧!