Toolbox : Hadoop

Tool: Spark

Map Reduce VS Spark: like Java vs Python

Big Data Project:

  1. Data——HDFS

1.) Data Split ( 数据拆分:放在哪台机器上?)

2.) Data Replication (数据处理:如何重新组合?)

  1. Data Process

    Map-Shuffle-Reduce

Map Reduce

Input Data- Computation _ Mapper, Reducer- Output

Shuffle : Transport, Sort

数据库和文件系统

数据库 HBase (处理后的数据,查询很快)

文件系统 HDFS (file system)(存放数据)

results matching ""

    No results matching ""