Toolbox : Hadoop
Tool: Spark
Map Reduce VS Spark: like Java vs Python
Big Data Project:
- Data——HDFS
1.) Data Split ( 数据拆分:放在哪台机器上?)
2.) Data Replication (数据处理:如何重新组合?)
Data Process
Map-Shuffle-Reduce
Map Reduce
Input Data- Computation _ Mapper, Reducer- Output
Shuffle : Transport, Sort
数据库和文件系统
数据库 HBase (处理后的数据,查询很快)
文件系统 HDFS (file system)(存放数据)