简单说一下hadoop和spark的shuffle过程

“`”

hadoop：map端保存分片数据，通过网络收集到reduce端
spark：spark的shuffle是在DAGSchedular划分Stage的时候产生的，TaskSchedule要分发Stage到各个worker的executor

减少shuffle可以提高性能

<pre><code> "“`

Was this helpful?

0 / 0