多线程
共享存储器模型
所有线程都可访问相同的全局共享内存;
数据可公有可私有;
...About 13 min
所有线程都可访问相同的全局共享内存;
数据可公有可私有;
以计算矩阵乘法为例,普通的串行算法的复杂度为,通过一些高级算法例如Strassen算法等可以把复杂度降到。
划分(Partitioning);通信(Communication);组合(Agglomeration);映射(Mapping)
并行计算模型是一种计算模型,是计算机体系结构中的一部分。
指令流/数据流分类法,即费林-Flynn分类法。
指令流(Instruction Stream):机器执行的指令序列。
数据流(Data Stream):指令调用的数据序列,包括输入数据和中间结果。
多倍性(Multiplicity):在系统性能瓶颈部件上同时处于同一执行阶段的指令或数据的最大可能个数。
传统MPI节点(瘦节点):刀片服务器或机架,功能少;
胖服务器节点:SMP架构高性能服务器,多CPU,内存大;
加速节点:带有GPU/NPU/TPU加速卡。
ZeRO被分为了三个级别: