技术归档 - sketch2sky

Tensorflow XLA Service Buffer优化详解

2020年3月8日 at pm6:16 (last edited 2020年6月20日 at am9:52)

下图是Tensorflow 架构图，以及XLA在Tensorflow中的位置

通过层层转换(参考Tensorflow XLA Service 详解 I)，Graph在进入XLA Service前已经被表达为HloModule的形式，而作为图编译器的核心，XLA Service就负责将HloModule表达的计算图编译为可以直接在不同硬件平台(Backend)执行的程序，而编译的核心，就是优化代码，包括设备无关的优化和设备相关的优化：

优化HloModule所表示的计算图，并将其转化为LLVM HLO
基于LLVM，生成硬件相关的二进制

作为通用的编译器框架，LLVM 会对LLVM HLO做大量的优化，生成高效的Target binary, 所以作为XLA的开发者，主要关注阶段1的优化: 设备无关的图优化算法。Compiler是XLA适配硬件的接口类，每个适配XLA的硬件都必须实现其中的方法。尤其是RunBackend()，参考Tensorflow XLA Service 详解 I 一文，该接口是进行图优化和编译的入口，统领整个优化和编译过程。

同时，XLA Service还实现了一组通用的优化方法(各种Schedule策略，各种Memory优化算法)供各个硬件平台的编译器使用，当然，主要是供给RunBackend()调用。以XLA的GPU平台的编译优化流程为例:

NVPTXCompiler::RunBackend()
  hlo_schedule = GpuHloSchedule::Build(*module, *stream_assignment, pointer_size_)
  BufferAssigner::Run(hlo_schedule->ConsumeHloOrdering()...)
  entry_computation->Accept(&ir_emitter)
  CompileToPtx() 
  CompilePtxOrGetCachedResult()

-1- 从XLA Service通用层中选择适合GPU的Schedule策略
-3- 基于Schedule策略，进行设备无关的Buffer优化，主要关注尽可能的减少Buffer的大小。注意，这里是设备无关的优化，是无法利用硬件Memory特性的。
-4- 将HloModule转化为LLVM IR
-5,6- 利用LLVM框架，将LLVM IR编译为二进制代码。

本文主要关注-3-，是XLA优化的核心。

对BufferAssigner::Run()进一步分解。

NVPTXCompiler::RunBackend()
  hlo_schedule = GpuHloSchedule::Build(*module, *stream_assignment, pointer_size_)
  //this analysis figures out which temp buffers are required to run the computation
  BufferAssigner::Run(hlo_schedule->ConsumeHloOrdering()...)
    assigner.CreateAssignment(HloModule, hlo_ordering, buffer_size)
      liveness = BufferLiveness::Run()
      assignment = new BufferAssignment(module, liveness, ...)
      set<LogicalBuffer*> colocated_buffers
      set<BufferAllocation::Index> colocated_allocations
      vector<ColocatedBufferSet> colocated_buffer_sets
      BuildColocatedBufferSets(&colocated_buffer_sets)
      colorer_(assignment->liveness())
      AssignColocatedBufferSets(colocated_buffer_sets, assignment, &colocated_buffers, &colocated_allocations);
      GatherComputationsByAllocationType(module, &thread_local_computations, &global_computations)
      for computation : global_computations:
        AssignBufferForComputation(computation, false, buffers_to_assign_sequentially)
      AssignBuffersWithSequentialOrdering(buffers_to_assign_sequentially, ,assignment)
      for computation : thread_local_computations:
        AssignBuffersForComputation()
      for buffer : assignment->liveness().maybe_live_out_buffers():
        if assignment->HasAllocation(buffer):
          assignment->GetMutableAssignedAllocation(buffer).set_mayby_live_out(true)
      assignment->CombineTempAllocations()
      return std::move(assignment)
  entry_computation->Accept(&ir_emitter)
  CompileToPtx() 
  CompilePtxOrGetCachedResult()

-6- 进行BufferLiveness分析，分析整个HloModule的LogicalBuffer的干涉关系，为后续优化提供依据
-11- BuildColocatedBufferSets, 依据Bufferliveness的分析，将所有的LogicalBuffer分为几个Bufferset，并进行初步的Set融合，每个Bufferset内
参照注释, colocated buffer sets, 每个set都是一组可以共享BufferAllocation的LogicalBuffer, 共享Allocation，意味着共享同一块物理内存(GPU的显存)
-12- colorer_ 缺省被赋值为BufferLiveness::DefaultColorer(), 所有的LogicalBuffer实例的color都会被设置为0
-13- AssignColocatedBufferSets, 为Bufferset分配BufferAllocation, 每一个LogicalBufferSet 与其关联, 这里用到了buffer_size_, 这个函数是判断一个LogicalBuffer大小, LogicalBuffer的大小要和相应的Allocation一样, 具体可以参考tf2xla/while_op.cc tf2xla/if_op.cc xla/client/builder.cc kConditional代码，可以看到明显的要求各个body的Shape要一致。通过TEST用例也能确认
-14- GatherComputationsByAllocationType，根据内含的LogicalBuffer的属性，将Allocation分为global和thread local两类，这部分是理解显存优化的关键，后文详细
-16- AssignBufferForComputation，关联Allocation和XlaComputation，此调用点只针对global,temp buffer被收集到buffers_to_assign_sequentially, 延后处理，

基础环境	GPU	检查多机中每个节点的GPU是否归属同一型号, horovod后台线程周期性处理提交的梯度, 如果由于GPU计算能力不同或网络延迟导致某次allreduce中某个提交者落后超过一个周期, 会发生使用错误的Tensor进行allreduce的情况, 通常, 这都会导致Tensor Shape Mismatch的错误, 笔者就层遇到过不小心同时使用M40和P40的情况, 在tensorflow1.8还能的运行, 但1.14就无法多机reduce, 定位了好久才发现是硬件不同
	cuda	是否与驱动match:cuda兼容性检查及下载, 随同一起安装的还有cupti等组件
	cudnn	版本是否与cuda版本match: cudnn兼容性检查及下载
	nccl	版本是否与cuda版本match: nccl兼容性检查及下载
	mpi	其中libmpi.so要对外可见, 多机训练需要tensorflow编译的时候就要将MPI链接到lib中, 同时, MPI对于horovod也是必要依赖
Tensorflow	tensorflow	选择的tensorflow 版本是否兼容系统cuda, 官方兼容列表
	tensorboard	tensorboard是否兼容tensorflow, tensorboard的版本号要与tensoflow保持一致
	tensorflow-estimator	tensorflow-estimator是否兼容了tensorflow, tensorflow 1.10.6 之后的特性, 是对底层API的封装, 需要与tensorflow版本号一致
	bazel	tensorflow对使用的bazel版本比较敏感, 如果没有修改bazelrc却出现bazelrc文件解析错误, 就要考虑下是不是bazel版本的问题, 参考tensorflow测试通过的bazel版本和bazel下载
	编译选项	tensorflow编译选项, 是否包含了cuda和nccl, 这两个缺省都是不安装的, 此处使用GPU, cuda为必须, 加之多机多卡, NCCL可以减少通信开销, 应该编译进tensorflow. 在1.13之前, nccl是随同config的过程一同配置, 1.14开始使用环境变量 + .bazelrc控制NCCL的安装, 具体的, 环境变量中需要export以下环境变量 export TF_NCCL_VERSION=2.4.2 export NCCL_HDR_PATH=/usr/local/nccl_2.4.2-1+cuda9.2_x86_64/include/ 同时, 修改tensorflow/.bazelrc文件 build:nccl --define=with_nccl_support=true #build:nccl --define=no_nccl_support=true
Horovod	环境变量	环境变量是否指定了libtensorflow_framework.so的路径以及NCCL路径信息 export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/lib/python2.7/site-packages/tensorflow/ export HOROVOD_WITH_TENSORFLOW=1 export HOROVOD_WITHOUT_PYTORCH=1 export HOROVOD_GPU_ALLREDUCE=NCCL export HOROVOD_NCCL_HOME=/usr/local/nccl_2.1.15-1+cuda9.0_x86_64 export HOROVOD_NCCL_INCLUDE=/usr/local/nccl_2.1.15-1+cuda9.0_x86_64/include/ export HOROVOD_NCCL_LIB=/usr/local/nccl_2.1.15-1+cuda9.0_x86_64/lib/

compiler/aot/	以AOT的方式将tf2xla/接入TF引擎
compiler/jit/	以JIT的方式将tf2xla/接入TF引擎，核心是9个优化器和3个tfop，其中XlaCompileOp调用tf2xla的“编译”入口完成功能封装，XlaRunOp调用xla/client完成“运行”功能。
compiler/tf2xla/	对上提供xla_compiler.cc:XlaCompiler::CompileFunction()供jit:compile_fn()使用将cluster转化为XlaComputation。核心是利用xla/client提供的接口，实现对XlaOpKernel的“Symbolic Execution”功能。每个XlaOpKernel子类均做的以下工作: 从XlaOpKernelContext中取出XlaExpression或XlaOp, 调用xla/client/xla_buidler.h提供的方法完成计算, 将计算结果的XlaOp存入XlaKernelContext.
compiler/xla/client/	对上提供xla_builder.cc:Builder等供CompileFunction()使用，将Graph由Op表达转化为HloModuleProto:HloComputationProto:HloInstructionProto表达并保存在XlaComputation中。对上提供local_client.cc:LocalClient::Compile()，作为编译入口供jit：BuildExecutable()使用，将已经得到的XlaComputation交给service并进一步编译为二进制。对上提供local_client.cc:LocalExecutable::Run()，作为运行入口供jit/kernels/xla_ops.cc:XlaRunOp使用，通过Key找到相应的二进制交给service层处理
compiler/xla/service/	对上提供local_service.cc:LocalService::BuildExecutable()供LocalClient::Compile()使用实现真正的编译，承接XlaComputation封装的HloProto, 将其转化为HloModule:HloComputation:HloInstruction表达, 对其进行优化之后, 使用LLVM后端将其编译为相应Executable后端的二进制代码对上提供executable.cc:Executable::ExecuteOnStream()供LocalExecutable::Run()使用实现真正的执行二进制。

client.h:Client	Client基类, 用于多态实现
client_library.h:ClientLibarary	使用单例构造client_library对象, 用于检索/构造所需的Client实例
lib/	同builder一起实现”Symbolic Execution”
local_client.h:LocalClient, LocalExecutable	JIT 使用的LocalClient定义, 是Service相关方法的Proxy
xla_builder.h:XlaBuilder	提供接口用tf2xla使用实现”Symbolic Execution”, 是其中XlaBuilder::Build()是构造client构造HloModuleProto的核心方法。对于需要多个步骤完成初始化的类，我们会使用Builder模式，这就是个例子
xla_computation.h:XlaComputation	XlaComputation对象是对HloModuleProto的封装, 用于进一步二进制编译

BufferLiveness::Run()

Masked Language Model

Pretraining

Customized Op

User-supplied Op

核心文件

核心抽象

HloSchedule

HloSchedule

编译cubin

职责1: 构造HloModuleProto

Optimization

Timeline

Tensorboard

Dot + Graphvis

Debug信息保留

离线安装依赖

接口形式

注册原理

接口形式

注册原理

全图构造及其优化

embedding-layer

protobuf

进程视角