• Dive into TensorFlow - 解析 TF 核心抽象 op 算子


    TF 计算图从逻辑层来讲,由 op 与 tensor 构成。op 是项点代表计算单元,tensor 是边代表 op 之间流动的数据内容,两者配合以数据流图的形式来表达计算图。那么 op 对应的物理层实现是什么?TF 中有哪些 op,以及各自的适用场景是什么?op 到底是如何运行的?接下来让我们一起探索和回答这些问题。

    一、初识 op

    1.1 op 定义

    op 代表计算图中的节点,是 tf.Operation 对象,代表一个计算单元。用户在创建模型和训练代码时,会创建一系列 op 及其依赖关系,并将这些 op 和依赖添加到 tf.Graph 对象中(一般为默认图)。比如:tf.matmul () 就是一个 op,它有两个输入 tensor 和一个输出 tensor。

    1.2 op 分类

    op 的分类一般有多个视角,比如按是否内置划分、按工作类型划分。

    按是否内置划分,一般分为:内置 op 和自定义 op(见 “二、自定义 op” 部分介绍)。

    按工作类型划分,一般分为:常见数学 op、数组 op、矩阵 op、有状态 op、神经网络 op、检查点 op、队列与同步 op、控制流 op。TF 白皮书对内置 op 的分类总结如下:

    

    

    1.3 op 与 kernel

    op 一般都有名称且代表一个抽象的计算过程。op 可以设置若干属性,但这些属性必须在编译期提供或推理得到,因为它们用来实例化一个节点对象从而执行真正的计算。属性的经典用法就是拿来支持类型多态,比如两个浮点张量的矩阵乘法与两个整型张量的矩阵乘法。

    kernel 是 op 在指定设备类型(CPU/GPU)上的具体实现。TF 二进制库通过注册机制定义了一系列 op 及对应的 kernel 实现,用户可以提供额外的 op 定义与 kernel 实现进行扩充。一般来说,一个 op 对应多个 kernel 实现。

    接下来让我们一起用矩阵乘法 MatMul 算子的相关代码来理解 op 与 kernel 的关系(此处不必纠结代码细节,只需体会 op 与 kernel 关系即可):

    1. // 首先给出op注册的定义。其中输入输出支持泛型,其合法类型在Attr中进行枚举。
    2. // 代码位置 tensorflow1.15.5\tensorflow\core\ops\math_ops.cc
    3. REGISTER_OP("MatMul")
    4. .Input("a: T")
    5. .Input("b: T")
    6. .Output("product: T")
    7. .Attr("transpose_a: bool = false")
    8. .Attr("transpose_b: bool = false")
    9. .Attr(
    10. "T: {bfloat16, half, float, double, int32, int64, complex64, "
    11. "complex128}")
    12. .SetShapeFn(shape_inference::MatMulShape);
    13. // MatMul的实现,采用类模板机制
    14. // 代码位置 tensorflow1.15.5\tensorflow\core\kernels\matmul_op.cc
    15. template <typename Device, typename T, bool USE_CUBLAS>
    16. class MatMulOp : public OpKernel {
    17. public:
    18. explicit MatMulOp(OpKernelConstruction* ctx)
    19. : OpKernel(ctx), algorithms_set_already_(false) {
    20. OP_REQUIRES_OK(ctx, ctx->GetAttr("transpose_a", &transpose_a_));
    21. OP_REQUIRES_OK(ctx, ctx->GetAttr("transpose_b", &transpose_b_));
    22. LaunchMatMul<Device, T, USE_CUBLAS>::GetBlasGemmAlgorithm(
    23. ctx, &algorithms_, &algorithms_set_already_);
    24. use_autotune_ = MatmulAutotuneEnable();
    25. }
    26. // 省略了很多代码...
    27. private:
    28. std::vector<int64> algorithms_;
    29. bool algorithms_set_already_;
    30. bool use_autotune_;
    31. bool transpose_a_;
    32. bool transpose_b_;
    33. };
    34. // MatMul的op定义与kernel实现绑定处理
    35. // 代码位置 tensorflow1.15.5\tensorflow\core\kernels\matmul_op.cc
    36. #define REGISTER_CPU_EIGEN(T) /*cpu与eigen组合对应实现*/ \
    37. REGISTER_KERNEL_BUILDER( \
    38. Name("MatMul").Device(DEVICE_CPU).TypeConstraint<T>("T").Label("eigen"), \
    39. MatMulOp<CPUDevice, T, false /* cublas, ignored for CPU */>);
    40. #define REGISTER_CPU(T) /*cpu对应实现(eigen与非eigen)*/ \
    41. REGISTER_KERNEL_BUILDER( \
    42. Name("MatMul").Device(DEVICE_CPU).TypeConstraint<T>("T"), \
    43. MatMulOp<CPUDevice, T, false /* cublas, ignored for CPU */>); \
    44. REGISTER_CPU_EIGEN(T);
    45. #define REGISTER_GPU(T) /*gpu对应实现(cublas与非cublas)*/ \
    46. REGISTER_KERNEL_BUILDER( \
    47. Name("MatMul").Device(DEVICE_GPU).TypeConstraint<T>("T"), \
    48. MatMulOp<GPUDevice, T, true /* cublas, true by default */>); \
    49. REGISTER_KERNEL_BUILDER(Name("MatMul") \
    50. .Device(DEVICE_GPU) \
    51. .TypeConstraint<T>("T") \
    52. .Label("cublas"), \
    53. MatMulOp<GPUDevice, T, true /* cublas */>)

    二、自定义 op

    用户编写的模型训练代码一般由 TF 原生的 op 算子及其依赖关系组成,但有时候我们定义的计算逻辑在 TF 中没有相应的 op 实现。根据 TensorFlow 官网的建议,我们应当先组合 python op 算子或 python 函数进行尝试。完成尝试之后再决定要不要自定义 op。

    2.1 自定义 op 场景

    一般来说,需要自定义 op 的场景有如下 3 个:

    • 用 TF 原生 op 组合来表达新计算逻辑的过程比较复杂或不可能

    • 用 TF 原生 op 组合来表达新计算逻辑,其计算性能较低

    • 在新版编译器中也较难实现 op 融合的计算逻辑需要我们手动实现融合

    在此举个例子方便大家理解。假如我们要实现一个新计算实逻:中位数池化(median pooling),过程中要在滑动窗口不断求得中位数。检索 TF 文档没有发现对应 op,因此我们先考虑用 TF python op 组合来实现它,果然通过 ExtractImagePatches and TopK 就可以实现这个功能。经测试前述组合方案并不是计算和存储高效的,因此我们就有必要将 median pooling 在一个 op 中进行高效实现。

    2.2 自定义 op 流程

    自定义 op 一般遵循 5 个基本步骤:

    1. 注册 op,具体包括:指定名称、输入 / 输出声明、形状函数。

    2. 定义 kernel(即 op 的实现)并与 op 绑定。一个 op 有多个 kernel 实现,具体由输入输出类型、硬件(CPU、GPU)决定。

    3. 创建 python 包装器,一般由 op 注册机制自动完成。

    4. 编写 op 的梯度计算函数(可选项)。

    5. 测试 op,通过 python 测试较为方便,当然也可通过 C++ 进行测试。

    接下来我们就以官网最简单的 ZeroOut 同步式自定义 op(继承 OpKernel)为例,结合代码来讲述上述 5 个步骤。下面先给出步骤 1 和步骤 2 用 C++ 实现的代码(官方推荐用 bazel 编译 so 文件):

    1. // 步骤1:注册op
    2. REGISTER_OP("ZeroOut")
    3. .Input("to_zero: int32")
    4. .Output("zeroed: int32")
    5. .SetShapeFn([](::tensorflow::shape_inference::InferenceContext* c) {
    6. c->set_output(0, c->input(0)); //c's input and output type is std::vector
    7. return Status::OK();
    8. });
    9. // 步骤2:定义kernel(常规CPU设备),并把kernel与op绑定
    10. class ZeroOutOp : public OpKernel {
    11. public:
    12. explicit ZeroOutOp(OpKernelConstruction* context) : OpKernel(context) {}
    13. void Compute(OpKernelContext* context) override {
    14. // Grab the input tensor from OpKernelContext instance
    15. const Tensor& input_tensor = context->input(0);
    16. auto input = input_tensor.flat();
    17. // Create an output tensor
    18. Tensor* output_tensor = NULL;
    19. OP_REQUIRES_OK(context, context->allocate_output(0, input_tensor.shape(),
    20. &output_tensor)); // OP_REQUIRES_OK第二个参数一般为方法调用,此处为输出张量分配内存空间
    21. auto output_flat = output_tensor->flat();
    22. // Set all but the first element of the output tensor to 0.
    23. const int N = input.size();
    24. for (int i = 1; i < N; i++) {
    25. output_flat(i) = 0;
    26. }
    27. // Preserve the first input value if possible.
    28. if (N > 0) output_flat(0) = input(0);
    29. }
    30. };
    31. REGISTER_KERNEL_BUILDER(Name("ZeroOut").Device(DEVICE_CPU), ZeroOutOp);

    步骤 3 加载上述 so 文件(自动完成前后端 op 映射);步骤 4 是可选项,此处不需要;步骤 5 基于 python api 测试 op 功能。相应代码如下:

    1. import tensorflow as tf
    2. zero_out_module = tf.load_op_library('./zero_out.so') # 加载so文件生成python module
    3. with tf.Session(''):
    4. zero_out_module.zero_out([[1, 2], [3, 4]]).eval()
    5. # Prints
    6. array([[1, 0], [0, 0]], dtype=int32)

    2.3 高级话题

    关于 op 的技术话题还有很多,我们在此简述一些要点:

    1. 如果实现了一个多线程 CPU kernel,则可以利用 work_sharder.h 中的 Shard 函数。

    2. 大多数 op 以同步方式工作,只需继承 OpKernel 改写 Compute () 方法,且此方法必须线程安全。

    3. 如果一个 op 因为其它 op 的运行而阻塞,则这个 op 可以采用异步方式工作,继承 AsyncOpKernel 改写 ComputeAsync () 方法,且此方法必须线程安全。异步 op 最经典的例子就是跨设备通信 send/recv pair 中的 RecvOp。

    4. 如果要为 op 配置一些静态属性,可使用 Attr,它有一套特有的支持类型。典型应用是支持泛型。

    5. 实现 GPU kernel 有两部分内容:OpKernel 和 CUDA kernel,相应的加载代码。

    6. 编译自定义 op,首先要配置头文件搜索路径与库文件搜索路径,接着指定编译和链接选项,最后还要确保 ABI 兼容性。

    7. Resource(资源)代表相同设备上 op 共享的内容,比如:张量值、kv 存储表、队列、读取器、网络连接等。代表资源的类必须继承 ResourceBase,然后注册 ResourceHandleOp 生成资源句柄,普通 op 以 resouce 类型的 Input 进行引入。

    三、op 工作原理

    3.1 op 运行框架

    整体来看,op 与 kernel 都有其结构描述与统一的注册管理中心。而 OpDefBuilder 有两个包装类 OpDefBuilderWrapper 和 OpDefBuilderReceiver,前者支持 op 构建的链式语法,后者接受 op 构建结果并进行注册。众所周知,op 是编译期概念,而 kernel 是运行期概念,在 AI 编译器的后端处理流程中会进行 op 的算子选择,此过程会基于一系列策略为 op 匹配最合适的 kernel 实现。

    

    

    3.2 若干技术细节

    首先,我们来看一下大家在使用 TensorFlow 过程中经常碰到的 libtensorflow_framework.so。按照 tf1.15.5/tensorflow/BUILD 中的描述,libtensorflow_framework.so 定义了 op 和 kernel 的注册机制而不涉及具体实现。

    1. // rootdir=tensorflow1.15.5
    2. // ${rootdir}/tensorflow/BUILD
    3. /*
    4. # A shared object which includes registration mechanisms for ops and
    5. # kernels. Does not include the implementations of any ops or kernels. Instead,
    6. # the library which loads libtensorflow_framework.so
    7. # (e.g. _pywrap_tensorflow_internal.so for Python, libtensorflow.so for the C
    8. # API) is responsible for registering ops with libtensorflow_framework.so. In
    9. # addition to this core set of ops, user libraries which are loaded (via
    10. # TF_LoadLibrary/tf.load_op_library) register their ops and kernels with this
    11. # shared object directly.
    12. */
    13. tf_cc_shared_object(
    14. name = "tensorflow_framework",
    15. framework_so = [],
    16. linkopts = select({
    17. "//tensorflow:macos": [],
    18. "//tensorflow:windows": [],
    19. "//tensorflow:freebsd": [
    20. "-Wl,--version-script,$(location //tensorflow:tf_framework_version_script.lds)",
    21. "-lexecinfo",
    22. ],
    23. "//conditions:default": [
    24. "-Wl,--version-script,$(location //tensorflow:tf_framework_version_script.lds)",
    25. ],
    26. }),
    27. linkstatic = 1,
    28. per_os_targets = True,
    29. soversion = VERSION,
    30. visibility = ["//visibility:public"],
    31. deps = [
    32. "//tensorflow/cc/saved_model:loader_lite_impl",
    33. "//tensorflow/core:core_cpu_impl",
    34. "//tensorflow/core:framework_internal_impl", /* 展开此target进行查看 */
    35. "//tensorflow/core:gpu_runtime_impl",
    36. "//tensorflow/core/grappler/optimizers:custom_graph_optimizer_registry_impl",
    37. "//tensorflow/core:lib_internal_impl",
    38. "//tensorflow/stream_executor:stream_executor_impl",
    39. "//tensorflow:tf_framework_version_script.lds",
    40. ] + tf_additional_binary_deps(),
    41. )
    42. // ${rootdir}/tensorflow/core/BUILD
    43. tf_cuda_library(
    44. name = "framework_internal_impl",
    45. srcs = FRAMEWORK_INTERNAL_PRIVATE_HEADERS + glob( // 可以查看FRAMEWORK_INTERNAL_PRIVATE_HEADERS内容
    46. [
    47. "example/**/*.cc",
    48. "framework/**/*.cc",
    49. "util/**/*.cc",
    50. "graph/edgeset.cc",
    51. "graph/graph.cc",
    52. "graph/graph_def_builder.cc",
    53. "graph/node_builder.cc",
    54. "graph/tensor_id.cc",
    55. "graph/while_context.h",
    56. "graph/while_context.cc",
    57. ],
    58. // 省略了诸多代码
    59. )
    60. // FRAMEWORK_INTERNAL_PRIVATE_HEADERS的内容
    61. FRAMEWORK_INTERNAL_PRIVATE_HEADERS = [
    62. "graph/edgeset.h",
    63. "graph/graph.h",
    64. "graph/graph_def_builder.h",
    65. "graph/node_builder.h",
    66. "graph/tensor_id.h",
    67. ] + glob(
    68. [
    69. "example/**/*.h",
    70. "framework/**/*.h", // 这里就是重点,查看${rootdir}/tensorflow/core/framework/op.h和opkernel.h
    71. "util/**/*.h",
    72. ]
    73. )
    74. // 先来看op.h
    75. #define REGISTER_OP(name) REGISTER_OP_UNIQ_HELPER(__COUNTER__, name)
    76. #define REGISTER_OP_UNIQ_HELPER(ctr, name) REGISTER_OP_UNIQ(ctr, name)
    77. #define REGISTER_OP_UNIQ(ctr, name) \
    78. static ::tensorflow::register_op::OpDefBuilderReceiver register_op##ctr \
    79. TF_ATTRIBUTE_UNUSED = \
    80. ::tensorflow::register_op::OpDefBuilderWrapper<SHOULD_REGISTER_OP( \
    81. name)>(name)
    82. // 再来看看opkernel.h
    83. #define REGISTER_KERNEL_BUILDER(kernel_builder, ...) \
    84. REGISTER_KERNEL_BUILDER_UNIQ_HELPER(__COUNTER__, kernel_builder, __VA_ARGS__)
    85. #define REGISTER_KERNEL_BUILDER_UNIQ_HELPER(ctr, kernel_builder, ...) \
    86. REGISTER_KERNEL_BUILDER_UNIQ(ctr, kernel_builder, __VA_ARGS__)
    87. #define REGISTER_KERNEL_BUILDER_UNIQ(ctr, kernel_builder, ...) \
    88. constexpr bool should_register_##ctr##__flag = \
    89. SHOULD_REGISTER_OP_KERNEL(#__VA_ARGS__); \
    90. static ::tensorflow::kernel_factory::OpKernelRegistrar \
    91. registrar__body__##ctr##__object( \
    92. should_register_##ctr##__flag \
    93. ? ::tensorflow::register_kernel::kernel_builder.Build() \
    94. : nullptr, \
    95. #__VA_ARGS__, \
    96. [](::tensorflow::OpKernelConstruction* context) \
    97. -> ::tensorflow::OpKernel* { \
    98. return new __VA_ARGS__(context); \
    99. });

    参照上述同样的流程,我们可以发现 libtensorflow.so 中涉及 op 与 kernel 的具体实现,同时也包括 Session 的具体实现。

    最后,我们再来讲讲 REGISTER_OP 宏背后的具体原理。我们在上面已经给出了此宏的定义,此处针对它的实现展开谈谈:

    1. // 先来看op.h
    2. #define REGISTER_OP(name) REGISTER_OP_UNIQ_HELPER(__COUNTER__, name)
    3. #define REGISTER_OP_UNIQ_HELPER(ctr, name) REGISTER_OP_UNIQ(ctr, name)
    4. #define REGISTER_OP_UNIQ(ctr, name) \
    5. static ::tensorflow::register_op::OpDefBuilderReceiver register_op##ctr \
    6. TF_ATTRIBUTE_UNUSED = \
    7. ::tensorflow::register_op::OpDefBuilderWrapper<SHOULD_REGISTER_OP( \
    8. name)>(name)
    9. // REGISTER_OP的一般用法如下
    10. REGISTER_OP("ZeroOut")
    11. .Input("to_zero: int32")
    12. .Output("zeroed: int32")
    13. .SetShapeFn([](::tensorflow::shape_inference::InferenceContext* c) {
    14. c->set_output(0, c->input(0));
    15. return Status::OK();
    16. });
    17. // op定义的链式规则是通过OpDefBuilderWrapper类实现的
    18. class OpDefBuilderWrapper<true> {
    19. public:
    20. explicit OpDefBuilderWrapper(const char name[]) : builder_(name) {}
    21. OpDefBuilderWrapper<true>& Input(string spec) {
    22. builder_.Input(std::move(spec));
    23. return *this; // 显而易见,调用Input仍然返回OpDefBuilderWrapper<true>本身
    24. }
    25. OpDefBuilderWrapper<true>& Output(string spec) {
    26. builder_.Output(std::move(spec));
    27. return *this;
    28. }
    29. OpDefBuilderWrapper<true>& SetShapeFn(
    30. Status (*fn)(shape_inference::InferenceContext*)) {
    31. builder_.SetShapeFn(fn);
    32. return *this;
    33. }
    34. const ::tensorflow::OpDefBuilder& builder() const { return builder_; }
    35. private:
    36. mutable ::tensorflow::OpDefBuilder builder_;
    37. };
    38. // 当通过链式规划构建好op后,再通过OpDefBuilderReceiver完成op的注册
    39. // op.h
    40. struct OpDefBuilderReceiver {
    41. // To call OpRegistry::Global()->Register(...), used by the
    42. // REGISTER_OP macro below.
    43. // Note: These are implicitly converting constructors.
    44. OpDefBuilderReceiver(
    45. const OpDefBuilderWrapper<true>& wrapper); // NOLINT(runtime/explicit)
    46. constexpr OpDefBuilderReceiver(const OpDefBuilderWrapper<false>&) {
    47. } // NOLINT(runtime/explicit)
    48. };
    49. // op.cc,然后在OpDefBuilderReceiver构造函数内部完成OpDefBuilderWrapper的全局注册
    50. OpDefBuilderReceiver::OpDefBuilderReceiver(
    51. const OpDefBuilderWrapper<true>& wrapper) {
    52. OpRegistry::Global()->Register(
    53. [wrapper](OpRegistrationData* op_reg_data) -> Status {
    54. return wrapper.builder().Finalize(op_reg_data);
    55. });
    56. }

    四、总结

    本文为大家系统讲解了 TensorFlow 的核心抽象 op 及其 kernel 实现。需要自定义 op 的具体场景,以及 op 的运行框架及若干技术细节。读罢此文,读者应该有如下几点收获:

    • TensorFlow 中 op 是编译期概念,kernel 是运行期概念,两者各自的定义与注册方式,以及相应的映射逻辑。

    • 掌握 TensorFlow 的高阶玩法:自定义 op。这将使你之前工作的不可能变为可能,由低效转化为高效。

    • 掌握 op 与 kernel 注册的宏定义来自何方,以及宏定义背后具体的运行框架。

  • 相关阅读:
    docker export、import、save、load 区别
    计算机毕业设计 生活废品回收系统 Vue+SpringBoot+MySQL
    Python_玩转多线程_一蓑烟雨任平生
    Java并发编程--变量可见性、避免指令重排,还得是用它
    《最新出炉》系列初窥篇-Python+Playwright自动化测试-39-highlight() 方法之追踪定位
    【44C++STL-常用算法----2、常用查找算法】
    [杂谈]-2023年实现M2M的技术有哪些?
    Kettle入门教程
    2006-2020年各省研发投入强度
    Selenium实现批量将CSDN文章改为【粉丝可见】
  • 原文地址:https://blog.csdn.net/u012181546/article/details/127865804