Caffe | 边际效应 - 杨文博的个人博客

很多人使用 Caffe 配置神经网络的时候，习惯于撰写两个配置文件，一个叫 train_val.prototxt，在训练的时候使用；一个叫 deploy.prototxt，在预测的时候使用。这两个文件的本质区别，往往在输入、输出层不同。train_val.prototxt 里包含 train/test 的输入数据和标签，但出于效率考虑，train/test 都是分 batch 进行的，而输出的往往是 acc/loss；deploy.prototxt 里只包含 test 的输入，而且一般是每次输入一个数据（没有标签），输出的也不是 acc/loss，而是预测值（Top N 类别或者预测概率）。可以把 deploy.prototxt 看成可以往线上部署的网络配置文件，来一个用户请求，执行 network 的 forward，预测返回给用户结果。

这样做没什么不可以，而且很多开源的例子都是这么做的。但实际操作中，有一个很麻烦的地方是，当你在频繁调整模型的时候，每次修改隐层都要同时修改两个 .prototxt 让人很烦恼。Caffe 的配置文件不像 Keras 那样，每层就是简单的一行代码，而是一个 Protobuf 的 txt message，有很多行，这样电脑的一屏显示不全，就需要花精力去仔细 diff 两个文件。

其实我们有更好的办法，使用 Caffe 的 proto 协议实现 All in one network。那就是充分利用 NetStateRule 这个结构，结合 phase 和 stage/not_stage，实现不同场合下 layer 的过滤。

message NetStateRule {
  // Set phase to require the NetState have a particular phase (TRAIN or TEST)
  // to meet this rule.
  optional Phase phase = 1;

  // Set the minimum and/or maximum levels in which the layer should be used.
  // Leave undefined to meet the rule regardless of level.
  optional int32 min_level = 2;
  optional int32 max_level = 3;

  // Customizable sets of stages to include or exclude.
  // The net must have ALL of the specified stages and NONE of the specified
  // "not_stage"s to meet the rule.
  // (Use multiple NetStateRules to specify conjunctions of stages.)
  repeated string stage = 4;
  repeated string not_stage = 5;
}

以 Caffe 里的 example/minist/lenet_train_test.prototxt 为例，那怎么把它改成 all in one 的 prototxt 呢？

name: "LeNet"
layer {
  name: "mnist"
  type: "Data"
  top: "data"
  top: "label"
  include {
    phase: TRAIN
  }
  transform_param {
    scale: 0.00390625
  }
  data_param {
    source: "examples/mnist/mnist_train_lmdb"
    batch_size: 64
    backend: LMDB
  }
}
layer {
  name: "mnist"
  type: "Data"
  top: "data"
  top: "label"
  include {
    phase: TEST
  }
  transform_param {
    scale: 0.00390625
  }
  data_param {
    source: "examples/mnist/mnist_test_lmdb"
    batch_size: 100
    backend: LMDB
  }
}

首先，我们要明确解决的是 TEST phase 的冲突（验证集和测试集的 input/output 不同），不用去管 TRAIN phase。而为了解决 TEST phase 的冲突，就需要通过为 NetStateRule 增加参数来实现。min_level/max_level 和 stage/not_stage 都可以做这个事情，但我习惯用 stage，因为文字看起来比数字更直观一些。所以我会在原来的 train_val.prototxt 里再增加一个 TEST 输入层，通过 stage 区分不同的应用场景，如下所示：

layer {
  name: "mnist"
  type: "Data"
  top: "data"
  top: "label"
  include {
    phase: TEST
    not_stage: "predict"    # 在 predict 时过滤掉这一层
  }
  transform_param {
    scale: 0.00390625
  }
  data_param {
    source: "examples/mnist/mnist_test_lmdb"
    batch_size: 100
    backend: LMDB
  }
}
# 增加 deploy 的输入层
layer {
  name: "data"
  type: "Input"
  top: "data"
  input_param { shape: { dim: 1 dim: 1 dim: 28 dim: 28 } }
  include {
    phase: TEST
    stage: "predict"    # 在 predict 时加上这一层
  }
}

在 caffe.bin train 时，由于 solver.prototxt 没有提供特殊的参数，所以只包含 batch_size 100 的 TEST 输入层；在预测的时候，设置 stage='predict' 参数（设置方式下文有介绍），网络的输入层就变成了 dim: 1 的 TEST 输入层了。

同理，对输出层也是一样，在 loss layer 加上 exclude stage: "predict" 的参数，预测时就无需提供 label 和计算 loss 了，如下所示：

layer {
  name: "accuracy"
  type: "Accuracy"
  bottom: "ip2"
  bottom: "label"
  top: "accuracy"
  include {               #
    phase: TEST           #
    not_stage: "predict"  # 在 predict 时过滤掉 accuracy 层
  }                       #
}
layer {
  name: "loss"
  type: "SoftmaxWithLoss"
  bottom: "ip2"
  bottom: "label"
  top: "loss"
  exclude {           # 注意是 exclude
    phase: TEST       #
    stage: "predict"  # 在 predict 时过滤掉 loss 层
  }                   #
}

这样，你就能得到一个 all in one 的网络配置 lenet_train_val_deploy.prototxt，可以统一用它进行训练和预测，修改隐层再也不用拷贝来拷贝去了。其实使用 NetStateRule 可以进行各种组合，其它的参数组合也能实现 all in one 的网络设置，但我上面介绍的这种配置方法有个好处是完全不用修改原来的 solver.prototxt。也就是 default 走 non-predict，显式走 predict。

那怎样显式提供 stage='predict' 参数呢？在 caffe.bin 命令行可以使用：

$ caffe.bin test --stage="predict" --model="train_val_deploy.prototxt" \
--weights="iter_N.caffemodel"

当然，这时候输入层可能要换成其它的类型，不能是 Input 类型，不然 caffe 没法读取数据。使用 Input 类型时，就得用 Python/C++ 来加载数据。使用 stage="predict" 初始化 Python 和 C++ 的方法如下：

Python:
net = caffe.Net("train_val_deploy.prototxt", caffe.TEST, stages=['predict'],
                weights="iter_N.caffemodel")
C++:
caffe::vector<caffe::string> stages;
stages.push_back("predict");
caffe::Net *net = new caffe::Net("train_val_deploy.prototxt", caffe::TEST, 0, &stages);

目前在云端基于各种深度学习框架的 AI 服务已经非常成熟，但最近的一些案例展示了在移动设备上直接运行深度神经网络模型能够带来很大的处理速度优势。比如 Facebook 在官方博客上发布的可在移动设备上进行实时视频风格转换的应用案例 “Delivering real-time AI in the palm of your hand”。其中提到 Caffe2go 框架加上优化后的网络模型，可以在 iPhone6S 上支持 20FPS 的视频风格转换。Google Tensorflow 也提供了 iOS 和 Android 的 example。

Caffe 是一个知名的开源深度学习框架，在图像处理上有着非常广泛的应用。Caffe 本身基于 C++ 实现，有着非常简洁的代码结构，所以也有着很好的可移植性。早年也已经有了几个 github 项目实现了 Caffe 到 iOS/Android 平台的移植。但从我的角度来看，这些项目的编译依赖和编译过程都过于复杂，代码也不再更新，而且最终产出的产品包过大。caffe-compact 最接近我的思路，但是在两年前未完工就已经不更新了。

从我个人在 APP 产品上的经验来看，移植深度学习框架到 APP 中，不仅仅是能不能跑，跑不跑得快，还有个很重要的因素是包大小问题。因为一般用深度学习模型只是实现一个产品功能，不是整个产品。一个产品功能如果对 APP 包大小影响太大，很多 APP 产品都无法集成进去。我希望依赖库能尽量地精简，这样打包进 APP 的内容能尽量地少。所以我在春节期间在 github 上启动了一个 Caffe-Mobile 项目，将 Caffe 移植到 Android/iOS 上，并实现了以下目标：

NO_BACKWARD：手机的电量和计算能力都不允许进行模型训练，所以不如干脆移除所有的后向传播依赖代码，这样生成的库会更小，编译也更快。

最小的依赖。原始的 Caffe 依赖很多第三方库：protobuf, cblas, cuda, cudnn, gflags, glog, lmdb, leveldb, boost, opencv 等。但事实上很多依赖都是没必要的：cuda/cudnn 仅支持 GPU, gflags 仅为了支持命令行工具，lmdb/leveldb 是为了在训练时更高效地读写数据，opencv 是为了处理输入图片，很多 boost 库都可以用 c++0x 库来替换。经过精简和修改部分代码，Caffe-Mobile 的第三方库依赖缩减到两个：protobuf 和 cblas。其中在 iOS 平台上，cblas 用 Accelerate Framework 中的 vecLib 实现；在 Android 平台上， cblas 用交叉编译的 OpenBLAS 实现。

相同的代码基，相同的编译方式。两个平台都采取先用 cmake 编译 Caffe 库（.a or .so），然后再用对应平台的 IDE 集成到 app 中。编译脚本使用同一个 CMakeList.txt，无需将库的编译也放到复杂的 IDE 环境中去完成。

可随 Caffe 代码更新。为了保证开发者能追随最新 Caffe 代码更新，我在修改代码时使用了预编译宏进行分支控制。这样进行 diff/patch 时，如果 Caffe 源码改动较大，merge 时开发者可以清楚地看到哪些地方被修改，是如何改的，更方便 merge 最新更新。

除了 Caffe 库外，在 Caffe-Mobile 项目中还提供了 Android/iOS 两个平台上的最简单的 APP 实现示例 CaffeSimple，展示了在手机上使用 Caffe example 里的 MNIST 示例（深度学习领域的 Hello World）训练出来的 LeNet 模型预测一个手写字符 “8” 图片的过程和结果。 Caffe-Mobile 项目的地址在：https://github.com/solrex/caffe-mobile 欢迎体验，感兴趣的同学们也可以帮忙 Star 下 :)

标签： Caffe

Caffe 神经网络配置 - All in one network

手机上的 AI - 在 Android/iOS 上运行 Caffe 深度学习框架