DNN | 边际效应 - 杨文博的个人博客

目前在云端基于各种深度学习框架的 AI 服务已经非常成熟，但最近的一些案例展示了在移动设备上直接运行深度神经网络模型能够带来很大的处理速度优势。比如 Facebook 在官方博客上发布的可在移动设备上进行实时视频风格转换的应用案例 “Delivering real-time AI in the palm of your hand”。其中提到 Caffe2go 框架加上优化后的网络模型，可以在 iPhone6S 上支持 20FPS 的视频风格转换。Google Tensorflow 也提供了 iOS 和 Android 的 example。

Caffe 是一个知名的开源深度学习框架，在图像处理上有着非常广泛的应用。Caffe 本身基于 C++ 实现，有着非常简洁的代码结构，所以也有着很好的可移植性。早年也已经有了几个 github 项目实现了 Caffe 到 iOS/Android 平台的移植。但从我的角度来看，这些项目的编译依赖和编译过程都过于复杂，代码也不再更新，而且最终产出的产品包过大。caffe-compact 最接近我的思路，但是在两年前未完工就已经不更新了。

从我个人在 APP 产品上的经验来看，移植深度学习框架到 APP 中，不仅仅是能不能跑，跑不跑得快，还有个很重要的因素是包大小问题。因为一般用深度学习模型只是实现一个产品功能，不是整个产品。一个产品功能如果对 APP 包大小影响太大，很多 APP 产品都无法集成进去。我希望依赖库能尽量地精简，这样打包进 APP 的内容能尽量地少。所以我在春节期间在 github 上启动了一个 Caffe-Mobile 项目，将 Caffe 移植到 Android/iOS 上，并实现了以下目标：

NO_BACKWARD：手机的电量和计算能力都不允许进行模型训练，所以不如干脆移除所有的后向传播依赖代码，这样生成的库会更小，编译也更快。

最小的依赖。原始的 Caffe 依赖很多第三方库：protobuf, cblas, cuda, cudnn, gflags, glog, lmdb, leveldb, boost, opencv 等。但事实上很多依赖都是没必要的：cuda/cudnn 仅支持 GPU, gflags 仅为了支持命令行工具，lmdb/leveldb 是为了在训练时更高效地读写数据，opencv 是为了处理输入图片，很多 boost 库都可以用 c++0x 库来替换。经过精简和修改部分代码，Caffe-Mobile 的第三方库依赖缩减到两个：protobuf 和 cblas。其中在 iOS 平台上，cblas 用 Accelerate Framework 中的 vecLib 实现；在 Android 平台上， cblas 用交叉编译的 OpenBLAS 实现。

相同的代码基，相同的编译方式。两个平台都采取先用 cmake 编译 Caffe 库（.a or .so），然后再用对应平台的 IDE 集成到 app 中。编译脚本使用同一个 CMakeList.txt，无需将库的编译也放到复杂的 IDE 环境中去完成。

可随 Caffe 代码更新。为了保证开发者能追随最新 Caffe 代码更新，我在修改代码时使用了预编译宏进行分支控制。这样进行 diff/patch 时，如果 Caffe 源码改动较大，merge 时开发者可以清楚地看到哪些地方被修改，是如何改的，更方便 merge 最新更新。

除了 Caffe 库外，在 Caffe-Mobile 项目中还提供了 Android/iOS 两个平台上的最简单的 APP 实现示例 CaffeSimple，展示了在手机上使用 Caffe example 里的 MNIST 示例（深度学习领域的 Hello World）训练出来的 LeNet 模型预测一个手写字符 “8” 图片的过程和结果。 Caffe-Mobile 项目的地址在：https://github.com/solrex/caffe-mobile 欢迎体验，感兴趣的同学们也可以帮忙 Star 下 :)

标签： DNN

手机上的 AI - 在 Android/iOS 上运行 Caffe 深度学习框架