Solrex | 边际效应 - 杨文博的个人博客 - 页码 3

2022 年 12 月

昨天儿子问我：“蒙古是什么样的？内蒙古是什么样的？”我说：“内蒙古咱们今年不是去过吗？”他说：“哦，感觉也不怎么样，不比咱们小区好多少！（我们住的是一个老破小区）”

然后我想仔细想想上次内蒙都去过哪几个地方，忽然觉得有些地名已经想不起来了——这才仅仅四个月。翻开博客看了看，有些事情还是记一下比较好。

12 月从居家办公开始，第一次感觉情况有些变化，是 2022 年 12 月 3 日，居家办公的一个周末。我骑电动车带娃去公园玩，发现周围四个核酸点全都关门了，仅存的一个排起了长队。虽然 12 月 3 日中午有个辟谣：“网传北京市明天起全面放开为不实消息。”但我觉得从动作上来看，肯定是要放开了。

但我这时候还没想起来囤药，因为我觉得再不济医院总不会没药，去医院开药还能走医保、商保。后来知道，这想法天真了。

5 号本来也是居家，但是 4 号公司发了一个模棱两可的通知，把原来要求 24 小时核酸改成了 48 小时核酸。然后考虑到晚上有个直属领导的月度会，侧面了解了下说领导一直都没居家，想了想还是去公司了。

正上着班，媳妇说家里被封单元了。晚上开完会回到家，先去超市买了些蔬菜，孩子喜欢吃的面包，拎着袋子进楼。门口有两个值班，问我进去就不能出来了，我说好。本来想再去买点药的，下班实在太晚，怕超市关门了就没去。

5 号夜里，赶紧京东下单了抗原检测试剂、芬必得、感冒药。事实上已经晚了，下完单都没法显示送达时间（这时候不知道外卖送药啥样，应该试试，忘了）。我看了下同事的情况，有的 12 月 2 日下单的芬必得也一直没发货。

实际上抗原是 12 月 9 日送到的，感冒药是 12 月 13 日送到的。因为我阳的比较晚，这俩还是起了作用的。但芬必得是 1 月 1 日送到的，这就没毛用了，都阳康了。家里还有两瓶美林，也没那么着急，但我还是在 12 日托儿子同学家长帮忙买了瓶杂牌的布洛芬缓释胶囊，50元/盒，19 日光远给了我两盒布洛芬缓释片。

6 号封控一天，做了一次上门核酸，7 号就解封了。然后我就又开始正常上班，就开始了相当魔幻的两周，看着周围的人成片地被感染，看着医院急诊被挤满，看着海淀医院药房挂出通知“布洛芬、感冒药都没有货”，看着美团外卖里的所有药房都下线不在营业时间，看着大家在各种群里抢购抗原、抢购布洛芬。

我不怕被感染，但我想感染得晚一点，因为我家里药都没备齐。所以我在公司里极为谨慎，回到工位就酒精湿巾擦手，全天戴口罩，中午在工位吃饭。

我媳妇单位比较奇葩，政策天天变。她先居家了几天，又因为是部门内少数自驾上班的，多值了几天班，然后又居家几天。前面防护得也挺好的，但是在 20 日周二她还是开始咳嗽了。刚开始测是阴性，22 日周四测出来是阳性。她一直也没发烧，所以刚开始也没用药，后来痰多后用了一些抗生素。

然后我就释然了，该来的总会来的。24 日是周六，我带俩孩子出去中关村广场公园转了一圈，我说赶在阳之前晒一次太阳。果不其然，当天晚上女儿就开始发烧，最高烧到 39 度，后来用美林降温，很有效果。第二天圣诞节周日，女儿白天蔫了一会儿，又用了次美林，晚上看着就退烧了。

27 日周二下午，我妈说午饭全吐了，我想大概率阳了。回家测了一下抗原，本来还担心测不出来，结果直接就是两条杠。她也没烧，刚开始也没用药，只是喝补液盐水补充电解质。

有人开玩笑说新冠是一个仁义的病毒，一家总会留一个人做饭。那就是我了，本来周末已经做了两天饭，现在早餐也得我做了。

结果没两天，周三下午我就开始咳嗽，周四 29 日早上做完早饭吃完，我觉得体温不太对，量了下超过 37 度，还是测下抗原吧。也是两条杠，那就躺平居家吧。

也不知道是我用的抗原更精准，还是我洗棉签时候搓得比较狠。除了我媳妇，我家都是刚有症状就能测出来阳性。有些同事都烧了两天了才测出来阳性，我这刚开始发烧就已经阳了。

这个病毒发作起来的确挺快，早上起床觉得温度还正常，上午11点多已经 39 度晕在床上了。吃了一片同事匀给我的布洛芬缓释片，好像没顶什么用，在床上继续晕。晕的时候我一直在想：“现在到底几度了/到底啥时候发挥药效啊/胳膊露在外面居然还不太冷/半天没看手机了，有没有同事找我审批/不会耽误了元旦上线的什么运营活动吧/去他娘的，我实在没力气看手机”。

一直晕到下午 2 点多还是 39 度，我觉得这药不行，硬让我儿子拿来美林，我自己倒了 10 ml 灌下去了。我媳妇还念叨我，你不能这么吃药，这么吃药会过量，赶紧把美林拿走了。我心里其实计算过，10ml 是 200mg，缓释片也是 200mg，而且距离吃缓释片已经 3 小时了。我自认为没啥问题，但没啥力气跟她争辩，反正已经喝了。

美林效果是真好，没过半小时，发了一身汗，温度降到了 38 度。不知道是原研药的功劳，还是混悬剂的功劳，起效就是比国产杂牌布洛芬缓释片强。一遇到抢购脱销，连这些平时卖不动的杂牌布洛芬都涨价卖，甚至想买还得找渠道。

能站起来了，也能看手机了，赶紧处理了一下如流消息和各种审批，然后再躺下。后来没有再烧到那么高，也没用退烧药，吃了两天有退烧成分的快克。一方面能把持续的低烧压下去一些，一方面压一压咳嗽，让我晕一点儿休息得好。第二天也就这么晕乎乎地过去了。

第三天周六，也是 12 月 31 日，躺在床上看朋友圈各种年终总结，辞旧迎新，实在没什么兴致参与。但起来发现不烧了，就是头略微还有点儿晕，又躺了一上午。到下午觉得精神还不错，周末不能就这么过去，就趁着最暖和的时段带着全家去海淀公园玩了会儿冰。

2022 年 12 月，就这么凑凑合合地过去了。

北京—内蒙赤峰克什克腾旗1800公里自驾游

暑假前看水木“自驾游”版对新疆的讨论十分火热，再加上看到 B 站“徐云流浪中国”到了新疆，原计划是约着几个要好的朋友到新疆自驾一圈。后来因为种种原因吧，集体出游未能成行，甚至全家出游的计划也未能成行。因为媳妇单位对出京严格管控，出京要经过总部的审批，其实就是不希望员工给单位添麻烦。

于是就选择了水木“自驾游”版的另一个目的地——内蒙古赤峰市克什克腾旗，自驾游版主 Borrego 人称“波姐”，在 2018、2019 年整理了多篇非常完善的克旗自驾攻略，发表在了自驾游版和公众号《老司机撸自驾游里》，比如《克什克腾旗完全介绍之自驾路线篇》。

我本想照着波姐的攻略逆时针走个北京到克旗的环线：北京—锡林郭勒盟太仆寺旗—赤峰克旗—承德塞罕坝—北京。但出发当天孩子有个比赛，下午三点才能走，另外感觉这样行程里会有多个地市，会增加遇到疫情的概率，所以就临时设计了一个只路经承德和赤峰两个地级市的行程方案，下面是行程全图：

整个行程 5 天半，总里程 1872 公里，车上时间 39 个小时。

7月30日北京—承德 214km 3小时

因为下午三点多才能出发，第一天没法走太远，所以第一站定在了承德。很多年前参观过避暑山庄，也是人山人海，这次只是想把承德作为中转站。搜索中发现承德市区的豪华酒店并不算很贵，就按有泳池筛选最后选了元宝山假日酒店，想着起码能带娃游游泳。

订完酒店才发现旁边就是承德的《鼎盛王朝康熙大典》实景演出所在地，很可惜当晚的票已经售空了。不过这个演出门口有一条很好的步行街，有不少美食，还有灯光喷泉表演，在步行街走走体验也不错。

7月31日承德—乌兰布统 250km 5小时

本来第二天想去塞罕坝，结果发现乌兰布统并不远，就直接跳过了，计划回程的时候再走塞罕坝（最终还是错过了）。贪图于酒店的设施，上午游了次泳，到元宝山吃了午饭才出发往乌兰布统，没成想居然开了五个小时。

我是从承围高速然后转棋塞线进的塞罕坝，可能因为是周日下午，反方向很多返城的车，导致很难超车，一路速度并不快。棋塞线沿途的风景感觉也比较一般，路两侧都是带围栏的树林，从路上往外看不到啥。而且中间儿子腹痛拉肚子，停了几次车。

走到河北内蒙交界处就开始堵车了，堵了两公里。一个原因是交界处有个景区，沿途像集市一样车流比较乱，另一个是要查看核酸报告。但是进入内蒙届，景色和塞罕坝就迥然不同，一眼望去是连绵起伏的草原，不再有树木遮挡视线。

这天我犯了个错误，傍晚 5 点到酒店以后，气候非常宜人，我只在镇上（乌兰布统苏木）逛了一会儿，没有立即去景区里玩。主要因为没有做功课，不知道乌兰布统景区的收费模式。因为乌兰布统在几个月前才改了收费方式，百度、小红书搜到的都是错的，只有抖音上一个人讲明白了：乌兰布统不再沿路设卡，不过在旅游区内还是圈了几个成片的小景区，在小景区的入口查通票，通票有效期三天。所以我完全可以当天晚上去景区里转一圈，第二天继续玩。

还有一点儿个人经验是：在携程上只能买到 120 元的成人全票，在“克旗文旅公司—乌兰布统景区”公众号里可以买到老人和儿童的半价票，这样就可以刷身份证开车直接入园，不用当场排队去买票了。小景区的入口也有多个，离镇上最近的百草敖包最堵，堵车时可以绕行其它入口进景区。

但不得不吐槽的是，乌兰布统的酒店真坑啊，真是除了大一无是处。基本上拿携程预订价除以 3，相当于它的真实水平。建议去克旗旅游的同志们，能预定品牌连锁还是预定品牌连锁。

我只在乌兰布统住了一晚多兰假日酒店，面盆下水坏的、WiFi 坏的、沙发坏的、电视倒是有台，全是雪花和噪音，卫生间的卫生也不行。后面两天再也不提前预定酒店了，实地查看后还是住了两晚经棚的汉庭。汉庭的房间很小，但是卫生程度和设施还是秒杀这些非连锁酒店。

还有就是“乌兰布统之夜”，晚上 9 点多开始，噼里啪啦的烟花一直放到 11 点多，差不多 10 点是最高峰。也是功课没做好，不知道有这节目，反正也吵得睡不着，要知道倒不如去看看了……

8月1日乌兰布统—景区—经棚（克旗县城）200km 11小时

酒店没早餐，门口的早餐摊一屉小笼包 20 块钱，比北京都贵。走远点儿有一些卖油条的，两块钱一根，价钱还算合理。

这一天大部分时间都在乌兰布统几个小景区里转，核心的问题就是太晒了，让我很后悔没有昨天傍晚入场。欧式风情区里还可以，距离也不是很远，开车走走停停，还算比较惬意。爬了下影视基地那个木栈道，本来挺后悔的，爬着很累，上面亭子里全是飞蚁，也没法休息。但后来看照片，还真属在木栈道上拍的风景比较漂亮。

早上 8 点却又晒又热，从木栈道上下来，我们就决定，只下车观景，不走路或者爬山了。

再说一下骑马。景区里骑马统一价是 100 元/次，如果抱着孩子骑要加 20 元。但是骑马的组织非常混乱，跟菜市场似的，我们在马场里等了半小时才坐到马上，但没想到后面仍然坑爹。一个师傅牵着两到三匹马，互相之间各种蹭，走到一半停下了，也不让下马，问大家要不要跑马，跑一次 200 元。说白了跟旅游购物一个意思，没人花钱大家就都别走了，有人花钱大家都得等着。断断续续有四五个人去跑了马（其实也就不大一圈，10分钟左右），在大太阳底下坐马上等了半个多小时才回去。我抱着女儿坐一匹马，马鞍前后非常窄，还不想挤着孩子，坐了一个多小时很不舒服。

回程问了才知道，100元/次的钱是景区收了，跑马的钱才是这些牵马的师傅挣的。很合理对吧？再也不体验了。

公主湖景区和欧式风情区不在一起，而且隔着老远，有 20 公里左右，路又烂，把我都开疑惑了。中间找了块草坪跟娃一起玩小滑翔机，玩得非常开心。开到了公主湖旁边，发现又得在停车场停完车走进去，直接调头就走。为什么说又？因为将军泡子也是这情况，停车的地方离湖边老远了，得花钱骑马或者自己走进去，这么热的天，还是放弃了。

在乌兰布统景区转到下午3点，开车距离大概八九十公里吧，觉得也审美疲劳了，也不想在乌兰布统住酒店了，就沿着“经乌线（经棚—乌兰布统）”往经棚开了。经乌线前半段景色非常不错，也被标记了“中国北疆风景大道”，从盘山路上有高度的地方俯瞰草原丘陵，很美。

因为一直在景区转，中午没有正式的午餐，在几棵树底下停了一会儿（草原上找个荫凉地儿太难了），吃了些零食。晚上在经棚找了个蒙餐馆，我觉得味道还行，儿子觉得蒙古奶茶好喝。

克什克腾旗人民医院有核酸检测，单人单管是 24 小时的，晚上去做了个核酸。

回到酒店发现，虽然抹了防晒霜（儿童版的），胳膊还是被晒红了，这是晒伤的前兆，赶紧用冷水冲洗。应该主要是玩小滑翔机时候晒伤的，儿子也被晒红了，只有女儿穿的纱长袖，没有大影响。

8月2日经棚—阿斯哈图石林—达里湖—经棚 356km 9小时

鉴于昨天的暴晒体验，我们一致决定尽量开车游玩，不去深入走景区了。所以石林景区没打算进去，主要是方便导航路线。这样走基本上能走全“热阿线（热水镇—阿斯哈图石林）”和“达达线（达青宝拉格牧场—达里诺尔湖）”。

从热水镇往阿斯哈图石林方向走，前半段比较平凡，中段经过黄岗梁（大兴安岭最高峰，海拔2034米）前后，有点儿类似于“经乌线”中段的风光，就是从有盘山公路的高处俯瞰草原。

我个人最喜欢的，是后半段，大概距离阿斯哈图石林 40 多公里开始。前面走过的很多路都是弯弯曲曲，这里开始有长段的接近笔直但是有较大起伏的公路，有点儿新疆自驾游照片里那种一望无垠的感觉。路的两侧都是牧民的草场，远处是起伏的丘陵，非常让人心旷神怡。

走到这里总结出一个经验，在克旗比较美丽的自驾游路段，前后在路边或者路上总会印着“中国北疆风景大道”的标语。但是克旗的公路有一个缺点，就是缺少观景台（跟北京山区道路相比），所以虽说禁止游客在路上停车，但是在车少的路段还是很多人直接停在路上。

热阿线终点是阿斯哈图石林南门，但是在南门前一公里的位置有个分岔路，可以走到阿斯哈图石林西门，据说是最近新修的南门和西门的连接线。所以我就从那里直接转向西门去走达达线了。

达达线就少了热阿线后段那种笔直大道的风景，大多数是弯弯曲曲的。达达线也是阿斯哈图石林西门往外这几十公里风景最优美，而且公路和牧场的落差不大。牧民的草场有围栏不能进，但是围栏外面还是有一些草地，应该属于公路养护区，看到一些游客直接停车扎营。

过了巴彦查干苏木，达达线转向正南，风景就有些乏善可陈了。草原还是草原，但是不再有起伏，和平原差不多。

去往达里湖南岸的路是真的坑爹，路况很差各种炮弹坑，路还很窄，错车只能开到马路边上。还有一些鸡贼的车不往马路边上开，导致每次会车都要做一次心理交锋：你不让我也不让，看谁能挺到最后。多少年没开过这种烂路了，而且还长，有十几公里，抖得人身心俱疲。也是再也不来的体验。

到南岸没有进景区，按照攻略跟着碧海银沙景区门口岔路拦车的人，20 块钱带你找了个湖边进去。但是感觉仍然被坑了。带你进去的时候说里面是自己家开的农家乐，可以在湖边吃饭住宿，结果往里带了五六公里，还是个很荒凉的湖边，没有房子。往里走的时候发现，如果自己沿岔路开进去，多的是 10 块钱就带你到湖边的地方，而且离景区大门还更近一些。

但必须得承认的是，作为内蒙第二大咸水湖，达里湖还是很壮观的。而且沙滩很大，沙子的确是银色的，有很多候鸟，有的鸟看起来很像海鸥。如果有时间的话，可以尝试在湖边住一住，玩玩沙子散散步，感觉应该不错。

本来想在达里湖找个有特色的酒店住一晚，鉴于乌兰布统的经验，没有提前订。让我儿子参观了一下价位最高的将军府蒙古包，他觉得还是更喜欢现代化的汉庭，于是只能再回经棚。

这一天玩下来已经有些累了，也不知道去哪里好，直接回家吧又觉得不甘心。随便找了找发现玉龙沙湖看起来也不错，于是决定第二天去玉龙沙湖。

8月3日经棚—西拉木伦峡谷—玉龙沙湖（翁牛特旗） 333km 6小时

西拉木伦河（西拉沐沦河）是非常长非常宽的一条河，发源于克什克腾旗。所谓的西拉木伦峡谷，是西拉木伦上游的河谷，它是一个很宽的河谷，沿峡谷的公路也并不是在谷底，有上有下，有的在峡谷外侧的高原上。总得来说，不太值得一去，和达里湖情况一样，路况太差，风景不如延庆的百里画廊。“经乌线”上有一个西拉木图峡谷驿站，也就是一个公路休息区，从驿站上远眺一下峡谷，可能是角度最好的地方了。

从克旗开往玉龙沙湖的丹锡高速（丹东—锡林浩特），车是真的稀少，路况也非常好。从经棚西面上了高速以后，差不多五六十公里的路上，只有我一辆车。丹锡高速这段就是沿着蜿蜒的西拉木伦河行进，一路上会看到西拉木伦河1号桥，2号桥，3号桥……

我们预定了玉龙沙湖的集装箱酒店。这个酒店有两种房型，三个位置。木屋房型在大湖边，但是离大湖很远，其实门口望出去是沼泽地，没啥风景；集装箱房型在小湖边，对岸就是沙山，风景比较好；但是集装箱房型也有临湖和不临湖的两排，个人感觉临湖的视角更棒。

房间里苍蝇很多，我们提前在克旗的超市里买了雷达喷雾……先封闭喷了一下房间才入住，后来还是有苍蝇从门口进来，就直接用喷雾喷一下一会儿就挂了。

我们在临湖的阳台上搭了个帐篷，白天虽然很晒，晚上的气候非常宜人。帐篷有纱帐，没有苍蝇，我带两个娃开着露营灯在帐篷里玩到了九点多才回房间睡觉。

8月4日玉龙沙湖—北京 524km 8.5小时

本来准备上午热的时候去泡温泉，结果第一次去忘带温泉票了不让进（温泉位置很远，摆渡车要坐 15 分钟），第二次去说设备故障，还不知道啥时候能修好。去前台闹了一下，才知道是有大人物来视察，要提前排练，所以温泉不接客。很生气，但懒得跟他们纠缠了，拿温泉票退了点儿钱走人。

最后说一下，玉龙沙湖集装箱酒店的早餐自助餐真差，连汉庭的早餐都不如。这地方大概也不会来第二次了。

10点多出发回京，下午2点多到京承高速司马台进京检查站，然后就是漫长的堵车，两个多小时才过检查站。在太师屯服务区疲惫地吃了点儿饭，服务区空调还没开，热得一身汗。

吃完饭一出门，黑云压顶，在京承高速密云段一直狂风暴雨，甚至看不清路。结果开到五环，只下了一丢丢小雨。

儿子给的虎年春节红包

除夕夜里，儿子把一个红包放到了我的衣柜里。大年初一我给儿子发完红包，发现了它。这是我今年收到的唯一一个红包，用彩纸给我写了一段话“爸爸：zhù 你 xīn nián kuài lè 万 shī rú yì”，还画了个笑脸。

不过红包里只有 7 元钱，不知道是什么寓意。我猜测这是他手里现金中的所有的 1 元钱……

但是，我的傻儿子没有给他妈妈发红包，所以他妈看到这个红包，有点儿生气！

用 ARM NEON 实现 _mm_movemask_epi8 的几种方法

背景

上一篇文章中描述了一种使用 SIMD 指令进行并行查找的 B16 哈希表，我让它支持 ARM 时遇到了一些指令集兼容的问题，对这个问题小小地探索了一下。

SSE2 指令集提供了 _mm_movemask_epi8 (pmovmskb) 指令，作用是取所有 8 bit 操作数最高 bit，然后把它们存储到返回值里。对包含 16 个 8 bit 数的 128 bit 输入，取得高位 16 个 bit，存入 32 位的返回值里，并且将返回值的高位置 0。

但是在 ARM 的指令集中，没有这条指令，只能想其它办法替代。

已有实现

通过搜索，找到这个 StackOverflow 问题的回答，里面提到了四种实现方法，我整理了一下接口，分列如下：

// Yves Daoust 的回答 (7 votes): 与 _mm_movemask_epi8 略有不符，要求输入的每个 8 bits 全 0 或全 1
inline uint32_t vmovemask_u8_YvesDaoust(uint8x16_t a) {
    const uint8_t __attribute__ ((aligned (16))) _Powers[16]=
        { 1, 2, 4, 8, 16, 32, 64, 128, 1, 2, 4, 8, 16, 32, 64, 128 };
    // Set the powers of 2 (do it once for all, if applicable)
    uint8x16_t Powers= vld1q_u8(_Powers);
    // Compute the mask from the input
    uint64x2_t Mask= vpaddlq_u32(vpaddlq_u16(vpaddlq_u8(vandq_u8(a, Powers))));
    // Get the resulting bytes
    uint32_t Output;
    vst1q_lane_u8((uint8_t*)&Output + 0, (uint8x16_t)Mask, 0);
    vst1q_lane_u8((uint8_t*)&Output + 1, (uint8x16_t)Mask, 8);
    return Output;
}

// David 对 Yves Daoust 回答最后三行进行了一些改进
inline uint32_t vmovemask_u8_David(uint8x16_t a) {
    const uint8_t __attribute__ ((aligned (16))) _Powers[16]=
        { 1, 2, 4, 8, 16, 32, 64, 128, 1, 2, 4, 8, 16, 32, 64, 128 };
    // Set the powers of 2 (do it once for all, if applicable)
    uint8x16_t Powers= vld1q_u8(_Powers);
    // Compute the mask from the input
    uint64x2_t Mask= vpaddlq_u32(vpaddlq_u16(vpaddlq_u8(vandq_u8(a, Powers))));
    // Get the resulting bytes
    uint32_t Output = vgetq_lane_u64(Mask, 0) + (vgetq_lane_u64(Mask, 1) << 8);
    return Output;
}

// EasyasPi 的回答（4 votes): 标准实现了 _mm_movemask_epi8，被 simde 库采纳，link:
// https://github.com/simd-everywhere/simde/blob/master/simde/x86/sse2.h
inline uint32_t vmovemask_u8_EasyasPi(uint8x16_t input)
{
    // Example input (half scale):
    // 0x89 FF 1D C0 00 10 99 33
    // Shift out everything but the sign bits
    // 0x01 01 00 01 00 00 01 00
    uint16x8_t high_bits = vreinterpretq_u16_u8(vshrq_n_u8(input, 7));
    // Merge the even lanes together with vsra. The '??' bytes are garbage.
    // vsri could also be used, but it is slightly slower on aarch64.
    // 0x??03 ??02 ??00 ??01
    uint32x4_t paired16 = vreinterpretq_u32_u16(vsraq_n_u16(high_bits, high_bits, 7));
    // Repeat with wider lanes.
    // 0x??????0B ??????04
    uint64x2_t paired32 = vreinterpretq_u64_u32(vsraq_n_u32(paired16, paired16, 14));
    // 0x??????????????4B
    uint8x16_t paired64 = vreinterpretq_u8_u64(vsraq_n_u64(paired32, paired32, 28));
    // Extract the low 8 bits from each lane and join.
    // 0x4B
    return vgetq_lane_u8(paired64, 0) | ((uint32_t)vgetq_lane_u8(paired64, 8) << 8);
}

// inspirit 的回答 (1 vote): 标准实现了 _mm_movemask_epi8，但分了上下半边，指令很多
inline uint32_t vmovemask_u8_inspirit(uint8x16_t input)
{
    const int8_t __attribute__ ((aligned (16))) xr[8] = {-7,-6,-5,-4,-3,-2,-1,0};
    uint8x8_t mask_and = vdup_n_u8(0x80);
    int8x8_t mask_shift = vld1_s8(xr);

    uint8x8_t lo = vget_low_u8(input);
    uint8x8_t hi = vget_high_u8(input);

    lo = vand_u8(lo, mask_and);
    lo = vshl_u8(lo, mask_shift);

    hi = vand_u8(hi, mask_and);
    hi = vshl_u8(hi, mask_shift);

    lo = vpadd_u8(lo,lo);
    lo = vpadd_u8(lo,lo);
    lo = vpadd_u8(lo,lo);

    hi = vpadd_u8(hi,hi);
    hi = vpadd_u8(hi,hi);
    hi = vpadd_u8(hi,hi);

    return ((hi[0] << 8) | (lo[0] & 0xFF));
}

我的实现

看到上面这几个方法，我就在想，有没有可能找到一种更高效的实现，用更少的 ARM 指令实现这个功能？经过一段时间的思考，我想到了下面这种方法，我感觉这（可能）是指令数最少的一种实现了。

但这个方法和 YvesDaoust 的方法一样，假设每个 8 bits 都是全 0 或者全 1，这在处理向量比较指令（vceq*, vcgt* 等）结果时是可用的，但在其它场景下未必可用。

 // （可能是）指令数最少的实现，要求输入的每个 8 bits 全 0 或全 1
inline uint32_t vmovemask_u8_solrex(uint8x16_t a) {
    // 先取出相邻两个 uint8 的中间 2 bits，1 bit 属于高 uint8，1 bit 属于低 uint8
    uint16x8_t MASK =  vdupq_n_u16(0x180);
    uint16x8_t a_masked = vandq_u16(vreinterpretq_u16_u8(a), MASK);
    // 再将这 8 个 2 bits 按照不同的偏移进行 SHIFT，使得它们加一起能表示最终的 mask
    const int16_t __attribute__ ((aligned (16))) SHIFT_ARR[8]= {-7, -5, -3, -1, 1, 3, 5, 7};
    int16x8_t SHIFT = vld1q_s16(SHIFT_ARR);
    uint16x8_t a_shifted = vshlq_u16(a_masked, SHIFT);
    // 最后把这 8 个数字加起来
    return vaddvq_u16(a_shifted);
}

性能测试

我非常好奇新方法性能如何，所以我对以上几种方法都进行了 benchmark，然后发现结果跟我想的有点不一样：

方法	重复处理单变量	按序处理数组
`vmovemask_u8_YvesDaoust()`	`536us`	`531us`
`vmovemask_u8_David()`	`189us`	`208us`
`vmovemask_u8_EasyasPi()`	`92us`	`340us`
`vmovemask_u8_inspirit()`	`286us`	`389us`
`vmovemask_u8_solrex()`	`137us`	`166us`

表1：内联函数调用，重复 10 万次

分析

重复处理单变量场景下，对一个固定的 uint8x16_t 变量重复计算 movemask，然后把结果累加起来（避免被优化）。这时候，vmovemask_u8_EasyasPi()胜出。这可能是因为 EasyasPi 的方法只有数值计算，没有寄存器 load，而往往 load/store 指令的耗时是比较长的。

按序处理数组场景下，对一个 10 万个元素数组的每个元素计算 movemask，然后把结果累加起来（避免被优化）。这时候，vmovemask_u8_solrex() 胜出。这可能是因为新方法里的 load 操作与数组元素的 load 操作形成了一定的流水线效果，load 的开销被抵消后，指令数少的性能优势就体现出来了。

从与 _mm_movemask_epi8 接口的一致性来说，还是 EasyasPi 给的实现更合适，所以 simde 库在替换 x86 intrinsics 时也用了这个实现。但探索一下不同的实现，还是能让人对向量指令设计和选择更多一些理解。

最后说回哈希表里 SIMD 并行比较的实现，其实 Facebook F14 里的实现更高效，并没有受 movemask 的思路限制，感兴趣的同学可以自己钻研一下。

2025年12月30日刷新

前两天在知乎上有同学评论了另一种实现，我又重新 benchmark 了一下。可能由于我之前的测试环境是 Mac 下的 ARM Docker，指令的执行效率太低，在新版 MBP 的 M3 芯片上执行时的结论和之前有显著不同。

WebAssembly 实现：

 inline uint32_t vmovemask_u8_webasm(uint8x16_t a) {
    static const uint8x16_t mask = {1, 2, 4, 8, 16, 32, 64, 128, 1, 2, 4, 8, 16, 32, 64, 128};
    uint8x16_t masked = vandq_u8(mask, (uint8x16_t)vshrq_n_s8(a, 7));
    uint8x16_t maskedhi = vextq_u8(masked, masked, 8);
    return vaddvq_u16((uint16x8_t)vzip1q_u8(masked, maskedhi));
}

由于我以前的性能测试代码已不可考，所以我重写了一遍 benchmark 代码，并提交到 github：solrex/demo/cppdemo/arm_movemask_epi8.cpp，在我的 MacBook Pro M3 芯片下测试结果如下：

方法	重复处理单变量	按序处理数组
vmovemask_u8_YvesDaoust()	0.76ns	0.76ns
vmovemask_u8_David()	0.78ns	0.76ns
vmovemask_u8_EasyasPi()	0.77ns	0.76ns
vmovemask_u8_inspirit()	1.03ns	1.02ns
vmovemask_u8_solrex()	0.77ns	0.75ns
vmovemask_u8_webasm()	0.75ns	0.74ns

表2：内联函数调用 100万次

从这个性能测试结果来看，好像使用哪种实现区别已经不大了。那就别计较了，还是使用与 _mm_movemask_epi8 语义完全一致的实现吧，例如 vmovemask_u8_EasyasPi 或者 vmovemask_u8_webasm。

趣谈哈希表优化：从规避 Hash 冲突到利用 Hash 冲突

本文首发于“百度架构师”公众号：https://mp.weixin.qq.com/s/oeuExiW3DYQnBG8HvDgBAg

1 背景

哈希表是一种查找性能非常优异的数据结构，它在计算机系统中存在着广泛的应用。尽管哈希表理论上的查找时间复杂度是 O(1)，但不同的哈希表在实现上仍然存在巨大的性能差异，因而工程师们对更优秀哈希数据结构的探索也从未停止。

1.1 哈希表设计的核心

从计算机理论上来说，哈希表就是一个可以通过哈希函数将 Key 映射到 Value 存储位置的数据结构。那么哈希表设计的核心就是两点：

怎样提升将 Key 映射到 Value 存储位置的效率？
怎样降低存储数据结构的空间开销？

由于存储空间开销也是设计时的一个核心控制点，在受限于有限的空间情况下，哈希函数的映射算法就存在着非常高的概率将不同的 Key 映射到同一个存储位置，也就是哈希冲突。大部分哈希表设计的区别，就在于它如何处理哈希冲突。

当遇到哈希冲突时，有几种常见的解决方案：开放寻址法、拉链法、二次哈希法。但是下面我们介绍两种有趣的、不常见的解决思路，并且引出一个我们新的实现方案 - B16 哈希表。

2 规避哈希冲突

传统哈希表对哈希冲突的处理会增加额外的分支跳转和内存访问，这会让流水线式的 CPU 指令处理效率变差。那么肯定就有人考虑，怎么能完全规避哈希冲突？所以就有了这样一种函数，那就是完美哈希函数（perfect hash function）。

完美哈希函数可以将一个 Key 集合无冲突地映射到一个整数集合中。如果这个目标整数集合的大小与输入集合相同，那么它可以被称为最小完美哈希函数。

完美哈希函数的设计往往非常精巧。例如 CMPH （http://cmph.sourceforge.net/）函数库提供的 CDZ 完美哈希函数，利用了数学上的无环随机 3-部超图概念。CDZ 通过 3 个不同的 Hash 函数将每个 Key 随机映射到 3-部超图的一个超边，如果该超图通过无环检测，再将每个 Key 映射到超图的一个顶点上，然后通过一个精心设计的与超图顶点数相同的辅助数组取得 Key 最终对应的存储下标。

完美哈希函数听起来很优雅，但事实上也有着实用性上的一些缺陷：

完美哈希函数往往仅能作用在限定集合上，即所有可能的 Key 都属于一个超集，它无法处理没见过的 Key；
完美哈希函数的构造有一定的复杂度，而且存在失败的概率；
完美哈希函数与密码学上的哈希函数不同，它往往不是一个简单的数学函数，而是数据结构+算法组成的一个功能函数，它也有存储空间开销、访问开销和额外的分支跳转开销；

但是在指定的场景下，例如只读的场景、集合确定的场景（例如：汉字集合），完美哈希函数可能会取得非常好的表现。

3 利用哈希冲突

即便不使用完美哈希函数，很多哈希表也会刻意控制哈希冲突的概率。最简单的办法是通过控制 Load Factor 控制哈希表的空间开销，使哈希表的桶数组保留足够的空洞以容纳新增的 Key。Load Factor 像是控制哈希表效率的一个超参数，一般来说，Load Factor 越小，空间浪费越大，哈希表性能也越好。

但近年来一些新技术的出现让我们看到了解决哈希冲突的另一种可能，那就是充分利用哈希冲突。

3.1 SIMD 指令

SIMD 是单指令多数据流（Single Instruction Multiple Data）的缩写。这类指令可以使用一条指令操作多个数据，例如这些年非常火的 GPU，就是通过超大规模的 SIMD 计算引擎实现对神经网络计算的加速。

目前的主流 CPU 处理器已经有了丰富的 SIMD 指令集支持。例如大家可接触到的 X86 CPU 大部分都已经支持了 SSE4.2 和 AVX 指令集，ARM CPU 也有 Neon 指令集。但科学计算以外的大部分应用程序，对 SIMD 指令的应用还都不太充分。

3.2 F14 哈希表

Facebook 在 Folly 库中开源的 F14 哈希表有个非常精巧的设计，那就是将 Key 映射到块，然后在块里使用 SIMD 指令进行高效过滤。因为分块的数量比传统的分桶要更小，这相当于人为增加了哈希冲突，然后在块中用 SIMD 指令再解决冲突。具体的做法是这样的：

通过哈希函数对 Key 计算出两个哈希码：H1 和 H2, 其中 H1 用来确定 Key 映射到的块，H2 只有 8 bits，用来在块内进行过滤；
每个块里最多存放 14 个元素，块头有 16 个字节。块头的前 14 个字节，存放的是 14 个元素对应的 H2，第 15 字节是控制字节，主要记录该块里有多少个元素是从上一个块溢出的，第 16 字节是越界计数器，主要记录如果该块空间足够大，应该会被放置多少个元素。
在插入时，当 Key 映射到的块中 14 个位置还有空时，就直接插入；当块已经满时，就增加越界计数器，尝试插入下一个块中；
在查询时，通过待查找 Key 计算得到 H1 和 H2。通过 H1 对块数取模确定其所属的块后，首先读取块头，通过 SIMD 指令并行比较 H2 与 14 个元素的 H2s 是否相同。如果有相同的 H2，那么再比对 Key 是否相同以确定最终结果；否则根据块头的第 16 字节判断是否还需要比对下一个块。

F14 为了充分利用 SIMD 指令的并行度，在块内使用了 H2 这种 8 bits 的哈希值。因为一个 128 bits 宽度的 SIMD 指令可以进行最多 16 个 8 bits 整数的并行比较。虽然 8 bits 哈希值的理论冲突概率 1/256 并不低，但也相当于有 255/256 的可能性省去了逐个 Key 对比的开销，使哈希表能够容忍更高的冲突概率。

4 B16 哈希表

不考虑分块内部的设计，F14 本质上是一个开放寻址的哈希表。每个块头的第 15、16 字节被用于开放寻址的控制策略，只剩 14 个字节留给哈希码，也因而被命名为 F14。

那么我们考虑能不能从另一个角度出发，使用拉链法来组织分块。由于省去了控制信息，每个分块中可以放置 16 个元素，我们把它命名为 B16。

4.1 B16 哈希数据结构

图 1：B16 哈希表数据结构（3元素示例）

上图所示就是用每个分块 3 个元素展示的 B16 哈希表的数据结构。中间绿色的是常见的 BUCKET 数组，存放的是每个分桶中 CHUNK 拉链的头指针。右侧的每个 CHUNK 与 F14 相比，少了控制字节，多了指向下一个 CHUNK 的 next 指针。

B16 也是通过哈希函数对 Key 计算出两个哈希码：H1 和 H2。例如 “Lemon” 的两个哈希码是 0x24EB 和 0x24，使用 H1 的高位作为 H2 一般来说足够了。

在插入时，通过 H1 对桶大小取模计算 Key 所在的分桶，例如 "Lemon" 所在的分桶是 0x24EB mod 3 = 1。然后在 1 号分桶的分块拉链中找到第一个空位，将 Key 对应的 H2 和元素写入该分块。当分块拉链不存在，或者已经装满时，为拉链创建一个新的分块用于装载插入的元素。

在查找时，先通过 H1 找到对应的分桶拉链，然后对每个块进行基于 SIMD 指令的 H2 对比。将每个块的块头 16 字节加载到 128 bits 寄存器中，里面包含了 16 个 H2'，把 H2 也重复展开到 128 bits 寄存器中，通过 SIMD 指令进行 16 路同时比对。如果都不同，那就对比下一个块；如果存在相同的 H2，就继续对比对应元素的 Key 是否与查找的 Key 相同。直到遍历完整条拉链，或者找到对应的元素。

在删除时，首先查找到对应的元素，然后用块拉链最尾部的元素覆盖掉对应的元素即可。

当然，B16 哈希表每个块的元素个数可以根据 SIMD 指令的宽度进行灵活调整，例如使用 256 bits 宽度指令可以选择 32 元素的块大小。但影响哈希表性能的不仅仅是查找算法，内存访问的速度和连续性也非常重要。控制块大小在 16 以内在大多数情况下能充分利用 x86 CPU 的 cache line，是一个较优的选择。

普通的拉链式哈希表，拉链的每个节点都只有一个元素。B16 这种分块式拉链法，每个节点包含 16 个元素，这会造成很多空洞。为了使空洞尽可能的少，我们就必须增加哈希冲突的概率，也就是尽量地缩小 BUCKET 数组的大小。我们经过试验发现，当 Load Factor 在 11-13 之间时，B16 的整体性能表现最好。其实这也相当于把原来存在于 BUCKET 数组中的空洞，转移到了 CHUNK 拉链中，还省去了普通拉链式每个节点的 next 指针开销。

4.2 B16Compact 哈希数据结构

为了进一步压榨哈希表的存储空间，我们还设计了 B16 的只读紧凑数据结构，如下图所示：

图 2：B16Compact 哈希表数据结构（3元素示例）

B16Compact 对哈希表结构做了极致的压缩。

首先它省去了 CHUNK 中的 next 指针，把所有的 CHUNK 合并到了一个数组中，并且补上了所有的 CHUNK 空洞。例如【图 1】中 BUCKET[1] 的拉链中本来有 4 个元素，包含 Banana 和 Lemon，其中头两个元素被补到了【图 2】的 CHUNK[0] 中。以此类推，除 CHUNK 数组中最后一个 CHUNK 外，所有的 CHUNK 均是满的。

然后它省去了 BUCKET 中指向 CHUNK 拉链的指针，只保留了一个指向原拉链中第一个元素所在 CHUNK 的数组下标。例如【图 1】中 BUCKET[1] 的拉链第一个元素被补到了【图 2】的BUCKET[0] 中，那么新的 BUCKET[1] 中仅存储了 0 这个下标。

最后增加了一个 tail BUCKET，记录 CHUNK 数组中最后一个 CHUNK 的下标。

经过这样的处理以后，原来每个 BUCKET 拉链中的元素在新的数据结构中依然是连续的，每个 BUCKET 依然指向第一个包含其元素的 CHUNK 块，通过下一个 BUCKET 中的下标依然可以知道最后一个包含其元素的 CHUNK 块。不同的是，每个 CHUNK 块中可能会包含多个 BUCKET 拉链的元素。虽然可能要查找的 CHUNK 变多了，但由于每个 CHUNK 都可以通过 SIMD 指令进行快速筛选，对整体查找性能的影响相对较小。

这个只读哈希表只支持查找，查找的过程跟原来差异不大。以 Lemon 为例，首先通过 H1=24EB 找到对应的分桶 1，获得分桶对应拉链的起始 CHUNK 下标为 0，结束 CHUNK 下标为 1。使用与 B16 同样的算法在 CHUNK[0] 中查找，未找到 Lemon，然后继续查找 CHUNK[1]，找到对应的元素。

B16Compact 的理论额外存储开销可以通过下式算得：

其中，n 是只读哈希表的元素个数。

当 n 取 100 万，Load Factor 取 13 时，B16Compact 哈希表的理论额外存储开销是 9.23 bits/key，即存储每个 key 所支出的额外开销只有 1 个字节多一点。这几乎可以媲美一些最小完美哈希函数了，而且不会出现构建失败的情况。

B16Compact 数据结构仅包含两个数组，BUCKET 数组和 CHUNK 数组，也就意味着它的序列化和反序列化可以做到极简。由于 BUCKET 中存储的是数组下标，用户甚至不需要将哈希表整个加载到内存中，使用文件偏移即可进行基于外存的哈希查找，对于巨大的哈希表来说可以有效节省内存。

5 实验

5.1 实验设定

实验使用的哈希表的 Key 和 Value 类型均取 uint64_t，Key、Value 对的输入数组由随机数生成器预先生成。哈希表均使用元素个数进行初始化，即插入过程中不需要再 rehash。

插入性能：通过 N 个元素的逐一插入总耗时除以 N 获得，单位是 ns/key；
查询性能：通过对随机的 Key 查询 20 万次（全命中） + 对随机的 Value 查询 20 万次（有可能不命中）获得总耗时除以 40 万获得，单位是 ns/key；
存储空间：通过总分配空间除以哈希表大小获得，单位是 bytes/key。对于总分配空间来说，F14 和 B16 均有对应的接口函数可直接获取，unordered_map 通过以下公式获取：

// 拉链节点总大小
umap.size() * (sizeof(uint64_t) + sizeof(std::pair<uint64_t, uint64_t>) + sizeof (void*)) 
// bucket 总大小
+ umap.bucket_count() * sizeof (void *)
// 控制元素大小
+ 3 * sizeof(void*) + sizeof(size_t);

Folly 库使用 -mavx -O2 编译，Load Factor 使用默认参数；B16 使用 -mavx -O2 编译，Load Factor 设定为 13；unordered_map 使用 Ubuntu 系统自带版本，Load Factor 使用默认参数。

测试服务器是一台 4 核 8G 的 CentOS 7u5 虚拟机，CPU 是 Intel(R) Xeon(R) Gold 6148 @ 2.40GHz，程序在 Ubuntu 20.04.1 LTS Docker 中编译执行。

5.2 实验数据

图 3：插入性能对比

上图中折线所示为 unordered_map、F14ValueMap 和 B16ValueMap 的插入性能对比，不同的柱子显示了不同哈希表的存储开销。

可以看到 B16 哈希表在存储开销明显小于 unordered_map 的情况下，仍然提供了显著优于 unordered_map 的插入性能。

由于 F14 哈希表对 Load Factor 的自动寻优策略不同，在不同哈希表大小下 F14 的存储空间开销存在一定波动，但 B16 的存储开销整体仍优于 F14。B16 的插入性能在 100 万 Key 以下时优于 F14，但是在 1000 万 Key 时劣于 F14，可能是因为当数据量较大时 B16 拉链式内存访问的局部性比 F14 差一些。

图 4：查找性能对比

上图中折线所示为 unordered_map、F14ValueMap、B16ValueMap 和 B16Compact 的查找性能对比，不同的柱子显示了不同哈希表的存储开销。

可以看到 B16、B16Compact 哈希表在存储开销明显小于 unordered_map 的情况下，仍然提供了显著优于 unordered_map 的查找性能。

B16 与 F14 哈希表的查找性能对比与插入性能类似，在 100 万 Key 以下时明显优于 F14，但在 1000 万时略劣于 F14。

值得注意的是 B16Compact 哈希表的表现。由于实验哈希表的 Key 和 Value 类型均取 uint64_t，存储 Key, Value 对本身就需要消耗 16 字节的空间，而 B16Compact 哈希表对不同大小的哈希表以稳定的约 17.31 bytes/key 进行存储，这意味着哈希结构里为每个 Key 仅额外花费了 1.31 个字节。之所以没有达到 9.23 bits/key 的理论开销，是因为我们的 BUCKET 数组没有使用 bitpack 方式进行极致压缩（这可能会影响性能），而是使用了 uint32_t。

6 总结

本文中我们从哈希表设计的核心出发，介绍了两种有趣的、不算“常见”的哈希冲突解决方法：完美哈希函数和基于 SIMD 指令的 F14 哈希表。

在 F14 的启发下，我们设计了 B16 哈希表，使用了更容易理解的数据结构，使得增、删、查的实现逻辑更为简单。实验表明在一些场景下 B16 的存储开销和性能比 F14 还要好。

为追求极致的存储空间优化，我们对 B16 哈希表进行紧致压缩，设计了几乎可以媲美最小完美哈希函数的 B16Compact 哈希表。B16Compact 哈希表的存储开销显著低于 F14 哈希表（介于40%-60%之间），但却提供了颇有竞争力的查询性能。这在内存紧张的场合，例如嵌入式设备或者手机上，可以发挥很大的作用。

新的哈希表设计表明 SIMD 指令的并行化处理能力的有效应用能大幅度提升哈希表对哈希冲突的容忍能力，进而提升查询的速度，并且能帮助哈希表进行极致的存储空间压缩。这让哈希表的设计思路从尽量规避哈希冲突，转向了利用合适的哈希冲突概率来优化计算和存储效率。

使 Netron 支持 PaddlePaddle 模型子图显示

先介绍一下什么是 PaddlePaddle 的模型子图。一般的神经网络都可以表示成一张由算子组成的计算图，但是对一些较为复杂的神经网络，可能会存在一些条件分支。PaddlePaddle 在构建这种条件分支的网络时，会把分支内的计算图单独保存成一张子图。

具体到 PaddlePaddle 的内部数据结构时，每个子图就是 Program 内的一个 Block。这个 Block 内包含该子图的所有中间变量，op 算子和参数等。

目前 PaddlePaddle 的模型可视化主要是依赖 Netron，包括 PadddlePaddle 提供的 VisualDL 工具里内嵌的也是 Netron。

我最近在研究 PaddlePaddle 模型优化的时候，发现 VisualDL 完全不支持子图的可视化。我稍微研究了一下 Netron 的代码，想把子图的可视化给加上。但没想到的是，其实 Netron 本身已经做了 PaddlePaddle 子图结构的解析，只是代码上存在一点儿 bug，导致子图无法被选择出来。

我就修复了一下这个 BUG，提交了一个 PR: https://github.com/lutzroeder/netron/pull/588 。希望对 PaddlePaddle 的用户能有所帮助。

只是 Netron 项目的 Owner lutzroeder 有些奇怪。他不是直接接受这个 PR，而是自己做一些修改后提交一个新的 commit 引用了这个 PR，不知道出于什么目的。这个习惯会让人很难分析出来对 PaddlePaddle 模型解析代码感兴趣的人都是谁，对于维护并不便利。

北医三院眼科就医看病手术攻略

长草了好久，这次发个在医院排队时写的东西。

这已经是我在北医三院眼科耗掉的第四个完整的上午！鉴于医生也很辛苦，我也不想怪罪他们，只好在无聊的等待中总结一点点经验，好让看到的人有所准备。

攻略 1：北医三院已经取消人工挂号，建议通过微信挂号，三日内预约并不难。院内收费支付宝和微信都支持，线上支付很方便。

攻略 2：较确定的眼病不必挂专家号，因为专家号慢而且不一定负责手术。我母亲是确诊的翼状胬肉，希望在北医三院做手术所以挂了个专家号。但是18号整整等了三个小时，到了医生却说他不负责这种手术，给安排了其他主治医生。三院的主治大部分也都是北大医学院毕业的，水平都不差。

攻略 3：术前检查比较耗时，为保证半天内约上，挂号一定要靠前。要是挂的号靠后，那就到现场看看不行就退了改天。

攻略 4：眼科手术分门诊手术和日间手术两种，可提前跟医生说明。日间手术算住院（但不占床位），手续繁琐一点，但保险报销比例高点（外地医保只支持住院）。

攻略 5：在北京常住的外地医保患者，可以提前通过当地医保部门申请医保异地安置。住院时可以拿外地医保卡办手续，支持出院直接结算，不用再拿材料报销。这件事要感谢政府信息化的提升。

攻略 6：北医三院眼科要求手术日 7:45 到医院办理手续，但实际上手术排期不会这么早，所以不必这么早到。目测医生按手术耗时排期，像是倒睫，翼状胬肉切除这种耗时较长的手术，往往被安排到上午最后。我母亲两眼分开做的，第一次 11 点进手术室，第二次 13 点进手术室，基本上都是最后一个手术，生生干等了两个上午。

攻略 7：带大几百的现金。眼科有些耗材不算手术材料，但能缓解疼痛，比如绷带镜。这些耗材是院内商店卖，不走医院处方和收费系统，只收现金。

攻略 8：手术后一定记得跟医生要病历本，如果护士忘了给，就可能要跑几个地方去找，特别耽误时间。

攻略 9：北医三院眼科分两个部分，一个是五官楼眼科，一个是眼视光中心，分布在门诊大楼两侧。复诊、拆线一定要问清楚要不要挂号，挂哪里的号，不然到时挂错了护士会让你退号重挂。我们就因为重挂当日号，拆线时也变成了当日最后一个，从 8 点等到 12 点。

攻略 10：不要侥幸，不要着急。专家号超过 10，复诊号超过 20，普通号超过 80，大概率要排队 2 小时，尤其有些专家 9 点才出诊。所以来早了没用，好好安排时间。太靠后的号不如退了改天，不然检查和治疗做不完，可能要再请假。目测下午比上午人少点，但下午专家也少，酌情安排吧。

攻略 11：北医三院停车场分两个队，能上立体停车楼的小型车队短一点儿，SUV、B 级 C 级车只能停地面的队非常长。非机动车道的队是地面车位，右侧机动车道的队是立体车位。医院停车场便宜，5 元一小时，但是 8 点以后就不要奢望进北医三院停车场了。医院一公里内摄像头管理的路边停车有空位，塔院西街第一小时 6 元，之后 9 元；花园路第一小时 10 元，之后 15 元。周边也有一些商店院里能停，每小时 12 元。塔院小区内停车以前 5 元一小时，最近涨到了 8 元一小时。

感慨一下，虽然我被耗了 4 个完整的上午，但医生也一样动手术到下午 2 点，看门诊到下午 1 点，并不能抱怨医生什么。

只是如果医院信息能更透明一些，信息化程度能更高一些，就医的体验也能更好一些。比如手术明明被安排到最后，就不要让人大清早就过来；排队的时候给大家一个预期等待时间，在线能查到排队情况，患者也不必在这干等。

写完了，还在等！小病还是少来知名三甲医院，太遭罪！

基于 SIMD 指令的 PFOR-DELTA 解压和查找

PFOR-DELTA 是一种经典的有序整数数列压缩算法，被广泛使用在搜索、推荐引擎的倒排索引和召回队列压缩中。PFOR-DELTA 的具体算法这里就不展开了，不了解的同学可以参考它的原始论文《Super-Scalar RAM-CPU Cache Compression》或者做一些搜索工作。

朴素的 PFOR-DELTA 解压主要是逐个对 frame 中的 bitpack 整数进行解压，对朴素 PFOR-DELTA 的优化主要包括对齐的内存访问（aligned memory access, 先按4/8字节偏移读取，然后再移位取得 bitpack）和循环展开（loop unrolling, 由每次循环解压一个整数转成每次循环解压 N 个整数以减少分支判断和访存次数）。通用的 PFOR-DELTA 函数库，往往采取这两种优化方法。

本文主要介绍在目前的先进 CPU 架构下，如何利用 SIMD 指令（如 SSE, AVX）加速 PFOR-DELTA 解压和查找。中文互联网上与之相关的有一篇阿里搜索和推荐团队的文章《索引压缩算法New PForDelta简介以及使用SIMD技术的优化》，但该文章缺乏算法细节且其收益表明对 SIMD 指令的应用并不高效。与该文类似，为简化计，下文主要以不带异常段的 PFOR-DELTA 为例来说明算法细节。

基于 SIMD 的 bit unpacking

PFOR-DELTA 的每个分块中，都是以固定位宽压缩的整数。例如小于 32 的整数，都可以用 5 位来存储，相比于原来的 32 位存储，大大减少了数据的存储空间。但是在使用的时候，我们又必须将压缩的数展开到 32 位，才能进计算和比较操作，将一个数从压缩的位宽展开到使用的位宽，叫做 bit unpacking。

对单独一个 bitpack 的整数来说，展开是非常容易的，通过简单的移位、AND 操作即可完成。但是 SIMD 指令主要提升的是并行化，考虑到 frame 宽度不同，存在各种对齐问题，如何同时进行多个数的 bit unpacking 并不是一件非常直观的事。

下面以 frame 宽度为 9，即每个整数用 9 bit 表示，来详细说明基于现代 CPU 广泛支持的 128位 SIMD 指令的 bit unpacking 算法。256/512 位的 SIMD 算法可依此推演。

如上图所示，如果我们从数组开头加载 128 bit 的数据，其中将会包括 14 个完整的 9 bit 整数，以及多读的 2 个 bit。

为了将每个 9 bit 展开成 32 bit，在只有 128 位寄存器的情况下，我们只能 4 个 4 个地展开。首先需要将头 4 个 9 bit 整数移动到寄存器 32 位偏移的位置。Intel 提供了 _mm_shuffle_epi8 intrinsic 可以根据重整参数重新排布 128 位寄存器的内容，但可惜的是它最小粒度只能按 byte 重整，这也就意味着我们必须将 9 bit 整数所在的整个 2 byte 移动到 32 位偏移的位置。对应的代码是：

// 考虑到 litten endian，实际上 shufkey 内容为：
// 00018080 01028080 02038080 03048080
__m128i shufkey = {0x8080020180800100, 0x8080040380800302};
v = _mm_shuffle_epi8(v, shufkey);

这时候，128 位寄存器中的每个 32 位槽位中都包含一个 9 bit 整数，但可惜的是它都包含了前后数字的一些冗余 bit。下面这张图，说明了如何用 SIMD 指令消除这些冗余 bit。

前面说过，对一个整数做 unpack 可以完全用移位和 AND mask 来实现，对多个整数依然如此。但由于各槽位中 9 bit 整数的对齐不同，移位 bit 数也不同。例如：第一个槽位右移 0 位，第二个槽位右移 2 位，第三个操作右移 2 位，第四个槽位右移 3 位。

可是 SSE 的移位指令只能支持各槽位同等位数的移位，无法支持这样各槽位不同位数的移位。我们不得不用代价更高昂的其它指令来实现分槽位不同移位，先用基于 2 次幂的向量乘法实现左移对齐 9 bit 整数，然后再统一右移，统一 mask。不使用 2 次幂除法的原因是除法的成本更高。对应到代码是：

// 通过向量乘法实现各 DW 槽位中 9 bit 整数左移对齐。当然参数可以换成常数。
v = _mm_mullo_epi32(v, _mm_set_epi32(8, 4, 2, 1));
// 所有 DW 右移 3 位
v = _mm_srli_epi32(3);
// 通过 and mask 掉 9 bit 之外多余的 bit。当然参数可以换成常数。
v = _mm_and_si128(v, _mm_set1_epi32(0x1ff));

这样，我们就实现了 9 bit 整数的 unpacking。上述算法具备通用性，对于其它的 frame 宽度，只是 shuffle、移位、乘法、mask 的参数不同，处理过程并无区别。

认真的读者可能会有疑问：第一张图为什么做了两遍 shuffle？这是考虑到了奇数位 bit packing 的特殊性。

对于偶数位（2，4，6，8）的 bit packing，一次解压 4 个整数，解压的位宽是可以被 8 整除的，所以每次解压都可以从字节边界开始，所有算法参数都相同；对于奇数位（3, 5, 7, 9），一次解压 4 个整数，解压的位宽是不能被 8 整除的，所以第二轮解压不能从字节边界开始，第二轮解压的算法参数与第一轮不同。但解压 8 个整数后，位宽就对齐到字节边界了。所以说：frame 位宽为偶数的 SIMD unpacking，循环 block 可以是 4*位宽；但 frame 位宽为奇数的 SIMD unpacking，循环 block 只能是 8*位宽。如果 AVX 指令可用，可以使用 256 位的 SIMD 指令，能大大缓解这个问题。

不失其一般性，可以看到我们只用了 4 条 SIMD 计算指令，就完成了 4 个整数的 bit unpacking，其效率较逐一 unpacking 高了很多，并且可以推及到 256 位和 512 位的情形得到更高加速比。

本节内容主要参考了论文《SIMD-Scan: Ultra Fast in-Memory Table Scan using on-Chip Vector Processing Units》。

基于 SIMD 的 delta 计算

在 PFOR-DELTA 算法中，每个整数其实是 delta，需要把所有前序的整数加起来才是真正所要的数据。参考上节，我们虽然解压出来了 {v0, v1, v2, v3}，但实际上需要的却是 {v0, v0+v1, v0+v1+v2, v0+v1+v2+v3}。

将 __m128i 转成一个数组，然后再循环相加是比较简单的思路。但我们也可以直接用三条 SIMD 指令来实现 delta 计算：

// {v0, v1, v2, v3} + {0, 0, v0, v1} = {v0, v1, v0+v2, v1+v3}
v = _mm_add_epi32(_mm_slli_si128(v, 8), v);
// {v0, v1, v0+v2, v1+v3} + {0, v0, v1, v0+v2} = {v0, v0+v1, v0+v1+v2, v0+v1+v2+v3} 
v = _mm_add_epi32(_mm_slli_si128(v, 4), v);
// {v0, v0+v1, v0+v1+v2, v0+v1+v2+v3} + {acc3, acc3, acc3, acc3}
acc = _mm_add_epi32(v, _mm_shuffle_epi32(acc, 0xff));

同样，不失一般性，这种错位相加的方法完全可以推广到 8 维整数向量的 delta 计算，可以推广到 256 位和 512 位的情形得到更高的加速比。

本节内容主要参考了论文《SIMD Compression and the Intersection of Sorted Integers》。

基于 SIMD 的查找比较

对 PFOR-DELTA 解压完成之后对有序数组，如果想找到某个整数的位置，我们还需要逐个进行比较。这种比较，也可以用 SIMD 指令完成：

// 初始化一次
__m128i key = _mm_set1_epi32(v_to_find);
// 向量比较
v = _mm_cmplt_epi32(key, acc);
// 比较结果处理
int res = _mm_movemask_epi8(v);
if (res != 0) {
  index += __builtin_ctz(res) >> 2;
} else {
  index += 4;
}

总结

综上，本文描述了完全使用 SIMD 指令进行 PFOR-DELTA 解压和查找的详细算法，给出了在 SSE 指令集下的具体代码，并且可以推广到更高的数据宽度下。至于优化的收益，将根据基线实现的不同存在差异，感兴趣的读者可以自行实现比较一下。

此外，上文的实现主要着眼通用性，针对特定的小宽度整数，其实可以使用更小的计算粒度以增大并行度。对性能有苛求的读者可自行研究。

ABTest 平台设计 - 流量分布问题

通过前三篇文章，大家可以了解到一个基本的 ABTest 平台架构建设的要点，看起来构建起一个生产环境可用的 ABTest 平台难度不大。但如果想把这个平台做得更强大，还有很多细节地方要注意。下面举两个常见的细节问题。

跨层分桶不完全正交

理论上来讲，如果每层分桶都是采取的独立不相关的 hash 算法，那么层和层之间的流量应该是完全正交且服从均匀分布的。举个例子：如果每层分 10 个桶，那么第二层的 1 号桶内，应该有第一层每个桶里的 1/10 的用户。

但从实际上来讲，很多情况下我们使用的 hash 算法没有那么地“强”，会导致分桶没那么地随机和均匀。比如几年前非常流行的 MurmurHash，也被 SipHash 的作者找到了攻击的方法，他们更推荐使用更强的 SipHash / HighwayHash。

还有就是均匀分布仅仅是统计意义上的期望，而不是实际的效果。比如我们有 1-10 十个数，用 hash 算法一定能保证把它们分到 10 个桶里，每个桶里 1 个数吗？

只不过大多时候，在统计意义上能保证基本的均匀，对大部分产品来说也够用了。

对于一些强迫症公司，或者用户数还没有达到统计意义上可分又开始早早做 ABTest 的公司，或者从数据观察的确存在较大的实验间干涉的公司，可能会做这样的一个事，人工构造层间正交分桶。

具体做法是这样的：先用 hash 算法（或其它抽样算法）将用户分成桶数的平方个最小流量单元，然后再选取这些流量单元组成每个分层。比如要构造 2 层，每层 3 个分桶的用户分层，先将用户分为 3*3 个流量单元，那么两层就可以这样构造：

Layer 1: [1, 2, 3] [4, 5, 6] [7, 8, 9]
Layer 2: [1, 4, 7] [2, 5, 8] [3, 6, 9]

可以看到第二层的每一个桶，都包含第一层里所有桶的 1/3 用户。通过精巧地构造来实现层间的正交分桶，可以有效地降低层间实验互相干涉的情况。

发版造成指标波动

当实验本身受到 APP 版本一定影响的时候，AB 分组可能会由于升级节奏不同，导致 AB 指标波动完全不可比。

举一个例子：如果新版本使用时长会上升 10%，正常情况下实验分组 A 比分组 B 使用时长上升 3%。那么如果分组 A 用户升级新版本占比 30%，分组 B 用户升级新版本占比 70%，结果会是怎样呢？

分组 A：70*1.03 + 30*1.1*1.03 = 106.09
分组 B：30 + 70*1.1 =  107

分组 A 反而比分组 B 的数据更差！当然，这里为了效果，举的例子比较极端。实际的情况可能是在发版收敛期间，ABTest 的指标波动较大。

而且升级动作本身对活跃用户和非活跃用户有一定的筛选作用，产生的行为和数据也是有偏的，很难有完美的解决办法。避开发版收敛时段，或者对数据进行多维的分析和组织，也许有一定帮助。

结语

按照我以前的风格，这本应是一篇文章。但在信息快消时代，我发现自己也没耐心读长文了，所以就拆成一个系列发布了。

这篇文章主要从平台建设的角度出发，讨论了一些平台设计中要考虑到的关键功能点，希望能对读者有所助益。至于如何科学地进行 ABTest 实验设计和效果分析，不是我擅长的部分，就不再后续展开了。

ABTest 平台设计 - 灰度发布和早鸟用户

上篇《ABTest 平台设计 - 实验开关和分组信息传递》简单介绍了 ABTest 实验开关和数据收集的一些实现，从流量划分、到实验开关、到数据收集，基本实现了 ABTest 的主要功能。下面则扩展谈一下 ABTest 的衍生功能：

基于 ABTest 的灰度发布

与 ABTest 一样，灰度发布也是圈出来一部分流量进行新功能的线上验证，验证基本能力没有问题之后再逐渐扩大覆盖面，支持扩展到全流量。

灰度发布本身也有很多种机制，例如最常用的：上线时先上单副本，再扩展到多副本，再扩展到单机房，再扩展到其它机房。这种方式非常自然，逐步扩量观察保证了服务稳定性。

但这样在上线的中间过程中，总不可避免地会出现一些用户体验问题。比如用户相邻的多次刷新请求被路由到版本不同的副本上，导致请求结果的跳变。

既然 ABTest 同样具备划分流量的能力，而且这种划分对于单个用户来说是稳定的，其实在很多情况下可以利用 ABTest 能力来实现灰度发布。

但基于 ABTest 的灰度发布，要求在架构上提供一些支持。

比如要发布新版本的网站静态文件（css/js 等），可以全量发布多个版本，然后通过 ABTest 圈定部分用户路由到新版本的静态文件，其余则路由到原版本的静态文件。

比如要发布新版本的服务程序，可以用新的 Docker 部署新版本程序，通过 ABTest 圈定部分用户请求路由到新的 Docker 上，其余则路由到线上的 Docker 上。

基于 ABTest 的灰度发布，很多情况下可以简化服务的部署和回滚操作，也保证了用户在灰度上线期间的体验稳定性。

服务好早鸟用户

在很多时候，企业的内外部总存在着一些早鸟用户，他们对灰度 / AB 新功能有着非常迫切的需求。

最典型的早鸟用户，就是公司的老板。当你开发了一个新功能，向上汇报了一下这功能多好多好。老板会问：

“为什么我没有看到这个新功能？”

你可能不得不解释说：

“老板你的 ID 没有被随机分到实验组里。”，

或者：

“老板这个功能只上了广州机房，北京访问不了。”

还有一种早鸟用户，是产品经理、测试人员，甚至可能包括提交 BUG 的外部用户。他们需要去回归新功能的线上效果是否达到预期，而且甚至他们需要一直不停地在不同的 AB 分支上切来切去比较效果。

这时候就需要一种灵活的机制，让这些早鸟用户有办法切换 AB 功能。

很多人最直接想到的方法，是在随机分桶之外搞一个 ID 分桶，收集上来早鸟用户的 ID，手动配置实验分组。这能在一定程度上解决问题，但设想这样的场景：

“老板，把你 UserID 发来一下，我给你配一下小流量实验。”

老板心里肯定在嘀咕，我要给了你 UserID，岂不是我看过啥发过啥你都能查出来了？这以后还能有隐私么？

而且配置 ID 的方式会增加运维的工作量，尤其是用户需要切来切去的时候。所以这时候不如提供一些强制命中灰度 / AB 的后门功能，能够大幅度降低沟通和维护的复杂度。

这种给早鸟用户的后门可以有很多种做法：

写 Cookie 机制。提供一个特殊的 URL，访问该 URL 就会种下一个强制命中的实验分组 Cookie，此后带着这个分组 Cookie 的访问都会中这个实验。这种适用于 WEB 端产品。APP 端使用的话，需要做一些 Cookie 同步工作。

配置注入机制。提供一个二维码，二维码内容是一段特殊的代码，APP 扫描到该二维码，就会被注入实验分组配置。这种适用于 APP 端产品。

隐藏功能机制。在某些内容上连续点 N 下，就会弹出一个配置面板，可以用来查看和调整当前所中的实验分组。

ABTest 平台如果能够提供这样的后门机制，将会大大方便与早鸟用户的沟通和合作。

下篇，我们聊一下流量分布问题。

ABTest 平台设计 - 实验开关和分组信息传递

通过上文《ABTest 平台设计 - 如何进行流量分桶》可以知道如何把用户流量科学地分配到不同的实验分组中，下面就面临一个问题：如何根据分组信息控制产品功能？

一种直观做法

最显而易见的做法，是直接在系统中传递分组信息，同时使用分组信息作为实验功能的开关。

比如说在服务端系统的接入层，通常是 Nginx 或者其它入口模块，对流量进行分组，为每个请求添加一个抽样分组字段，字段内容类似于 “Exp1Group1,Exp3Group2,...”。然后所有对下游的请求，都带着这个分组字段。那么下游的各个模块，都可以根据这个分组字段来决定程序逻辑。用伪码表示就是：

if 抽样分组字段 包含 Exp1Group1:
  do 实验1 的 A逻辑
elif 抽样分组字段 包含 Exp1Group2:
  do 实验1 的 B逻辑
else
  do 全流量逻辑

上面的伪码有些缺点，就是抽样分组信息 Exp*Group* 写死在了代码里，这样灵活性太差。所以，即使直接使用分组字段，通常也是将分组字段作为配置项写到代码里，这样更方便测试和部署。

客户端带来的挑战

在服务端直接使用抽样分组信息作为实验功能开关尚且可以忍受，因为一旦有问题调整下重新上线并不困难，但是在客户端 APP 中这样做就行不通了。客户端版本一旦发布，再想改动就面临着诸多的问题，比如发布审核周期问题，用户拒绝升级问题等等。

还有一个问题就是冗余代码和数据控制的问题。服务端功能 ABTest 转全以后，可以同时删除实验分组和对应的实验功能代码。客户端的实验代码是很难删除的，而且无法预判哪个分支会转全，所以没法直接删除实验分组。这会导致线上的实验越来越多，无法控制。

功能配置和分组配置分离的设计

回过头来思考这个需求：用户中了实验分组 A ，就走实验 A 逻辑。 其实可以加一层抽象：用户中了实验分组 A，就下发 A 对应的功能配置，实现走实验 A 逻辑。

就拿客户端 ABTest 来说，大实验可能是换一下 APP 版式，增加或者减少一个新功能；小实验可能是调整一下字体和字号，调整一下背景颜色或者图片等。其实本质上是控制一些功能的配置项。ABTest 可能会下线，但这些配置项会一直在产品中存在。

功能配置和分组配置分离还能带来很大的灵活性，也就是说云端可以创建新的 ABTest 尝试不同的功能配置组合，而不需要硬编码固定的 ABTest。

假设你本来有两个实验，标题大小实验和内容大图实验。如果硬编码情况下，你只能做原始实验方案的对比。如果用功能配置的话，等这两个实验完了，你还可以实验不同标题和内容大小图的结合实验，这是不需要再开发和发版的。

当然，动态配置在工程上如何更合理地实现，也是一个值得探讨的话题，这个留待以后再说。

实验分组信息记录

做 ABTest 的目的，主要是为了收集用户对实验的反馈，方法则是查看不同分组下用户数据指标和用户行为的对比和变化。这些数据的记录，往往是靠各种系统日志。

一种比较原始的办法，是用系统日志跟用户中实验分组的时间信息去 join，来区分 AB 分组。比如用户 A 在 1 号到 10 号分到了 A 分组，那么可以认为该用户 1 号到 10 号的日志都属于 A 分组，用来统计 A 分组指标。

这种方式存在着明显的缺点：一是实验的开启和关闭点不会是整点，而进行精确到秒的日志时间 join 成本太高，很多时候不得不抛弃首尾两天不足整天的用户日志；二是用户中实验分组在产品上的生效往往不是实时的。尤其是在客户端上，用户正在用一个功能的时候，很难瞬间将该功能切换成另一种样式，往往是在用户在下一次重入初始化的时候才开启实验样式，否则很容易引起崩溃。

对统计更友好的分组信息记录，是在每条关键的系统/客户端日志中都添加分组信息字段。这样虽然增加了一些冗余信息，但会使所有的关键数据记录都有实验分组这一列，用它做筛选即可进行指标的对比和用户行为序列的分析。

小细节：分组编码

上面谈到每条日志中都要记录用户所属的实验分组信息，这种冗余程度要求分组信息有着非常集约的编码设计，才能尽量减少传输和存储的数据量。可能的选择有以下几种：

奔放派：直接使用实验名+分组名作为分组信息。比如一个用户中了两个实验的不同分组，那就是：“ExpTitle_GroupA|ExpImage_GroupC”。奔放派的好处是日志可读性很高。
婉约派：将实验名和/或分组名精简为两个 ID，形如：“10010_1|10080_3”。好处是虽然可读性低了些，但毕竟直观。
理工派：将实验名和分组名精简为一个ID，形如：“12345|14523”。对于理工科思维来说，只要 ID 不重复就行，为啥要分成俩字段？
极客派：将 ID 用 62 进制表示，形如：“3d7|3Mf”。这个世界上，只有麻瓜才用 10 进制。
抠门派：将 ID 数组用 protobuf （varint）表示，有时候需要 base64 一下，形如：“算了举例太费劲”。好处就是一般人看不懂。

当然，可能还有其它的组合，大家意会就好了。

下篇，我们聊一下灰度发布和早鸟用户。

ABTest 平台设计 - 如何进行流量分桶

在 2018 年，我相信 ABTest 这个名词已经不用过多地解释了。但我发现很多公司，尤其是初创企业，虽然能理解这件事是什么，却不知道这件事该怎么做，以及该怎么做好。

这一系列文章，就是想讲清楚在设计具体的 A/B 测试平台这种基础架构时，要考虑哪些问题，以及有哪些推荐的做法。

今天先谈一谈：

如何进行用户分桶

我们都知道互联网产品的 ABTest 主要是围绕用户进行的实验，从统计意义上观察用户对不同的产品设计、交互体验、业务流程的反馈，从而指导产品的改进方向。

那么很重要的一点就是，怎么圈定哪些用户进行 A 实验，哪些用户进行 B 实验。

一种错误做法

在我工作过的一家公司，他们是这样做的：

“使用用户的 UserID 对 1000 取模分成 1000 个桶，然后选择不同的桶分配给 A 或者 B。”

我问研发人员为什么这么做？他们给的理由是：

“UserID 是自增 ID，跟用户注册顺序有关，有一定的随机性。可以保证用户随机地分到 A 或者 B 中。”

A/B 的流量圈定的一个重要原则就是无偏，不然无法进行对比评估。上面的做法看起来倒也有一定的道理。（还常见的一种做法是，用手机尾号最后一位来进行分桶，优惠多少就看你手机尾号是否运气好了 ^_^ ）

单单考虑孤立实验，这样做也无可厚非。但如果考虑到长期交叉、连续的实验，这样做有很大的问题。

首先，这种设计只能进行单层实验，也就是说一份流量只能通过一个实验。

如果实验人员选择了在任意一个桶中同时进行 X, Y 两个实验的话，那两个实验的结果就会相互干涉，导致最终结果不可信。例如：在尾号为 001 的桶里进行了两个促销活动“降价10%”和“满100减10块”的实验，最终 001 桶的用户订单数比其它桶高，那到底是哪个促销更有效果呢？

其次，这种设计在长期会造成桶间用户行为有偏。

也许刚开始因为其随机性，桶间用户行为差异很小。但第一个实验过后，桶间就开始有了行为差异——这也是 ABTest 的目标。N 个实验过后，桶间行为的差异可能就变得非常大了。

比如你总是在 001 桶的用户上实验幅度较大的促销活动，那么 001 桶的用户留存就会显著高于其它桶。那实验人员为了让实验效果更好看，可能会偷偷地继续选择 001 桶进行实验。

最后，这种设计的实验效率太低。因为一份流量只能通过一个实验，无法对流量进行充分的利用。

那该如何设计用户分桶，才能满足 ABTest 的需求呢？

一种正确方法

目前业界应用最多的，是可重叠分层分桶方法。

具体来说，就是将流量分成可重叠的多个层。因为很多类实验从修改的系统参数到观察的产品指标都是不相关的，完全可以将实验分成互相独立的多个层。例如 UI 层、推荐算法层、广告算法层，或者开屏、首页、购物车、结算页等。

单单分层还不够，在每个层中需要使用不同的随机分桶算法，保证流量在不同层中是正交的。也就是说，一个用户在每个层中应该分到哪个桶里，是独立不相关的。具体来说，在上一层 001 桶的所有用户，理论上应该均匀地随机分布在下一层的 1000 个桶中。

通过可重叠的分层分桶方法，一份流量通过 N 个层可以同时中 N 个实验，而且实验之间相互不干扰，能显著提升流量利用率。

从实操上来说，我们通常采取下面的方法：

首先，确定 Layer，确定请求 Tag。例如从 UserID，DeviceID、CookieID、手机号中选一个，支持匿名流量的，一般会选用 DeviceID 或者 IMSI 等作为请求 Tag。

然后，选一个你喜欢的 Hash 函数，尽量选个使用方便、随机性更强的；

最后，通过 Hash(Layer, Tag) % 1000 确定每层分桶。如果 Hash 函数支持 seed，那么使用 Layer 作为 seed，否则作为 SALT，即将 "Layer+Tag" 作为输入参数。

在完成分桶以后，还可以进行一定的流量筛选。例如来自北京和上海的用户，可以允许分别进行不同的实验。

可重叠分层分桶方法的系统性介绍，可以参见 Google 在 KDD 2010 发表的论文《Overlapping Experiment Infrastructure: More, Better, Faster Experimentation》，感兴趣的同学可以延伸阅读一下。

ETH ICAP 地址协议算法实现

以太坊钱包生成收款码时，有些是直接拿裸地址例如 "0x0728F0...75445F" 生成收款二维码，例如 TrustWallet；还有些是使用 "iban:" 开头的 ICAP 串来生成收款二维码，例如 imToken 1.0。

IBAN 本身是国际上一部分银行间转账使用的账号代码格式，以太坊社区在 IBAN 地址格式上做了一些扩展，用来编码以太坊地址和校验码，用作地址交换使用，叫做 ICAP (Inter exchange Client Address Protocol)。

IBAN 编码看起来很简单，但在实现上字母到数值的转换方法挺 trick 的，需要花一些时间进行理解。为简化理解，下面我拿一个例子来说明整个编码过程。

假设我们已经有了一个以太坊地址：0x730aEA2B39AA2Cf6B24829b3D39dC9a1F9297B88，下面是生成对应 ICAP 地址的过程：

第一步：将原始 16 进制以太坊地址转换成为 36 进制地址：

16 进制 ETH 地址：0x730aEA2B39AA2Cf6B24829b3D39dC9a1F9297B88
36 进制 ETH 地址：DFRZLRUTFTFY4EVINAHYF7TQ6MACYH4

第二步：为 36 进制 ETH 地址拼接上国家码 "XE" 和空校验字符串 "00" 形成 36 进制待校验字串：

36 进制 ETH 地址: DFRZLRUTFTFY4EVINAHYF7TQ6MACYH4
36 进制待校验字串: DFRZLRUTFTFY4EVINAHYF7TQ6MACYH4XE00

第三步：将 36 进制待校验字串逐字符转成 10 进制数字字串：

36 进制待校验字串: DFRZLRUTFTFY4EVINAHYF7TQ6MACYH4XE00
10 进制待校验字串: 1315273521273029152915344143118231017341572926622101234174331400

第四步：将 10 进制大整数对 97 取模，然后用 98 - 模数：

校验码：42 = 98 - 1315273521273029152915344143118231017341572926622101234174331400 % 97

第五步：将校验码替换空校验字符串，然后重新安排 XE** 到地址前，并加上前缀：

36 进制待校验字串: DFRZLRUTFTFY4EVINAHYF7TQ6MACYH4XE00
36 进制已校验字串: DFRZLRUTFTFY4EVINAHYF7TQ6MACYH4XE42
36 进制 IBAN 号: iban:XE42DFRZLRUTFTFY4EVINAHYF7TQ6MACYH4

可以用这个 IBAN 号生成二维码，用支持 iban 地址的 app 扫描二维码验证下是否能解析到正确的 ETH 原始地址。

ICAP 地址生成和校验的实现，可以参考下面这段 Java 代码，可直接用于 Android 客户端：

package com.yangwenbo;

import java.math.BigInteger;

/**
 * Ethereum ICAP (Inter exchange Client Address Protocol) Address Converter
 * Convert Ethereum Address from/to ICAP iban address
 *
 * @ref https://github.com/ethereum/wiki/wiki/Inter-exchange-Client-Address
 * -Protocol-(ICAP)
 */
public class EthICAP {
  private static String ICAP_XE_PREFIX = "XE";
  private static String IBAN_SCHEME = "iban:";
  private static String IBAN_MOD = "97";

  /**
   * Build ICAP iban address from ethereum address.
   *
   * @param ethAddress ethereum address
   * @return ICAP iban address
   * @example input:  0x730aea2b39aa2cf6b24829b3d39dc9a1f9297b88
   * return: iban:XE42DFRZLRUTFTFY4EVINAHYF7TQ6MACYH4
   */
  public static String buildICAP(String ethAddress) {
    if (!ethAddress.startsWith("0x") || ethAddress.length() != 42) {
      throw new IllegalArgumentException("Invalid ethereum address.");
    }
    BigInteger ethInt = new BigInteger(ethAddress.substring(2), 16);
    String base36Addr = ethInt.toString(36).toUpperCase();
    String checkAddr = base36Addr + ICAP_XE_PREFIX + "00";
    String base10Str = "";
    for (Character c : checkAddr.toCharArray()) {
      base10Str += new BigInteger(c.toString(), 36);
    }
    Integer checkSum = 98
        - (new BigInteger(base10Str)).mod(new BigInteger(IBAN_MOD)).intValue();
    String icapAddress = IBAN_SCHEME + ICAP_XE_PREFIX 
        + checkSum.toString() + base36Addr;
    return icapAddress;
  }

  /**
   * Decode ethereum address from ICAP iban address
   *
   * @param icapAddress ICAP iban address
   * @return ethereum address
   * @example input:  iban:XE42DFRZLRUTFTFY4EVINAHYF7TQ6MACYH4
   * return: 0x730aea2b39aa2cf6b24829b3d39dc9a1f9297b88
   */
  public static String decodeICAP(String icapAddress) {
    if (!isValid(icapAddress)) {
      throw new IllegalArgumentException("Invalid icap address.");
    }
    BigInteger ethInt = new BigInteger(icapAddress.substring(9), 36);
    String base16Addr = ethInt.toString(16).toLowerCase();
    return "0x" + base16Addr;
  }

  /**
   * Check ICAP iban address validation
   *
   * @param icapAddress ICAP iban address
   * @return true if valid; false if invalid
   */
  public static boolean isValid(String icapAddress) {
    if (!icapAddress.startsWith("iban:XE") || icapAddress.length() != 40) {
      return false;
    }
    String base10Str = "";
    for (Character c : icapAddress.substring(9).toCharArray()) {
      base10Str += new BigInteger(c.toString(), 36);
    }
    for (Character c : icapAddress.substring(5, 9).toCharArray()) {
      base10Str += new BigInteger(c.toString(), 36);
    }
    Integer checkSum
        = (new BigInteger(base10Str)).mod(new BigInteger(IBAN_MOD)).intValue();
    return checkSum == 1;
  }
}

专门用于批量空投的 ETH 智能合约

2018 年 4 月份，美链 BeautyChain (BEC) 爆出了智能合约漏洞，导致市值 60 亿的代币价格几乎归零，这在币圈里也算是一场大事件了。

那么漏洞主要出在什么地方呢？主要是 BEC 在标准的 ERC20 接口之外，自己添加了一个 batchTransfer 接口。一般而言，添加这种接口主要是为了便于空投时批量转账，可是 BEC 在这个接口设计上犯了两个错误：

没有使用安全的数值计算，存在数值溢出漏洞。这也是在网上被广泛传播的漏洞分析。
没有限定 batchTransfer 的使用范围。如果它限制了 batchTransfer 只能合约拥有者调用，即使存在漏洞也不能被人利用了。

BEC 为了便于空投增加的这个接口可谓代价惨重，但如果他们知道还有不需要修改代币主合约就能批量转账的办法，不知道会不会吐一口老血？

批量转账，指的是在一笔 ETH 交易中转多笔代币到不同的账户，一般用于 ERC20 代币项目启动时对用户进行空投（有人叫糖果发放）。

批量空投的好处主要有两个，一是省 GAS 费，但事实上省得不多；二是省时间，这是最主要目的。以太坊是以交易为粒度打包，如果转账只能单对单，即使一次发起多笔单对单的交易，等待这些交易被打包的时间也非常漫长，而且还有笔数上限限制。将多笔转账放到同一个交易中，被打包确认的速度就会非常快。一般 ERC20 代币项目启动时都会大撒币，空投地址动辄都是几万几十万，批量空投接口对效率会有上百倍的提升。

空投合约基本原理：ERC20 可以通过 approve 和 transferFrom 两个接口授权其它地址一定的额度。那既然是这样，我们也可以授权一个合约地址来花自己的代币，如果这个合约支持批量转账，那么就可以通过这个合约来实现批量空投了。

下面是具体实操流程：

假设已经存在一个 ERC20 代币的合约，合约地址为“TOKEN_ADDR”，而你的钱包里已经有了 100 万 TOKEN，你的钱包地址是“WALLET_ADDR”。

STEP1: 用自己的钱包部署支持批量转账的空投合约，假设创建成功后地址为“AD_ADDR”。下面给出最关键的部分，完整合约参考 github 链接。这里 transferFrom 取的是 msg.sender，理论上来讲不加 onlyOwner 限定这个合约也可以给其它人使用，但为了安全还是加上较为稳妥。

contract Airdropper is Ownable {
    function multisend(address _tokenAddr, address[] dests,
                       uint256[] values) public onlyOwner returns (uint256) {
        uint256 i = 0;
        while (i < dests.length) {
           ERC20(_tokenAddr).transferFrom(msg.sender, dests[i], values[i]);
           i += 1;
        }
        return(i);
    }
}

STEP2: 用自己的钱包授权空投合约地址 AD_ADDR 100 万 TOKEN 额度。即通过代码或者 remix 执行 approve(AD_ADDR, 1000000*精度)，注意这是 ERC20 合约里的接口，需要将交易发往 TOKEN_ADDR。

STEP3: 检查 AD_ADDR 是否得到了 100 万 TOKEN 授权。通过代码或者 remix 执行 allowance(WALLET_ADDR, AD_ADDR)，如果结果是 100 万 TOKEN，说明空投合约已经得到你的 100万额度授权。

STEP4: 用自己的钱包调用空投合约的 multisend 接口发起批量空投。通过代码或者 remix 执行 multisend(TOKEN_ADDR, [addr1, addr2, ...], [value1, value2, ...])，执行成功即能实现批量转账。这是空投合约里的接口，需要将交易发往 AD_ADDR。

这里最容易混淆的是几个地址，TOKEN_ADDR/WALLET_ADDR/AD_ADDR，在每一步操作中要想明白调用的是哪个合约的接口，参数应该填哪个地址。第一步只需要操作一次，第四步可以操作很多次，第二步可根据需求随时调整授权额度。

有了这个空投合约，你就可以将自己钱包里任意类型代币都通过批量转账方式空投出去。额度可控，任意账户均可用，还避免了在代币主合约里额外增加非 ERC20 标准接口带来的风险。

为什么两笔 Token 转账消耗 GAS 不同

大家都知道，以太坊 Token 转账的过程就是智能合约执行的过程，所以每笔交易都会根据智能合约的执行情况消耗一定数量的 GAS 作为交易手续费，同时也限制了交易对资源的滥用。

大家都能接受交易有手续费的概念，因为银行转账，或者支付宝微信转账，也都有可能产生手续费。大部分情况下，手续费是按照金额一定比例收取的。但会出乎很多人意料的是，在以太坊上即使往同一个地址里转账同一种 Token，消耗的 GAS 也有可能不同。

随便在 etherscan.io 上找一个近期有多笔 Token 交易的地址（其实找了好一会儿），比如这个： https://etherscan.io/address/0x5debb351b536eb1a61be12810abe614485167f46#tokentxns

可以看到近期正好有两笔 Rating Token 转入到这个账户，对比下 GAS 的消耗：

可以看到两笔转账消耗的 GAS 分别是 37434 和 22434，差了 15000。这就奇怪了，第一笔转账的 Token 金额比第二笔少，但是消耗的 GAS 反而更多，这完全不合理啊！

其实这种现象的解释也很简单，通过对比两笔交易的 VMTRACE 可以发现，最大的差异出现在一条指令上：“SSTORE”。第一笔交易的 SSTORE 消耗了 20000 GAS，第二笔交易只消耗了 5000 GAS。

这时候只好去查文档了，以太坊黄皮书 https://ethereum.github.io/yellowpaper/paper.pdf 附录G：FEE SCHEDULE。发现下面这段说明：

当 SSTORE 将存储的值从 0 改成非 0 时，消耗 20000 GAS，其它情况下消耗 5000 GAS。真相大白，不是以太坊乱收费，文档就是这么写的。

虽然明白了原理，但这的确颠覆了我们的认知，转账的 GAS 费用居然跟对方的账户余额有关！

不过这也解释了一件事：为什么我们在 etherscan 上经常能看到那么多 *.9999999 的转账？可能很多交易所或者黑客早就弄明白了这件事，故意留一点点金额在账户里，减少未来转账的 GAS 手续费。

JS Bridge API - 安卓和iOS统一设计探讨

1 背景

APP 开发过程中，为了追求开发效率、更新成本、性能和交互体验的平衡，经常会采取 Hybrid 的 APP 端架构。用基于 HTML5 的 WEB APP 实现易变的业务部分，用原生代码实现对效率、权限、数据交换等有要求的功能部分，然后通过 JS Bridge 打通两者，实现 JS 与原生代码的相互调用，完成整个产品功能。

但谈到 APP 开发，大家都知道至少存在两个平台，那就是 Android 和 iOS。这两个系统采取不同的原生开发语言，也有不同的 Webview 浏览器环境。但 WEB APP 是跨平台的，所以跨浏览器的调用总归需要在一个层面上得到统一，这样才不需要专门针对两个平台开发不同的 WEB APP。

下面先对在目前的技术框架下有哪些 JS - NA 相互调用方式做一下综合介绍，然后基于上述技术提出几种跨平台 JS Bridge API 统一设计思路，最后扩展讨论下 JS Bridge 设计中的一些值得注意的点。

2 在原生代码中调用 JS 代码

2.1 Android Platform

loadUrl 方法

Android Webview 的 loadUrl 接口，可以直接在 Java 代码中执行 Javascript 脚本。在 API 23（Android 6.0）及之前，这里的 Javascript 脚本能够获取当前加载页面的变量，甚至执行当前加载页面里定义好的函数。也就是说，传入的 JS 脚本是在当前加载页面的上下文中执行的。

    // Javascript: 在网页内定义一个函数，显示一个消息，返回一个内容
    function propose(msg) {
      alert(msg);
      return "Yes!";
    }

    // Java: 执行当前加载页面中定义好的一个函数 propose()
    webView.loadUrl("javascript:propose('Will you merry me?');");

可惜的是，这种方法：

只能执行 JS，无法获取返回结果，需要用其它的方式（下文介绍）获取返回结果；
而且会触发一次页面的刷新，可能会导致焦点丢失，软键盘消失之类的问题；
在 Android 7.0 以后，存在兼容性问题；

evaluateJavascript 方法

不过，如果 APP 适配的版本在 API 19（Android 4.4）以后，也可以使用 Webview 的 evaluateJavascript 接口。这也是更为推荐的做法，因为避免了上面 loadUrl 的问题。

    // Java: 执行当前加载页面中定义好的一个函数 propose()
    webView.evaluateJavascript（"propose('Will you merry me?')", new ValueCallback() {
      @Override
      public void onReceiveValue(String answer) {
        // 拿到 answer 是 "Yes!"
      }
    });

间接方法：Web Event 分发

这种方法很少有人提到，因为它是一种间接的调用方法。Web Event 接口提供了一种在 DOM 里进行广播的机制，那也就意味着原生代码可以不知晓 JS 的函数名，而只是广播一个事件，由页面内的 JS 决定是否处理这个 Event。这能够避免 JS 代码执行的异常，更常用于原生代码主动通知页面某些信息更新的场景。

    // Javascript: 在网页内定义一个函数，显示一个消息，返回一个内容
    function propose(e) {
      alert(e.msg);
      return "Yes!";
    }
    // 注册 WebDomEvent handler
    window.addEventListener("propose_event", propose);

    // Java: 
    webView.evaluateJavascript（"var e=new Event('propose_event'); e.msg='Will you merry me?'; window.dispatchEvent(e);", new ValueCallback() {
      @Override
      public void onReceiveValue(String answer) {
        // nothing
      }
    });

这种方法也存在无法获取返回结果的问题，也需要用其它的方式（下文介绍）获取返回结果。不过在使用到 Event 通知的场景下，我们一般也不需要返回。

2.2 iOS Platform

讲到 iOS，必须提到两个不同的 WebView，一个是过时但广泛使用的 UIWebView，另一个是建议且逐渐流行的 WKWebView。

UIWebView: stringByEvaluatingJavaScriptFromString 方法

UIWebView 提供了 stringByEvaluatingJavaScriptFromString 接口，并且能够获得返回结果。

    // OC: 执行当前加载页面中定义好的一个函数 propose()
    [_webView stringByEvaluatingJavaScriptFromString:@"propose('Will you merry me?')"];

这个方法的主要问题在于，它是一个同步的方法。它可能会阻塞 UI 线程，不太适合执行复杂的调用。

UIWebView: JavaScriptCore

在 iOS 7 之后，苹果提供了一个获取 UIWebView 中 JSContext 的方法，直接将 JS 执行环境暴露给原生代码。这样就可以在原生代码中任意执行 JS 代码了。同时，这个接口也可以用于 JS 调用原生代码的能力，下文中会介绍。

    // OC: 获取 JSContext 
    JSContext *context = [_webView valueForKeyPath:@"documentView.webView.mainFrame.javaScriptContext"]
    [context evaluateScript:@"propose('Will you merry me?')"];

WKWebView: evaluateJavaScript 方法

可以看到，JavaScriptCore 使用起来极其方便，但在 WKWebView 中我们享受不到这种方便了。因为 WKWebView 的页面渲染是在独立的进程中，在当前进程无法直接拿到 JSContext。

不过 WKWebView 提供了一个更好的 evaluateJavaScript 接口，可以传入一个回调函数，实现了 JS 的异步调用。

    // OC: 执行当前加载页面中定义好的一个函数 propose() 
    [_webView evaluateJavaScript:@"propose('Will you merry me?')" completionHandler:^(id _Nullable result, NSError * _Nullable error) {
      // 拿到 result 是 "Yes!"， error 是 nil
    }];

可以看到，evaluateJavaScript 接口与上文 Android evaluateJavaScript 接口极为类似。

间接方法：Web Event 分发

当然，由于 Event 接口是 WEB 标准，iOS 上也可以同样进行 Event 分发。场景和作用请看上文，不再赘述，简单代码如下：

    // Javascript: 在网页内定义一个函数，显示一个消息，返回一个内容
    function propose(e) {
      alert(e.msg);
      return "Yes!";
    }
    // 注册 WebDomEvent handler
    window.addEventListener("propose_event", propose);

    // OC: 执行当前加载页面中定义好的一个函数 propose() 
    [_webView evaluateJavaScript:@"var e=new Event('propose_event'); e.msg='Will you merry me?'; window.dispatchEvent(e);" completionHandler:^(id _Nullable result, NSError * _Nullable error) {
      // nothing
    }];

3 在 JS 代码中调用原生代码

3.1 Android Platform

addJavascriptInterface 方法

Android 从 API 1 就开始提供了 addJavascriptInterface 接口，用这个接口可以很方便地把原生的方法注入到 JS 上下文中，可以说比 iOS 做得好很多。

    // Java: 定义一个类，提供一个接口，返回一个内容
    class NativeApis {
      @JavascriptInterface
      public String propose(String msg) {
        return "Yes!";
      }
    }
    webView.addJavascriptInterface(new NativeApis(), "Bridge");

    // Javascript: 执行一个 native 的方法
    alert(window.Bridge.propose("Will you merry me?"));

但问题在于在 API 17 (Android 4.2) 之前这个方法存在安全漏洞，攻击者可以执行任意代码。在 API 17 及以后，通过显式地给出 @JavascriptInterface 限定暴露的接口，避免了安全漏洞。但在 API 17 以前，不建议使用此方法，可以考虑下面的 work around。

URL 拦截：shouldOverrideUrlLoading

这是一种曲线救国的方式，那就是通过加载非标准 Scheme（非 http/s, 非 ftp）的 URL，用一个非法（或者叫自定义）的 URL 传递参数。当页面中的 Javascript 动态插入一个 iframe 元素时，iframe 的 url 会被 WebView 通过 shouldOverrideUrlLoading 方法传给 WebViewClient 判断是否需要加载该 URL。在这里可以拦截自定义的 URL Scheme，通过 encode 到 URL 中的信息传递参数。

    // Java: 解析要加载的 URL，如果是自定义 scheme，调用相关的函数
    class MyWebViewClient extends WebViewClient {
      @Override
      public boolean shouldOverrideUrlLoading(WebView view, String url) {
        if (url.startsWith("bridge://")) {
          // 解析 // 后面的 action 和参数，调用相关的函数
        }
        return true;
      }
    }
    webView.setWebViewClient(new MyWebViewClient());

    // Javascript: 用不可见 iframe 打开一个自定义 URL，参数需要 urlencode
    bridgeFrame = document.createElement('iframe');
    bridgeFrame.style.display = 'none';
    bridgeFrame.src = 'bridge://propose?msg=Will%20you%20merry%20me%3F';
    document.documentElement.appendChild(bridgeFrame);

URL 拦截的问题也是无法直接拿到原生代码的返回结果，需要用 URL 字符串参数传入一个回调函数，然后用上文讲到的原生代码调用 JS 的方式回调传回结果。

弹出框拦截

Android Webview 可以定义一些接口，重载 onJsAlert()、onJsConfirm()、onJsPrompt() 这些回调方法。当 JS 控制弹出框时，这些回调会被调用，进而可以通过约定的特殊内容格式判断是真正的弹出框，还是 JS 到 NA 的调用。由于 onJsPrompt 可以返回结果，所以更合适一些。

    // Java: 重载 onJsPrompt 方法，提取 prompt 内容判断是否需要拦截
    class MyWebViewClient extends WebChromeClient {
      @Override
      public boolean onJsPrompt(WebView view, String url, String message, String defaultValue, JsPromptResult result) {
        if (message.startsWith("bridge://")) {
          // 解析 // 后面的 action 和参数，调用相关的函数
          result.confirm("Yes!");
        }
        return true;
      }
    }
    webView.setWebViewClient(new MyWebViewClient());

    // Javascript: 调用 prompt 弹框，使用特定内容格式以利于拦截
    alert(window.prompt('bridge://propose?msg=Will%20you%20merry%20me%3F'));

Local Server

APP 可以在手机的本地地址 127.0.0.1 上启动一个 HTTP/WebSocket 服务，浏览器内的 JS 可以通过本地回环网络连接到这个服务，把 APP 视为一个服务端，进行正常的 B/S 通信，也可以实现在 JS 中调用原生代码。

使用这种方式时，额外注意一点是要进行有效地鉴权。因为除了 APP 内的 WebView，手机内其它的 APP 也可以访问这个服务，很可能会造成一些安全问题。所以可能需要 NA 在加载 Webview 的时候，通过 Cookie/URL参数/JS 上下文环境传入合法的 Token，才能保证其安全性。

还有一点是，如果不幸出现了端口冲突，需要有办法去解决。

3.2 iOS Platform

URL 拦截：shouldStartLoadWithRequest

UIWebView 原生并没有提供任何可以在 JS 代码中调用 NA 方法的 API，但 UIWebView 也可以通过与 Android 相同的方式进行 URL 拦截，进而间接实现 JS 到 NA 的传参。

    // UIWebView
    - (BOOL)webView:(UIWebView *)webView 
    shouldStartLoadWithRequest:(NSURLRequest *)request 
     navigationType:(UIWebViewNavigationType)navigationType;

这个方式在 WKWebView 上，依然有效，只是叫做 decidePolicyForNavigationAction

    - (void)webView:(WKWebView *)webView 
    decidePolicyForNavigationAction:(WKNavigationAction *)navigationAction 
    decisionHandler:(void (^)(WKNavigationActionPolicy))decisionHandler;

UIWebview: JavaScriptCore

大概苹果官方也觉得这种方式太 ugly，所以后来在 iOS 7 以后，提供了一个好一些的接口，就是 JavaScriptCore。在页面加载完后，可以获取当前加载页面的 JavaScript 上下文执行环境 JSContext。然后可以把一些原生方法注入到 JSConext 中，这样页面内的 JS 就可以直接调用到这些注入的方法了。

    // OC: 获取 JSContext，将原生方法注入进去
    JSContext *context = [webView valueForKeyPath:@"documentView.webView.mainFrame.javaScriptContext"];
    context[@"propose"] = ^(msg) {
      return @"Yes!";
    };

    // Javascript: 调用 prompt 弹框，使用特定内容格式以利于拦截
    alert(window.propose('Will you merry me?'));

WKWebView: WKScriptMessageHandler 方法

然后到了 WKWebView，JSContext 不好使了。不过 WKWebView 提供了另外一个方法，那就是 WKScriptMessageHandler。在创建一个 WKWebView 的时候，可以通过配置将一个 WKScriptMessageHandler 对象指针和 NAME 传进去。这样在加载页面中，通过 window.webkit.messageHandlers.NAME.postMessage 就可以将消息传给原生的 WKScriptMessageHandler 对象。

    // OC: 编写 Message 回调，并注册 Message Handler
    @interface Brige : NSObject 
    - (void)userContentController:(WKUserContentController *)userContentController
          didReceiveScriptMessage:(WKScriptMessage *)message {
      if ([message.name isEqualToString:@"Bridge"]) {
        // 处理 message
      }
    }
    ...
    _bridge = [[Brige alloc] init];
    [[_webView configuration].userContentController addScriptMessageHandler:_bridge name:@"Bridge"];

    // Javascript: 发消息给注入的 Message Handler
    window.webkit.messageHandlers.Bridge.postMessage("Will you merry me?");

WKScriptMessageHandler 同样也是无法直接返回结果。

WKWebView: 弹出框拦截

与 Android 类似，WKWebView 也提供了弹出框的回调函数，可以通过此类函数实现参数的传递。

    // WKUIDelegate
    - (void)webView:(WKWebView *)webView 
    runJavaScriptAlertPanelWithMessage:(NSString *)message 
    initiatedByFrame:(WKFrameInfo *)frame 
    completionHandler:(void (^)(void))completionHandler;
    
    - (void)webView:(WKWebView *)webView 
    runJavaScriptConfirmPanelWithMessage:(NSString *)message 
    initiatedByFrame:(WKFrameInfo *)frame 
    completionHandler:(void (^)(BOOL result))completionHandler;
    
    - (void)webView:(WKWebView *)webView 
    runJavaScriptTextInputPanelWithPrompt:(NSString *)prompt 
        defaultText:(NSString *)defaultText 
    initiatedByFrame:(WKFrameInfo *)frame 
    completionHandler:(void (^)(NSString *result))completionHandler;

Local Server

见上文中对 Android Local Server 调用方式的讨论。

4 notify-fetch-run 间接机制

上文中讲到的很多还是较为直接的 JS-NA 相互调用方法，其实还有一些更开脑洞的方法。比如 notify-fetch-run 机制，不需要直接传递参数或者代码，只需要传递一个信号，然后通过可以共同访问的第三方传递真正的参数，进行执行。

4.1 notify

如果仅仅把相互调用简化成一个 0/1 信号，那除了上面讲到的内容，还有太多东西可以做为信号。比如 event，比如通过远程服务器通知之类，下面讲一个比较奇葩的方法：

notify 中的奇葩：online/offline event

HTML5 中有一对标准的 event，叫做 online/offline，可以反应当前浏览器的联网状况。而 WebView 呢，可以通过 webView.setNetworkAvailable() 来控制联网状态。那也就意味着，原生代码只要控制 webView 的联网状态变化，就可以发送 0/1 信号给 JS。JS 收到 0/1 信号后，可以通过下文 JS 调用原生的方式获取原生代码要传入的内容，然后执行这些内容。

这种方式最大的问题在于，需要非常精巧地设计整个状态流转。因为传入的信号信息量非常少，而且正常情况下网络状况的变化也会触发这两个 event。

4.2 fetch

fetch 也可以有很多种，只要是 JS 和 NA 都能访问到的目标，都可以做第三方信息交换。比如本地 socket，远端网站，或者本地文件 file://，或者 cookie，localstorage。

5 安卓 & iOS 统一 API

我们讨论 Android & iOS API 的统一，主要是在 JS 里的统一，因为只有 JS 是跨平台的。统一 API 有两种实现方法：

一种是通过封装的统一，就是说 JS 与原生代码的底层通信方式是不同的，但通过一个嵌入 WebView 的 JS 库实现 API 的统一。
另一种是无需封装的统一，也就是在底层通信的接口就保持了统一，在两端的 JS 代码上是完全一致的。

5.1 JS 调用原生代码

URL 拦截（Android & iOS）

从上文介绍的方法就可以直接看出，通过 URL 拦截实现 JS 调用原生代码是统一适用于所有平台的方法，而且没有版本限制。所以很多 JSBridge 都使用了这种方法以做到最大的兼容性。

    // Android Java: 解析要加载的 URL，如果是自定义 scheme，调用相关的函数
    class MyWebViewClient extends WebViewClient {
      @Override
      public boolean shouldOverrideUrlLoading(WebView view, String url) {
        Uri uri = Uri.parse(url);
        // FIXME 异常处理
        if (uri.getScheme().contentEquals("bridge")) {
          if (uri.getAuthority().contentEquals("propose")) {
            view.evaluateJavascript(uri.getQueryParameter("callback") + "('Yes!')", null);
          }
        } else {
          view.loadUrl(url);
        }
        return true;
      }
    }
    webView.setWebViewClient(new MyWebViewClient());

    // iOS OC: 解析要加载的 URL，如果是自定义 scheme，调用相关的函数
    - (BOOL)webView:(UIWebView*)webView shouldStartLoadWithRequest:(NSURLRequest*)request navigationType:(UIWebViewNavigationType)navigationType {
      NSURL * url = [request URL];
      if ([[url scheme] isEqualToString:@"bridge"] && [[url host] isEqualToString:@"propose"]) {
        NSArray *params =[url.query componentsSeparatedByString:@"&"];
        for (NSString *paramStr in params) {
          if ([paramStr hasPrefix:@"callback"]) {
            NSArray *kv = [paramStr componentsSeparatedByString:@"="];
            [webView stringByEvaluatingJavaScriptFromString:[kv[1] stringByAppendingString: @"('Yes!')"]];
          }
        }
        return NO;
      }
      return YES;
    }

    // 统一的 Javascript: 用不可见 iframe 打开一个自定义 URL，参数需要 urlencode
    bridgeFrame = document.createElement('iframe');
    bridgeFrame.style.display = 'none';
    bridgeFrame.src = 'bridge://propose?msg=Will%20you%20merry%20me%3F&callback=showResult';
    document.documentElement.appendChild(bridgeFrame);

这种方法的问题：

对 URL 格式有 UrlEncode 的要求，对于要传递复杂参数的情况不友好。比如我们需要在参数中传递一个正常的 URL，就需要对这个参数进行两次 UrlEncode，才能保证解码不出问题。
通过 iframe 打开 URL 的方式不太直观，也缺少调用成功的返回确认，需要在 JS 端再封装一下。

对象植入（Android & iOS UIWebView）

放宽兼容性限制，Android 不再兼容 4.1 及以前版本，iOS 不再兼容 iOS 6 及以前版本。那就可以直接通过 Android 的 addJavascriptInterface 和 iOS 的 JSContext 实现将要调用的方法以对象的方式注入到 JS 上下文中，同时也可以直接获得返回结果。

    // Android Java: 定义一个类，提供一个接口，返回一个内容
    class NativeApis {
      @JavascriptInterface
      public String propose(String msg) {
        return "Yes!";
      }
    };
    webView.addJavascriptInterface(new NativeApis(), "Bridge");

    // iOS OC: 定义一个类，提供一个接口，返回一个内容
    // *.h 
    #import 
    @protocol BrigeProtocol 
    - (NSString *)propose:(NSString *)msg;
    @end
    
    @interface Bridge : NSObject
    @end
    // *.m
    // 永远返回 Yes
    @implementation Bridge
    - (NSString *)propose:(NSString *)msg {
      return @"Yes!";
    }
    @end
    ...
      // 注意生命周期
      bridge = [[Bridge alloc] init];
    ...
      JSContext *context = [webView valueForKeyPath:@"documentView.webView.mainFrame.javaScriptContext"];
      context[@"Bridge"] = bridge;

    // 统一的Javascript: 执行一个 native 的方法
    showResult(window.Bridge.propose("Will you merry me?"));

对象植入（Android & iOS WKWebView）

如果使用 WKWebView，那就意味着进一步放宽了兼容性限制，因为 WKWebView 不支持 iOS 7 及以前版本。上文说到，WKWebView 不支持 JavaScriptCore，但提供了一个 WKScriptMessageHandler 方法。这也意味着我们只能将调用方式尽量往 WKWebView 的方式上统一。

WKWebView 注入的对象，只能使用 postMessage 接口，而且是注入到 window.webkit.messageHandlers 。虽然 Android 的 addJavascriptInterface 不能实现属性的注入，也就是说我们无法在原生代码中在 JS 上下文中添加一个 window.webkit.messageHandlers.NAME 这样一个对象。但我们可以在 WKWebView 中通过 addUserScript 注册一个加载页面时就执行的脚本，将 window.webkit.messageHandlers.NAME 赋给 window.NAME，就实现在注入对象层面的统一。即 Android 和 iOS 里的 Brige 对象都注入到了 window 下。

然后 Android addJavascriptInterface 注入的对象也实现一个与 WKWebView 类似的 postMessage 接口，那么两端就实现了底层接口上的统一。

    // Android Java: 定义一个类似于 WKScriptMessageHandler 的类
    class NativeApis {
      private WebView mWebView;
      public NativeApis(WebView webview) {
        mWebView = webview;
      }
      @JavascriptInterface
      public void postMessage(String msg) {
        try {
          JSONObject json_obj = new JSONObject(msg);
          final String callback = json_obj.getString("callback");
          // JS 是异步线程，转到 UI 线程执行 JS
          mWebView.post(new Runnable() {
            @Override
            public void run() {
              mWebView.evaluateJavascript( callback + "('Yes!')", null);
            }
          });
        } catch (JSONException e) {
          Log.i("Bridge", "postMessage: " + e.getMessage());
        }
      }
    };
    // 初始化 NativeApis 时多一个 webView 句柄
    webView.addJavascriptInterface(new NativeApis(webView), "Bridge");

    // iOS OC: 定义 WKScriptMessageHandler 处理接口
    - (void)userContentController:(WKUserContentController *)userContentController didReceiveScriptMessage:(WKScriptMessage *)message {
      // 解析 JSON，调用 callback 返回数据
      NSData *jsonData = [message.body dataUsingEncoding:NSUTF8StringEncoding];
      NSDictionary * msgBody = [NSJSONSerialization JSONObjectWithData:jsonData options:kNilOptions error:nil];
      NSString *callback = [msgBody objectForKey:@"callback"];
      [message.webView evaluateJavaScript: [NSString stringWithFormat:@"%@('Yes!')",
                                              callback] completionHandler:^(id _Nullable result, NSError * _Nullable error) {
        // FIXME 出错处理
      }];
    }
    ...
    [[_webView configuration].userContentController addScriptMessageHandler:self name:@"Bridge"];
    // 将 window.webkit.messageHandlers.Bridge 改名成 window.Bridge 与 Android 统一
    WKUserScript* userScript = [[WKUserScript alloc]initWithSource:@"if (typeof window.webkit != 'undefined' && typeof window.webkit.messageHandlers.Bridge != 'undefined') { window.Bridge = window.webkit.messageHandlers.Bridge;}" injectionTime:WKUserScriptInjectionTimeAtDocumentStart forMainFrameOnly:YES];
    
    [[_webView configuration].userContentController addUserScript:userScript];

    // 统一的Javascript: 给 Native 发送一个消息，通过回调返回结果
    message = {
      func: "propose",
      options : {
        msg: "Will you merry me?"
      },
      callback: showResult.name
    };
    window.Bridge.postMessage(JSON.stringify(message));

5.2 原生代码调用 JS

JS 调用原生代码，主要目的是为了增强 JS 的能力。而原生代码调用 JS 大部分情况下主要是为了便捷 JS 的调用，这可以分为三种情况：

主动设置上下文。每次加载页面必须执行一些 setup，将一些 JS 环境设置好，不需要每次都从服务器端获取。比如上文中讲到的 addUserScript 添加一个加载页面时的上下文环境。
主动发起与 JS 交互。在某些比较少见的场合下，原生代码可能想要主动将一些信息通知给 JS，尤其是一些不在官方 HTML5 支持能力的事件，比如语音的输入、扫码的结果、调用失败等等。
最常见的，是被动的回调 JS。也就是 JS 发起了一个调用，由于调用方式的限制无法返回，或者需要较长时间才能拿到结果，这就需要原生代码在执行完调用后通过回调回传给 JS。

主动设置上下文不需要 API 的统一。

主动发起与 JS 的交互场景比较少，可以有两种方法实现：一种是页面加载过程中将回调注册给 NA；另一种是通过 Web Event 的方式由 NA 广播给 JS 上下文。我们更建议通过 Web Event 的方式广播，这样不受页面加载状态之类的限制，交互上更简单。当然，也可以两种方法结合，增加一个 Event 到 NA 的注册，保证有效广播。

被动的回调 JS，实现上比较直观，只要在 JS 调用 NA 的接口中增加一个 callback 参数，NA 在完成之后回调记录下来的接口即可。

6 JS Bridge 设计上的更多考虑

6.1 是否使用第三方 JS Bridge 库

使用第三方 JS Bridge 库，理论上能避免很多烦恼，按照它的 step by step 指引，很容易就能配出来一个可以工作的 JS Bridge 环境。

但第三方库也有一些缺点。前面讲到，第三方库为了易用，往往在 NA 层和 JS 层都会做一套新的 Adapter API 封装，但不好意思的是，它提供的仍然是一套通用 API 封装，往往应用方还得在上面再封装一层业务 API。这也就意味着，每次 JS-NA 的调用，需要走下面的一套流程：

中间的三层是由第三方库实现的。如果不熟悉第三方库的代码，或者说第三方库在这三层做了过重的封装，那调试问题就会非常困难。

我上文讲到无需二次封装的统一 API，就是希望通过选取合适的 Bridge 方法，把 JS Adapter 这一层去掉或者让它尽量地薄。这样整个调用过程能得到充分地简化，更便于问题的追查和整体的设计。

第三方库还有一个问题就是，它往往追求大而全。比如有些第三方库就是想非常完整地支持 Hybrid App 的设计，但很多时候我们往往仅需要有限个接口调用而已。为了实现有限地一些功能，还得去了解第三方库的整体设计，有时候代价也高了些。

6.2 参数约束

由于 Javascript 是弱类型的语言，而 Java 和 OC 都是强类型的，在参数的互相传递时，需要进行严格的检查。虽说 addJavascriptInterface 等方法可以动态地注入无数个对象或者方法，但仍然不建议这样做，因为维护成本太高。就像 URL 拦截一样，搭桥的路有一条就足够了。

JS Bridge 的接口，就像是一个 RPC 协议。这个 RPC 协议需要有一个版本，这样我们知道哪些版本有哪些 API，更利于有效地调用。这个 RPC 协议需要约定哪些固定的字段，这样我们可以用在入口统一校验字段是否完整，字段类型是否可用。

6.3 出错信息

跨平台的接口，很多时候 DEBUG 比较困难，尤其是上文讲到一些方式无法直接返回结果，自然也无法直接返回错误。所以在接口上，要尽量考虑出错时错误信息的回传通道，例如接口需要提供出错的 callback。

那么问题来了，如果 callback 参数也写错了怎么办？总不能让 FE 看 APP 的 log 吧？

所以建议在接口设计上，增加一个全局错误的 Web Event，就像 Linux 系统下的 errno。任何 JS 调用 NA 失败或者回调失败，都通过这个 Event 分发出去，这样前端就很容易知道错在哪里了。

6.4 API 安全性

虽然网页是在 APP 自己的 WebView 中打开的，但因为网页天然具有的超链接性质，也很难保证所有可以点开的页面都是可信的，比如有些时候活动的落地页可能会到第三方页面等。所以对一些影响 APP 运行逻辑的关键 API 接口，需要做站点的白名单控制，避免第三方站点调用此类 API。

7 总结

这篇文章列举了可用于 JS Bridge 的各平台技术实现，建议了几种无需二次封装的 Android & iOS 平台 JS Bridge 统一 API 的可选方案，讨论了设计一个简洁、规范、安全的 JS Bridge API 需要考虑的问题和解决思路。希望对读者能有所助益。

神经网络图像输入的 resize 问题

这个标题在我的博客后台躺了快一年了，但一直没想好该怎么写。主要是没有深入地去研究这里面的问题，就随便谈谈一点粗浅的认知吧。这些认知可能不对，仅供参考，并且欢迎批评。

一、不同的 resize 方式对最终的结果有一定的影响，尤其是用随机图片评估时会更加明显。

看似用的是同一个神经网络，同一个训练集，但在输入的处理上仍然会有各种不同。比如 Inception 要求 299x299，你可以直接用 ImageMagick 将原始图片处理成 299x299 再输入，也可以用 OpenCV 读入图片后再转成 299x299，还可以直接用深度学习框架（TensorFlow/Caffe）进行 resize。甚至同一种方法也可能有各种不同的参数控制，比如最邻近插值、双线性插值、双立方插值等。通过不同的 resize 方法训练出来的网络参数，或者同一张图片不同方法 resize 后预测的输出，数值是存在差异的。如果使用的是质量较低的大规模数据集，差异可能会非常明显。

二、不同的 resize 方式对最终结果的影响无法确定。

换种说法，这可能是个玄学。这算是一个经验总结，就不多讲了。也就是说，某种 resize 方式有时可能让结果变好，有时也可能让结果变差。

三、训练、评估和线上预测时统一图片处理方式有一些好处。

有的公司在训练神经网络时使用一种框架，上线时使用另一种框架；或者训练时采取一种输入，上线时采取另一种输入。都会导致线上服务的预测结果跟评估结果不一致，导致排查问题较为复杂。

有时候为了性能考虑，必须在客户端完成图片处理，resize 成较小图片后再传给服务端。而客户端往往使用的不同的库，比如 iOS 可以使用 Core Graphics 库或者 UIKit 库，Android 的 Bitmap 库，这些库在服务端是基本上无法使用的。这时候就需要知道这可能会导致线上效果与评估结果有不一致的可能，并且采取一定的措施来消减这样的不同。

react-native-navigation 简单分析和跨页跳转

虽然 react-native-navigation 是 Facebook React Native 官方文档推荐的导航库之一，但我也不得不说使用它做 APP 导航主框架的体验简直糟糕透了。当然，这本身可能就是 React Native 自身的问题。

1 react-native-navigation 简单分析

使用 react-native-navigation 首先得理解下它的实现。它独立于 RN Component 的 componentWillMount/componentWillUnmount 接口实现了一套自己的事件机制，最重要的可能是 willAppear/willDisappear。它提供了一套页面堆栈操作和切换动画， push 可以将目标页面切换到最上方，pop 可以返回上一页。

可能是为了性能或者设计使然，push 的时候不会销毁当前页。也就是说，在 A 页面里 push 跳转到B 页面，不会 Unmount A 页面的Component。不过在 B 页面 pop 回 A 页面时，的确会 Unmount B 页面的Component。这也意味着，整个导航路径是一个页面堆栈，只要在堆栈里页面的 Component，都不会被 Unmount。

2 页面堆栈的问题

这有时候会导致一些很严重的问题。有些情况下，特定的 Component 可能会占用唯一的系统资源，比如：麦克风、照相机等。这些 Component 在实现的时候往往只考虑了 React Native 的接口，在 componentWillUnmount 的时候释放占用的资源。它们不会预料到与 react-native-navigation 的结合，专门提供一个 willDisappear 时释放资源的接口，而且有些情况下也未必能这样做。

如果 A 页面在使用这些 Component 已经占用了麦克风或者相机，B 页面也要使用这些 Component，那么从 A push 跳转到 B 时，A 页面的资源不会被释放，B 页面就可能会遇到麦克风不可用，或者相机无法初始化等问题。

解决这个问题，最简单的办法是调整页面交互顺序，保证使用这些独占系统资源的页面永远在堆栈的最顶端，或者使用 Modal Stack，把独占资源的 Component 放到 Modal 里去 present 然后 dismiss。

3 跨页跳转实现

react-native-navigation 只能支持页面堆栈，而且看起来只能支持 push/pop 一个页面，也就是说整个切换过程是串行的，push 顺序是 A->B->A->D ，那么 pop 顺序也只能是 D->A->B->A。

但很可惜地是，在产品经理眼中，是不存在串行页面切换这种限制的。TA 们有时候要求跳转的过程中没 A，但返回的时候要有 A；或者要求跳转的过程中有 A，但返回的时候可以跳过 A，或者甚至直接返回到堆栈最底端。

直接返回栈底很容易，react-native-navigation 提供了 popToRoot 接口，但它没有提供一下子 push 多个页面，或者一下子 pop 多个页面的功能。它也没有类似于 HTML5 的 history API，我们直接对堆栈进行操作，是不太可能的。只能通过它现有的接口想办法。

3.1 跨页 push

跳转的过程没有 A，但返回的时候要有 A，这只是一个产品需求。在实现上，是可以变成跳转过程中有 A，但是 A 被快速跳过，返回的时候才会被真正渲染。这样从用户体验上来看，并没有看到 A。代码实现上，可以考虑两种方法：

willAppear 结合 didDisappear 做状态控制

在 A 的 state 里放一个 isFirstEntry 状态，默认是 true。willAppear 里判断 isFirstEntry 则直接跳转到下个页面，render 里判断 isFirstEntry 则只渲染一个背景 View ，否则才渲染正常页面。这样就实现了在页面切换过程中跳过 A。在的 didDisappear 里将 isFirstEntry 置为 false 。这样在返回的时候 willAppear 和 render 表现就和正常返回一样了。

  willAppear = () => {
    if (this.state.isFirstEntry) {
      this.props.navigator.push(...);
      return;
    }
    ...
  };
  render() {
    if (this.state.isFirstEntry) {
      // 返回背景 View
    } else {
      // 返回正常 View
    }
  }
  didDisappear = () => {
    this.setState({isFirstEntry: false});
  };

willAppear 页面计数

在需要更复杂逻辑的地方，可以在 state 里放一个 appearTimes 计数器。在 willAppear 里给计数器加一，这样每次进入页面都会增加计数。通过判断计数器的值，来决定如何 render 或者跳转。

  willAppear = () => {
    this.setState({appearTimes: this.state.appearTimes + 1});
    if (this.state.appearTimes === 1) {
      this.props.navigator.push(...);
      return;
    }
    ...
  };
  render() {
    if (this.state.appearTimes === 1) {
      // 返回背景 View
    } else {
      // 返回正常 View
    }
  }

3.2 跨页 pop

跳转的过程中有 A，但返回的时候要跳过 A，相当于可以自己操作 pop 的步长。很遗憾，react-native-navigation 没有提供这样的接口。不过我们可以采用一个 trick 的手段，来实现这个逻辑。

假设从 Root->A->B，在 A 的 state 里放一个 relayPop ，默认是 false。在 A 跳转到 B 时，通过 props 传入一个回调：setParentRelayPop，B 可以通过这个回调修改 A 的 state relayPop 为 true；在 A 的 willAppear 中，首先判断 relayPop 是否为真，如果是真的话，代表是从 B 返回且 B 要求接力返回，那么 A 就直接 pop 返回到 A 的上级。 B 在返回时，首先通过回调设置 relayPop 为 true，然后再调用 pop 接口，就实现了跨页返回。

// Screen A
  willAppear = () => {
    if (this.state.relayPop) {
      this.props.navigator.pop();  // 接力返回
      return;
    }
    ...
  };
  ...
    // 跳转逻辑某处
    this.props.navigator.push({..., passProps: {
                                  setParentRelayPop: () => this.setState({relayPop: true}) 
                                }});
// Screen B
    // 返回逻辑某处
    this.props.setParentRelayPop();
    this.props.navigator.pop();

ES/Redis/SSDB/BRPC 的 Open-Falcon 监控脚本

前些天想监控不同机房的多个 ElasticSearch 集群，结果网上找到的监控脚本都不太好用。我希望这个脚本能够并发获取多个 ES 集群的状态，而且监控的目标和上报的地址可以通过配置文件修改，不需要去脚本中查找修改位置。

了解到 Open-Falcon 的上报接口非常简单，于是就自己写了一个同时查询多个 ES 集群信息并上传到 Open-Facon Agent 的监控脚本。能够将多个集群的索引文档数、查询请求数、查询时间等关键信息收集到 Open-Falcon 中。

用了一段时间，感觉还挺不错的。后来又头疼 Redis 内存占用太高，分析困难等问题，又以同样的思路写了 Redis 的监控脚本，都是通过 info 命令获取集群的状态，把 KEY 数量，内存占用，命令数，过期的 KEY 数量等等相关的信息都收集到了 Open-Falcon 里。这样就能通过 Open-Falcon 的报表看到 Redis 使用情况的变化。

SSDB 虽然兼容 Redis 命令，但 info 命令的返回跟 Redis 差异实在是太……大了点儿。内容不一样也就算了，格式也太随意了，用纯文本画了几个表格，真让人无力吐槽。没法复用 Redis 的监控，只能自己给 info 写个 parser，将信息提取成可用的字典。

最后说一下 BRPC。BRPC 内建了一个 HTTP 服务，把内部的各种状态用 WEB 页面的形式展示出来。关键的是又提供了一套 BVAR 机制，可以用于统计内部的各种指标，自动显示到页面上。最有意思的是，它这个内建服务会识别 User-Agent，如果请求是通过 curl 发起的，返回的是一个完全不包含任何 HTML 标签的纯文本界面，可以用 yaml 解析成字典。这样就可以用跟监控 ES 完全类似的方式，通过外部请求 BVAR 页面，获取所有状态上报监控系统了。

这四种系统的监控脚本，我已经整理放到 GitHub 上了，希望能对同样需求的朋友也有所帮助：

手机 APP 应该选用哪个加密算法 - 兼吐槽 TEA

很多 APP 产品都有通信加密的需求，一部分出于市场的要求，比如苹果对于“ATS”的强制性规定，一部分出于自身安全的考虑，比如对账号和密码的保护。这些需求大部分都可以用简单的 HTTP -> HTTPS 升级来搞定，而且几乎不用付出什么成本（除加解密的计算开支外），例如使用我之前文章介绍到的 Let's Encrypt 免费证书。

但还有一类特殊的需求，HTTPS 解决不了，也就是防协议分析的需求。很多 APP 开发者应该知道，只要在手机里安装一个代理 CA 证书，就可以实现中间人攻击，通过代理软件抓到 HTTPS 包的明文内容。虽然这样的攻击很难在公开网络上进行，但对自己的手机进行抓包分析，作为 APP 和服务端通信的调试手段是被广泛使用的。

协议分析能做什么呢？可以猜想到一定的 APP 内部逻辑，可以对产品数据进行作弊攻击。举个例子：你的 APP 通过某个渠道进行推广，为了统计渠道安装、注册或者日活，你往往会在 APP 中埋一个点，当 APP 启动时，发送一些信息到服务器。如果这个协议被破解了，渠道商根本不需要真正进行推广，只需要构造一些假消息发送到你的服务器就行了。仅看数据你可能会以为这个渠道推广效果特别好，其实只是骗局而已。

这类情况下，就要求对敏感协议内容进行额外的数据保护。最常用的做法，就是对协议内容进行一次额外的加密，为了性能，往往选用对称加密算法。那么问题来了，手机 APP 开发时，应该选用哪个加密算法？

关于这个选型，国内互联网圈有个怪现状值得谈一下，那就是 TEA 算法。因为该算法在腾讯有着广泛的应用，因而被很多客户端开发人员推崇。典型推荐理由往往是：“TEA加密算法不但比较简单，而且有很强的抗差分分析能力，加密速度也比较快，还可以根据需求设置加密轮数来增加加密强度”。这是真的吗？算法安全性可以直接看维基百科上 TEA 算法的介绍，我的理解是不够安全。但其实大部分用户也不那么地在乎它的安全强度，那么性能呢？加密速度真的很快吗？

这就要从历史的角度去看了。作为曾经手撸过 “DES 差分密码攻击” 代码的程序员，表示 TEA 算法的确足够简单。在 QQ 诞生的那个年代，TEA 在计算上的确有着不小的优势。但 QQ 已经 18 岁了啊同学们，18 年来中国发生了多大的变化，世界发生了多大的变化啊！

2008 年，Intel 就发布了 x86 的 AES 指令集扩展，近几年的服务器 CPU 应该都支持，不相信你
grep aes /proc/cpuinfo 就能看到；2011 年 ARM 也在 ARMv8 架构下直接提供了 AES 和 SHA-1/SHA-256 指令。这意味着什么？意味着服务端和客户端在硬件上直接支持 AES，意味着原来 N 条汇编指令只需要一条 AES 指令就完成了。其实也意味着，在绝大多数情况下 AES 才应该是你的首选。

口说无凭，咱们可以看一下测试数据，x86 服务器 CPU 测试可以直接看 Crypto++ 的 benchmark 。可以看到 AES/CTR (128-bit key) 与 TEA/CTR (128-bit key) 的加密速度比是：4499 MB/s 比 72 MB/s，62 倍的差异！这就是硬件实现的威力。

ARM 手机 CPU 加密算法的 Benchmark，我没有找到。但为了更有说服力，我自己实现了两个测试 APP，一个 Android 版，一个 iOS 版。写技术文章多不容易啊，写博客之前先写三个晚上代码，泪目！！！代码在 https://github.com/solrex/cipher-speed ，Android 版可以直接在 Release 里扫码安装。

首先介绍一下目前的旗舰 CPU，骁龙 835 (MSM8998) 的表现，测试机型是小米 6：

# Speed Test of 10MB Data Enc/Decryption #
# AES: 
* [AES/CBC/PKCS5Padding] ENC: 1146.9 KB/ms
* [AES/CBC/PKCS5Padding] DEC: 692.4 KB/ms
* [AES/CBC/NoPadding] ENC: 1118.8 KB/ms
* [AES/CBC/NoPadding] DEC: 1343.5 KB/ms
* [AES/ECB/PKCS5Padding] ENC: 990.4 KB/ms
* [AES/ECB/PKCS5Padding] DEC: 703.2 KB/ms
* [AES/ECB/NoPadding] ENC: 973.4 KB/ms
* [AES/ECB/NoPadding] DEC: 988.9 KB/ms
* [AES/GCM/NOPADDING] ENC: 13.9 KB/ms
* [AES/GCM/NOPADDING] DEC: 14.7 KB/ms
# DES: 
* [DES/CBC/PKCS5Padding] ENC: 20.1 KB/ms
* [DES/CBC/PKCS5Padding] DEC: 20.7 KB/ms
* [DES/CBC/NoPadding] ENC: 21.3 KB/ms
* [DES/CBC/NoPadding] DEC: 21.6 KB/ms
* [DES/ECB/PKCS5Padding] ENC: 26.3 KB/ms
* [DES/ECB/PKCS5Padding] DEC: 26.2 KB/ms
* [DES/ECB/NoPadding] ENC: 25.9 KB/ms
* [DES/ECB/NoPadding] DEC: 26.8 KB/ms
# 3DES: 
* [DESede/CBC/PKCS5Padding] ENC: 23.6 KB/ms
* [DESede/CBC/PKCS5Padding] DEC: 23.2 KB/ms
* [DESede/CBC/NoPadding] ENC: 23.6 KB/ms
* [DESede/CBC/NoPadding] DEC: 23.5 KB/ms
* [DESede/ECB/PKCS5Padding] ENC: 8.5 KB/ms
* [DESede/ECB/PKCS5Padding] DEC: 8.5 KB/ms
* [DESede/ECB/NoPadding] ENC: 8.5 KB/ms
* [DESede/ECB/NoPadding] DEC: 8.6 KB/ms
# TEA: 
* [TEA] ENC: 16.0 KB/ms
* [TEA] DEC: 18.1 KB/ms

可以看到，TEA:AES=16:990，这是多少倍？我都懒得算了。然后是 2 年前的中低端 CPU，联发科 Helio P10 (MT6755)，测试机型是魅蓝 Note 3：

# Speed Test of 10MB Data Enc/Decryption #
# AES: 
* [AES/CBC/PKCS5Padding] ENC: 358.8 KB/ms
* [AES/CBC/PKCS5Padding] DEC: 267.9 KB/ms
* [AES/CBC/NoPadding] ENC: 438.8 KB/ms
* [AES/CBC/NoPadding] DEC: 515.0 KB/ms
* [AES/ECB/PKCS5Padding] ENC: 310.6 KB/ms
* [AES/ECB/PKCS5Padding] DEC: 222.1 KB/ms
* [AES/ECB/NoPadding] ENC: 312.4 KB/ms
* [AES/ECB/NoPadding] DEC: 319.5 KB/ms
* [AES/GCM/NOPADDING] ENC: 5.1 KB/ms
* [AES/GCM/NOPADDING] DEC: 5.7 KB/ms
# DES: 
* [DES/CBC/PKCS5Padding] ENC: 7.5 KB/ms
* [DES/CBC/PKCS5Padding] DEC: 7.7 KB/ms
* [DES/CBC/NoPadding] ENC: 7.7 KB/ms
* [DES/CBC/NoPadding] DEC: 7.8 KB/ms
* [DES/ECB/PKCS5Padding] ENC: 9.3 KB/ms
* [DES/ECB/PKCS5Padding] DEC: 9.2 KB/ms
* [DES/ECB/NoPadding] ENC: 9.3 KB/ms
* [DES/ECB/NoPadding] DEC: 9.5 KB/ms
# 3DES: 
* [DESede/CBC/PKCS5Padding] ENC: 12.5 KB/ms
* [DESede/CBC/PKCS5Padding] DEC: 12.3 KB/ms
* [DESede/CBC/NoPadding] ENC: 12.3 KB/ms
* [DESede/CBC/NoPadding] DEC: 12.5 KB/ms
* [DESede/ECB/PKCS5Padding] ENC: 3.1 KB/ms
* [DESede/ECB/PKCS5Padding] DEC: 3.1 KB/ms
* [DESede/ECB/NoPadding] ENC: 3.1 KB/ms
* [DESede/ECB/NoPadding] DEC: 3.1 KB/ms
# TEA: 
* [TEA] ENC: 6.2 KB/ms
* [TEA] DEC: 8.0 KB/ms

然后是 3 年前的旗舰 CPU，Apple A8，测试机型是 iPhone6。别问我为啥不用今年的苹果旗舰 CPU...

# Speed Test of 10MB Data Enc/Decryption #
# AES
* [AES/CBC/PKC7Padding] ENC: 76.0 KB/ms
* [AES/CBC/PKC7Padding] DEC: 111.3 KB/ms
* [AES/CBC/NoPadding] ENC: 138.2 KB/ms
* [AES/CBC/NoPadding] DEC: 450.7 KB/ms
* [AES/ECB/PKC7Padding] ENC: 305.6 KB/ms
* [AES/ECB/PKC7Padding] DEC: 735.9 KB/ms
* [AES/ECB/NoPadding] ENC: 330.0 KB/ms
* [AES/ECB/NoPadding] DEC: 673.6 KB/ms
# DES
* [DES/CBC/PKC7Padding] ENC: 23.1 KB/ms
* [DES/CBC/PKC7Padding] DEC: 24.5 KB/ms
* [DES/CBCPadding] ENC: 23.1 KB/ms
* [DES/CBCPadding] DEC: 22.8 KB/ms
* [DES/ECB/PKC7Padding] ENC: 19.4 KB/ms
* [DES/ECB/PKC7Padding] DEC: 20.8 KB/ms
* [DES/ECBPadding] ENC: 22.2 KB/ms
* [DES/ECBPadding] DEC: 22.2 KB/ms
# 3DES
* [3DES/CBC/PKC7Padding] ENC: 9.7 KB/ms
* [3DES/CBC/PKC7Padding] DEC: 9.8 KB/ms
* [3DES/CBC/NoPadding] ENC: 9.8 KB/ms
* [3DES/CBC/NoPadding] DEC: 9.8 KB/ms
* [3DES/ECB/PKC7Padding] ENC: 9.4 KB/ms
* [3DES/ECB/PKC7Padding] DEC: 9.1 KB/ms
* [3DES/ECB/NoPadding] ENC: 9.2 KB/ms
* [3DES/ECB/NoPadding] DEC: 9.4 KB/ms
# TEA
* [TEA] ENC: 10.9 KB/ms
* [TEA] DEC: 11.1 KB/ms

关于 Apple A8 的测试多说两句。我上面的 AES 性能，离 GeekBench 发布的 A8 AES Single Core 还有不少差距，不知道是不是测试方法差异导致。但总的来说，不影响结论，那就是 TEA 跟 AES 差距巨大。

看到这里，可能大部分人心里已经做出选择了。即使还没做出选择的读者，我想你也可以考虑看看我的代码实现是否存在问题。不过最后还是回答一下开头提出的问题吧：

如果你使用平台语言来实现对称加密，也就是 Android 上用 Java，iOS 上用 OC 或者 Swift，AES 是不二选择。这样能充分利用硬件提供的能力，安全性+性能肯定是最优，不要再想其他选项了。
如果你使用 Native 语言来实现对称加密，在 Android 上使用 JNI 调用 C 编译的代码，的确不少人认为原生指令更难逆向。可能要在 ARM 架构上做个取舍，是取悦 v8 用户，还是取悦 v7 以下的用户，这可能影响到选型。不过我认为 AES 依然是一个好的选项，起码在服务器端，你肯定会节省成本。

7月30日 北京—承德 214km 3小时

7月31日 承德—乌兰布统 250km 5小时

8月1日 乌兰布统—景区—经棚（克旗县城）200km 11小时

8月2日 经棚—阿斯哈图石林—达里湖—经棚 356km 9小时

8月3日 经棚—西拉木伦峡谷—玉龙沙湖（翁牛特旗） 333km 6小时

8月4日 玉龙沙湖—北京 524km 8.5小时

背景

已有实现

我的实现

性能测试

分析

2025年12月30日刷新

1 背景

1.1 哈希表设计的核心

2 规避哈希冲突

3 利用哈希冲突

3.1 SIMD 指令

3.2 F14 哈希表

4 B16 哈希表

4.1 B16 哈希数据结构

4.2 B16Compact 哈希数据结构

5 实验

5.1 实验设定

5.2 实验数据

6 总结

基于 SIMD 的 bit unpacking

基于 SIMD 的 delta 计算

基于 SIMD 的查找比较

总结

跨层分桶不完全正交

发版造成指标波动

结语

基于 ABTest 的灰度发布

服务好早鸟用户

一种直观做法

客户端带来的挑战

功能配置和分组配置分离的设计

实验分组信息记录

小细节：分组编码

如何进行用户分桶

一种错误做法

一种正确方法

更多样的选择

1 背景

2 在原生代码中调用 JS 代码

2.1 Android Platform

loadUrl 方法

evaluateJavascript 方法

间接方法：Web Event 分发

2.2 iOS Platform

UIWebView: stringByEvaluatingJavaScriptFromString 方法

UIWebView: JavaScriptCore

WKWebView: evaluateJavaScript 方法

间接方法：Web Event 分发

3 在 JS 代码中调用原生代码

3.1 Android Platform

addJavascriptInterface 方法

URL 拦截：shouldOverrideUrlLoading

弹出框拦截

Local Server

3.2 iOS Platform

URL 拦截：shouldStartLoadWithRequest

UIWebview: JavaScriptCore

WKWebView: WKScriptMessageHandler 方法

WKWebView: 弹出框拦截

Local Server

4 notify-fetch-run 间接机制

4.1 notify

notify 中的奇葩：online/offline event

4.2 fetch

5 安卓 & iOS 统一 API

5.1 JS 调用原生代码

URL 拦截（Android & iOS）

对象植入（Android & iOS UIWebView）

对象植入（Android & iOS WKWebView）

5.2 原生代码调用 JS

6 JS Bridge 设计上的更多考虑

6.1 是否使用第三方 JS Bridge 库

6.2 参数约束

6.3 出错信息

7月30日北京—承德 214km 3小时

7月31日承德—乌兰布统 250km 5小时

8月1日乌兰布统—景区—经棚（克旗县城）200km 11小时

8月2日经棚—阿斯哈图石林—达里湖—经棚 356km 9小时

8月3日经棚—西拉木伦峡谷—玉龙沙湖（翁牛特旗） 333km 6小时

8月4日玉龙沙湖—北京 524km 8.5小时