边际效应 https://validator.w3.org/feed/docs/rss2.html 从 EAGLE 到 MTP,图解 DeepSeek-V3 Multi-Token Prediction 实现思考 LLM PD 分离背后的架构问题 应该把 Prefix Caching 当作一种效果优化技术 北京-山西长城1号路、黄河1号路1600公里自驾游 长期主义和高认知闭合 DeepSeek 官方修正了 V3 的激活参数量说明 DeepSeek V3 模型各子模块参数量精算 DeepSeek V3:AI 大模型 infra 基建新高度 用 ARM NEON 实现 _mm_movemask_epi8 的几种方法 技术领导的杠杆和支点