2025
-
AI:单机 KTransformers 运行 DeepSeek-R1-GGUF 4 bit 量化模型 Q4_K_M 实测
-
AI:DeepSeek-V3 MTP 工程实现思考
-
AI:DeepSeek 官方修正了 V3 的激活参数量说明
-
AI:LLM PD 分离背后的架构问题
-
AI:DeepSeek V3 模型各子模块参数量精算
-
AI:DeepSeek V3:AI 大模型 infra 基建新高度
2024
-
悟忆行知:技术领导的杠杆和支点
-
悟忆行知:长期主义和高认知闭合
-
AI:应该把 Prefix Caching 当作一种效果优化技术
-
悟忆行知:北京-山西长城1号路、黄河1号路1600公里自驾游
-
算法:Google Search 淘气三千问: Q7~Q9
-
算法:Google Search 淘气三千问: Q6
-
基础架构:Google Search 淘气三千问:Q1~Q5
-
AI:估值最高的 AI 搜索独角兽 Perplexity 使用倒排索引做 RAG
-
AI:LLM 推理优化 Prefix Caching 及其实现
-
AI:LLM 推理优化 Continuous Batching 及其实现
-
AI:Logits of API-Protected LLMs Leak Proprietary Information
-
编程:怎么用向量指令计算多个元素尾部 0 的个数?
-
AI:在 LLM 时代我们是否还需要倒排索引?