LLM 从原理到生产级推理 (LLM Inference from Principles to Production)¶
🌐 Read on GitHub Pages (English Version) | 🌐 阅读精美网页版 (中文版)
前言¶
本书是大语言模型(LLM)推理技术的系统化整理,源于作者在休产假陪伴二宝 Emerson 期间的学习笔记与实践思考(顺便在这里热烈欢迎 Emerson 降临这个世界!👶🍼🧸)。由于作者平时的精力主要在支持推理等内部业务的集群(Cluster)层面,较少有时间追踪开源进展,因此本书的核心目标是:
- 构建心智模型(End-to-End):将零散的知识点串联成线,帮助自己端到端地理解 LLM 推理的核心原理与 Serving Framework,从而建立起全局认知与思维模式(Mindset)。
- 追踪开源社区现状:梳理和跟进开源界的前沿进展,跳出日常工作的局限,尤其是 Kubernetes 层的开源演进,思考未来如何让其更好地适应大模型推理。
- 建立可持续更新的框架:以此为起点,在未来能够更轻松地持续迭代,让自己保持与时俱进。
免责与定位 : 本书不是一本深奥的数学推导书,也不是追踪每日最新论文的“前沿追踪”。我们不会在复杂的数学公式和过于琐碎的代码细节中过度纠缠。我们的重点在于 揭示技术背后的本质逻辑 。
另外,这本书不出意外地得到了 Gemini 和 Claude 的深度辅助。没有 AI 的帮助,作者绝无可能在一个月内学习并了解如此广阔的领域。在此一方面向 AI 致谢;另一方面,这也让作者更坚定了“必须好好做 Inference”的决心——只有把推理基建做好,才能让 AI 惠及更多人。
目标读者 : 本书的首要受众其实是 作者自己 。将其开源在 GitHub 上,一方面是为了方便进行版本控制和在不同机器间切换,另一方面也希望能够惠及更多对该领域感兴趣的同行(如系统架构师、后端工程师、AI 产品经理,以及所有对大模型底层运转机制感兴趣的开发者)。如果你也希望建立对大模型推理从原理到生产级服务的全局认知,希望这些内容能对你有所启发。如果书中内容有误,欢迎随时指正。
目录¶
- 前言