LLM

The myth of decoding large language models

在探讨大语言模型（LLM）的性能时，一个流传已久的说法是：“解码过程中的 Attention 操作是访存密集型（Memory Bound）的。” 这个观点深入人心，以至于许多优化讨论都以此为前提。然而，随着模型架构的演进和解码策略的创新，这一迷思正在被打破。

Zhou, Yaoyang

Sep 21, 2025 3 min read 工作

The myth of decoding large language models

如何估算不同规格的芯片 EP 部署 Deepseek 的单卡吞吐 V1.0

简介与上一篇文章不同，本文主要目的是介绍模型的建模方法，以及搜索吞吐最大配置的方法。 TL;DR: H800、H20、A100、L20 的数据附在文末（不构成买卡建议）。吞吐计算方法本文采用的估算方法：首先假设平均上下文长度为 5K （5K 上下文是参考 shen han 的文章：https://zhuanlan.zhihu.com/p/29841050824），然后用 DRAM 容量作为约束，计算出最大的 batch size per card。然后对单个 token 的延迟进行估算，得到 token per second。最后计算单卡的吞吐 = batch size per card * token per second。

Zhou, Yaoyang

Last updated on Mar 16, 2025 11 min read 兴趣

如何估算不同规格的芯片 EP 部署 Deepseek 的单卡吞吐 V1.0

非 AI 背景的人如何入门大模型（一）

一个非 AI 背景的人写的 AI 入门文献列表

Zhou, Yaoyang

Aug 11, 2024 2 min read 工作

非 AI 背景的人如何入门大模型（一）