GPT 是如何工作的:200 行 Python 代碼實現一個極簡 GPT(2023)
部落格:http://arthurchiao.art/blog/gpt-as-a-finite-state-markov-chain-zh/
本文是 arthurchiao 整理和翻譯自 2023 年 Andrej Karpathy 的 twitter 和一篇文章: GPT as a finite-state markov chain。
本文實際上是基於 PyTorch,並不是完全只用基礎 Python 包實現一個 GPT。 主要目的是為了能讓大家對 GPT 這樣一個複雜系統的(不那麼底層的)內部工作機制有個直觀理解。
有點長。。。