JD

JD

用 200 行 Python 代码实现一个极简 GPT

GPT 是如何工作的:200 行 Python 代碼實現一個極簡 GPT(2023)

部落格:http://arthurchiao.art/blog/gpt-as-a-finite-state-markov-chain-zh/

本文是 arthurchiao 整理和翻譯自 2023 年 Andrej Karpathy 的 twitter 和一篇文章: GPT as a finite-state markov chain。

本文實際上是基於 PyTorch,並不是完全只用基礎 Python 包實現一個 GPT。 主要目的是為了能讓大家對 GPT 這樣一個複雜系統的(不那麼底層的)內部工作機制有個直觀理解。

有點長。。。

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。