JD

JD

200 行 Python 代码实现一个极简 GPT

GPT 是如何工作的:200 行 Python 代码实现一个极简 GPT(2023)

blog:http://arthurchiao.art/blog/gpt-as-a-finite-state-markov-chain-zh/

本文是 arthurchiao 整理和翻译自 2023 年 Andrej Karpathy 的 twitter 和一篇文章: GPT as a finite-state markov chain。

本文实际上是基于 PyTorch,并不是完全只用基础 Python 包实现一个 GPT。 主要目的是为了能让大家对 GPT 这样一个复杂系统的(不那么底层的)内部工作机制有个直观理解。

有点长。。。

加载中...
此文章数据所有权由区块链加密技术和智能合约保障仅归创作者所有。