十三分钟带你初步了解 AI 技术：机器学习、深度学习技术原理以及延伸应用_哔哩哔哩_bilibili
十分钟彻底搞懂 AI 大模型底层原理！带你从 0 构建对大模型的认知！_哔哩哔哩_bilibili

通俗易懂的讲解了预训练 - 监督微调 - 推理预测，可能细节不是准确，但为了通俗易懂，这些细节不重要。文本 token 化数字是为了计算机可以识别，向量化是为了通过高纬度的向量表示丰富信息的 token 内容，方便分类、关联，用于联想与预测。其中 transformer 解决了对上下文的理解与专注，让机器预测更贴近上下文。
大模型和人脑工作原理很像，别再用存储、压缩和传统搜索引擎的眼光看待它_哔哩哔哩_bilibili

原视频在周鸿祎的短视频里看过，收藏过，在 b 站我们再次遇到他，还是觉得他讲的更为准确与易懂。提到预训练与微调建立知识与知识之间的理解和连接，实现模型的泛化能力，而不是知识的拷贝、压缩、存储，泛化能力体现在对知识的理解与推理能力。
深入浅出的 chatGPT 原理科普，包你看懂_哔哩哔哩_bilibili

新石器公园出品大多精品。声音听起来舒服，将很多深奥的概念讲述的相对小百化，从娓娓道来的 GPT 是如何理解人类语言开始，铺垫了一切数字化为了计算机的存储，一切问题都转化为数学问题，计算机要理解人类语言的两个重要步骤，一是向量化，这个是数学和数字问题，二是信息压缩和特征提取，这一步就是为了表征词语之间的空间关系，用于表示现实世界中的事物关系，然而过去多年词语文字的空间关系一直无法很好的表达（比如采用 RNN），直到 transformer 的出现，其创造性的自注意力机制解决了自然语言特征提取问题，即句子里的词语自己和句子里所有的词语做向量相乘得到结果再去训练，最终得到更准确的词语权重。最后也介绍了 transformer 其实是一个编码和解码器，Google 在编码方向持续发力，最终发展了 BERT，而 OpenAI 拿走了解码器，最后搞出了自己的 GPT，所以 GPT 总是会将话说漂亮，至于是否正确不是主要的。
万字解析 | 为什么说 GPT 不会产生意识？它对我们有多危险？【chatGPT 科普（下）】_哔哩哔哩_bilibili

目前输入决定 GPT 的输出。GPT 不善于复杂的规划与组织，所但 GPT 擅长分步骤但原子性问题的解决，所以如果从上到下分层分步骤输入，GPT 反而能很准确的推理与解答。所以人应该知道 GPT 不擅长什么，擅长什么，人把问题转换成 GPT 擅长的问题形式，比如通过分而治之将问题分层、步骤化、原子化，与 GPT 交互解决问题，再比如人把私有域的知识转换成 common 通用的知识点（比如数学、物理、生物、科学等学科静态知识点），再由 GPT 基于对这些 common 知识点的理解，从底层提供解决方案，从变相解决私有业务层面的问题。GPT 是否有意识？这个视频短期很值得反复刷，等待更牛逼的 GPT 出现。这一系列视频–奇点临近了吗？共有 18 个视频。
AI 大模型（LLM）的工作原理_哔哩哔哩_bilibili
【人工智能】万字通俗讲解大语言模型内部运行原理 LLM 词向量 Transformer 注意力机制前馈网络反向传播心智理论_哔哩哔哩_bilibili

@陆续更新…

如何计算概率

既然是数学模型，那应该如何计算呢？

最简单的方法，当然就是用统计学的方法去计算了，简单说来，就是靠输入的上下文进行统计，计算出后续词语的概率，比如「你吃了晚饭了吗」，「你吃了」后面按照概率，名词如「饭」或「晚饭」等概率更高，而不太可能是动词，如「睡」「睡觉」。

这是语言模型的第一阶段，模型也被称为是统计语言模型（Statistical Language Model，SLM），其基本思想是基于马尔可夫假设建立词语测模型，根据最近的上下文预测下一个词。

后续语言模型的发展又迭代了三个版本。

第二阶段是神经网络语言模型（Neural Language Model，NLM），是一个用神经网络来训练模型，学习单词之间的关联性和概率关系。它能够利用大量的数据进行深度学习，从而捕捉到词汇之间更加复杂的关系。NLM 模型采用的是分层的结构，把输入的文本数据空间投射到高维的语义空间中并进行学习。通过不断地更新神经网络模型参数，NLM 的神经网络逐渐学会了文本数据的语义并能够生成连贯自然、语义准确的文本。

与前面提到的 SLM 相比，由于深度神经网络的学习能力更强，NLM 在学习语言模型时具有更好的泛化能力和适应性。比如能生成更长的文本等。但 NLM 相对来说也比较依赖更大的数据集，并且需要花很多人力在数据标注上。

第三阶段是预训练语言模型（Pre-trained Language Model，PLM），是一种使用大量文本数据来训练的自然语言处理模型。相对 NLM 来说，PLM 使用无监督学习方法，因此不需要先标注数据或注明文本类型等信息。各位可能听过的 Transformer 架构就是一种预训练语言模型。

第四阶段是大预言模型（Large Language Model），你可以将现在的 LLM 理解为一个训练数据特别大的 PLM，比如 GPT-2 只有 1.5B 参数，GPT-3 则到了惊人 175B，尽管 LLM 只是拓展了模型的大小，但这些大尺寸的预训练语言模型表现出了与较小的预训练语言模型不同的行为，并且在解决一些复杂任务上展现了惊人的能力（俗称涌现能力，注意这个涌现能力目前还存在争议），所以学术界为这些大型预训练语言模型命名为大语言模型 LLM。

上面这四个阶段可能比较难理解，你可以简单理解：

语言模型本质上都是在计算自然语言每个句子的概率的数学模型。当你输入一个问题给 AI 时，AI 就是用概率算出它的回答。
另外，当今的语言模型，并不是一个问题对一个答案，实际上是一个问题，多个答案，然后根据答案的概率进行排序，最后返回一个最可能的答案。

以上两个认知非常重要。

如何计算概率？ | Learning Prompt

LLM了解使用指南

目录

参考资源

如何计算概率

TsingChan