DeepMind的GemmaScope探究大型语言模型的奥秘

发布时间：2024-08-05 10:23:07来源：

大型语言模型 (LLM) 已经非常擅长生成文本和代码、翻译语言以及编写不同类型的创意内容。然而，这些模型的内部工作原理很难理解，甚至对于训练它们的研究人员来说也是如此。

这种可解释性的缺乏对在对错误容忍度低且需要透明度的关键应用中使用 LLM 带来了挑战。为了应对这一挑战，Google DeepMind 发布了Gemma Scope，这是一套新工具，可以揭示Gemma 2 模型的决策过程。

利用生成式人工智能的力量：人工智能如何改变工作及其他领域

Gemma Scope 建立在 JumpReLU 稀疏自动编码器 (SAE) 之上，这是 DeepMind 最近提出的一种深度学习架构。

理解稀疏自动编码器的 LLM 激活

当 LLM 收到输入时，它会通过复杂的人工神经元网络对其进行处理。这些神经元发出的值称为“激活”，代表模型对输入的理解并指导其响应。

通过研究这些激活，研究人员可以深入了解 LLM 如何处理信息和做出决策。理想情况下，我们应该能够了解哪些神经元对应哪些概念。

然而，解释这些激活是一项重大挑战，因为 LLM 有数十亿个神经元，每次推理都会在模型的每一层产生大量混乱的激活值。每个概念都可以在不同的 LLM 层触发数百万个激活，每个神经元可能会在不同的概念之间激活。

解释 LLM 激活的主要方法之一是使用稀疏自动编码器 (SAE)。SAE 是一种可以通过研究不同层中的激活来帮助解释 LLM 的模型，有时也称为“机械可解释性”。SAE 通常在深度学习模型中某一层的激活上进行训练。

SAE 尝试用一组较小的特征来表示输入激活，然后根据这些特征重建原始激活。通过反复执行此操作，SAE 学会将密集激活压缩为更易于解释的形式，从而更容易理解输入中的哪些特征激活了 LLM 的不同部分。

标签：

（责编： QINBA）