作者 | Dyaln & Afzal Ahmad
51CTO读者成长计划社群招募,咨询小助手(微信号:CTOjishuzhan)
下面是一份最近泄露的文件,由一位匿名人士在公共 Discord 服务器上共享,该服务器已授予其重新发布的许可。它源于谷歌内部的一名研究员。我们已经验证了它的真实性。
注意:该文件仅代表谷歌员工的意见,并非整个公司的意见。我们不同意下面写的内容,我们询问的其他研究人员也不同意,我们分享这份文件,是因为它提出了一些非常有趣的观点。
一、我们没有护城河,OpenAI 也没有
我们在 OpenAI 做了很多仔细的研究。谁将跨越下一个里程碑?下一步将是什么?
但令人不安的事实是, 我们没有能力赢得这场军备竞赛,OpenAI 也没有。在我们争吵不休的时候,第三派一直在悄悄地吃我们的午餐。
当然,我说的是开源。说白了,他们在蹭舔我们。
我们认为“主要开放问题”的东西,今天已经解决,并且已经掌握在人们手中。仅举几个:
手机上的 LLMs:人们在 Pixel 6 上以每秒 5 个 tokens 的速度运行基础模型。
可扩展的个人 AI:您可以利用晚上时间在笔记本电脑上微调一个个性化 AI。
负责任的发布:这个与其说是“解决”,不如说是“避免”。整个网站充满了艺术模型,没有任何限制,文字也不甘落后。
多模态:当前的多模态 ScienceQA SOTA 训练时间为一小时。虽然我们的模型在质量方面仍然略有优势,但差距正在以惊人的速度缩小。开源模型更快、更可定制、更私密且功能更强大。他们用 100 美元和 13B 的参数做事,而我们在 1000 万美元和 540B 的参数下苦苦挣扎。他们在几周内完成,而不是几个月。这对我们有深远的影响:
(1)我们没有秘方。我们最大的希望是向谷歌以外的其他人学习并与他们合作。我们应该优先考虑启用 3P 集成。
(2)当免费的、不受限制的替代品在质量上相当时,人们不会为受限制的模型付费。我们应该考虑我们真正的增值在哪里。
巨型模型正在让我们慢下来。从长远来看,最好的模型是——这可以被快速地迭代。既然我们知道在<20B 参数范围内有哪些可能,我们就应该做出小型变体,而不是事后才想到。
图源:https://lmsys.org/blog/2023-03-30-vicuna/
二、发生了什么
3 月初,开源社区得到了他们第一个真正有能力的基础模型,因为 Meta 的 LLaMA 被泄露给了公众。它没有指令说明或对话训练的细节,也没有 RLHF。尽管如此,社区立即理解了这件事情的重要性。
随之而来的是巨大的创新涌现,而且间隔仅仅只有几天(完整细目请参见时间表)。仅仅一个月后,我们就在这里,并且有指令调整、量化、质量改进、人工评估、多模态、RLHFRLHF 等各自的变体,其中许多是相互联结的。
最重要的是,他们已经解决了任何人都可以修补的扩展问题。许多新想法都来自普通人。训练和实验的门槛,已经从一个主要研究机构的总产出下降到一个人、一个晚上和一台功能强大的笔记本电脑。
三、为什么我们可以预见它的到来
在许多方面,这对任何人来说都不足为奇。紧随着图像生图领域的复兴,开源大语言模型也已然复兴。相似之处并没有在社区中消失,正如许多人所称呼的LLM的“Stable Diffusion 时刻”。
在这两种情况下,低成本的公众参与,都是通过一种成本低得多的微调机制实现的,称为低秩适应(low rank adaptation)或 LoRA,并结合了规模上的重大突破(图像合成的 Stable Diffusion,LLM 的 Chinchilla )。
在这两种情况下,获得足够高质量的模型都引发了世界各地个人和机构的一系列想法和迭代。在这两种情况下,这都很快超过了大型企业。
这些贡献在图像生成领域至关重要,使 Stable Diffusion 走上了与 Dall-E 不同的道路。拥有一个开放的模型导致产品集成、市场、用户界面同时发生的创新,这是 Dall-E 没有做到的。
效果是显而易见的:与 OpenAI 解决方案相比,在文化影响方面迅速占据主导地位,后者变得越来越无关紧要。LLM 领域内是否会发生同样的事情还有待观察,但广泛的结构要素是相同的。
四、我们错过了什么
推动开源最近取得成功的创新直接解决了我们仍在努力解决的问题。更多地关注他们的工作可以帮助我们避免重新发明轮子。
1.LoRA 是一种非常强大的技术,我们可能应该更加关注它
LoRA 通过将模型更新表示为低秩分解来工作,这将更新矩阵的大小,减少了多达数千倍。这允许以一小部分成本和时间进行模型微调。能够在几个小时内在消费类硬件上个性化语言模型是一件大事,特别是对于涉及近实时整合新的和多样化的知识的愿望。事实上,这项技术的存在在谷歌内部并未得到充分利用,尽管它直接影响了我们一些最雄心勃勃的项目。
2.从头开始重新训练模型是一条艰难的道路
LoRA 如此有效的部分原因在于——与其他形式的微调一样——它是可堆叠的。可以应用指令调整等改进,然后在其他贡献者添加对话、推理或工具使用时加以利用。虽然单独的微调是低秩的,但它们的总和不需要,允许模型的全秩更新随着时间的推移而累积。
这意味着随着新的更好的数据集和任务的出现,模型可以以低廉的成本保持最新,而无需支付全面运行的成本。
相比之下,从头开始训练巨型模型不仅会丢弃预训练,还会丢弃在顶部进行的任何迭代改进。在开源世界中,这些改进很快就会占据主导地位,这使得全面重新培训的成本极其高昂。
我们应该考虑每个新应用程序或想法是否真的需要一个全新的模型。如果我们真的有重大的架构改进来阻止直接重用模型权重,那么我们应该投资于更积极的蒸馏形式,使我们能够尽可能多地保留上一代的功能。
3.如果我们可以在小型模型上更快地迭代,那么从长远来看,大型模型的能力并不会更强
对于最流行的模型尺寸,LoRA 更新的生产成本非常低(约 100 美元)。这意味着几乎任何有想法的人都可以产生一个想法并进行传播。一天之内的培训时间是常态。以这样的速度,所有这些微调的累积效应很快就会克服尺寸劣势。事实上,就工程师工时而言,这些模型的改进速度大大超过了我们使用最大变体所能做的,而且最好的已经在很大程度上与 ChatGPT 没有区别。专注于维护地球上一些最大的模型实际上使我们处于劣势。
4.数据质量比数据大小更好
其中许多项目都通过在小型、高度精选的数据集上进行训练来节省时间。这表明数据缩放法则具有一定的灵活性。此类数据集的存在遵循了 Data Doesn’t Do What You Think 中的思路,并且它们正迅速成为在 Google 之外进行训练的标准方式。这些数据集是使用合成方法(例如从现有模型中过滤最佳响应)和从其他项目中提取的,这两种方法在谷歌都不占主导地位。幸运的是,这些高质量的数据集是开源的,因此可以免费使用。
五、直接与开源竞争是一个失败的主张
最近的进展对我们的业务战略有直接的影响。如果没有免费、高质量的替代品,谁会为有使用限制的 Google 产品付费?
我们不应该期望能够赶上。开源的盛行是有原因的。开源有一些我们无法复制的显着优势。
六、我们需要他们,胜过他们需要我们
保守我们的技术秘密,始终是一个脆弱的提议。谷歌研究人员正定期前往其他公司,因此我们可以假设他们知道我们所知道的一切,并且只要该渠道开放,他们就会继续这样做。
而且,由于 LLM 的顶尖研究是负担得起的,因此保持技术竞争优势变得更加困难。世界各地的研究机构都在相互借鉴,以广度优先的方式探索解决方案空间,这远远超出了我们自身的能力。我们要么在外部创新冲淡其价值时努力保守秘密,要么选择尝试相互学习。
七、个人不受与公司相同程度的许可证约束
这种创新的大部分发生在 Meta 泄露的模型权重之上。虽然随着真正开放的模型变得更好,这将不可避免地发生变化,但关键是他们不必等待。“个人使用”提供的法律保护和起诉个人的不切实际意味着个人可以在这些技术炙手可热的时候使用它们。
八、成为您自己的客户意味着您了解用例
浏览人们在图像生成空间中创建的模型,从动漫生成器到 HDR 风景,创意源源不断。这些模型由深深沉浸在其特定子流派中的人们使用和创建,赋予我们无法企及的知识深度和同理心。
九、拥有生态系统:让开源为我们工作
矛盾的是,所有这一切的一个明显赢家是 Meta。因为泄露的模型是他们的,所以他们有效地获得了整个星球的免费劳动力。由于大多数开源创新都发生在他们的架构之上,因此没有什么能阻止他们将其直接整合到他们的产品中。
拥有生态系统的价值怎么强调都不为过。谷歌本身已在其开源产品(如 Chrome 和 Android)中成功使用了这种范例。通过拥有发生创新的平台,谷歌巩固了自己作为思想领袖和方向制定者的地位,获得了塑造比自身更宏大的想法的能力。
我们对模型的控制越严密,我们做出开放替代方案的吸引力就越大。谷歌和 OpenAI 都倾向于防御性地倾向于发布模式,使他们能够严格控制其模型的使用方式。但这种控制是虚构的。任何想将 LLM 用于未经批准的目的的人都可以简单地选择免费提供的模型。
谷歌应该让自己成为开源社区的领导者,通过与更广泛的对话合作来牵头来做,而不是忽视其他力量。这可能意味着采取一些不舒服的步骤,比如发布小型 ULM 变体的模型权重。这必然意味着放弃对我们模型的一些控制。但这种妥协是不可避免的。我们不能希望既推动创新又控制创新。
十、结语:OpenAI 怎么样?
考虑到 OpenAI 当前的封闭政策,所有这些关于开源的讨论都会让人觉得不公平。如果他们不愿意,我们为什么要分享?但事实是,我们已经以源源不断的挖角高级研究人员的形式与他们分享一切。在我们阻止这种趋势之前,保密是一个有争议的问题。
最后,OpenAI 并不重要。他们在相对于开源的态度上犯了与我们相同的错误,他们保持优势的能力必然受到质疑。除非他们改变立场,否则开源替代品可以并且最终会使它们黯然失色。至少在这方面,我们可以迈出第一步。
十一、时间线
- 2 月 24 日 ——LLaMA 启动:模型小而能力强Meta 推出 LLaMA ,开源代码,但不开源权重。在这一点上,LLaMA 没有调整指令或对话。与当前的许多模型一样,它是一个相对较小的模型(可在 7B、13B、33B 和 65B 参数下使用),并且已经训练了相对较长的时间,因此相对于其大小来说能力相当强。
- 3 月 3 日——意外泄密带来的井喷式创新一周之内,LLaMA 就被泄露给了公众。对社区的影响不容小觑。现有许可证禁止将其用于商业目的,但突然之间任何人都可以进行试验。从这一刻开始,创新来势汹汹。
- 3 月 12 日 ——烤面包机上的语言模型一个多星期后,Artem Andreenko 让模型在 Raspberry Pi 上运行。此时模型运行速度太慢而不实用,因为权重必须分页进出内存。尽管如此,这为小型化的冲击奠定了基础。
- 3 月 13 日 ——在笔记本电脑上微调第二天,斯坦福发布了 Alpaca ,它为 LLaMA 添加了指令调优。然而,比实际重量更重要的是 Eric Wang 的 alpaca-lora 储库,它使用低阶微调“在单个 RTX 4090 上数小时内”完成了此训练。突然之间,任何人都可以微调模型来做任何事情,从而在低预算的微调项目中拉开了一场逐底竞争的序幕。论文自豪地描述了他们总共花费了几百美元。更重要的是,低等级更新可以轻松地与原始权重分开分发,从而使它们独立于 Meta 的原始许可。任何人都可以分享和应用它们。
- 3 月 18 日 ——无GPU运行Georgi Gerganov 使用 4 位量化,在 MacBook CPU 上运行 LLaMA。它是第一个速度足够实用的“无 GPU”解决方案。
- 3 月 19 日 ——13B 模型与 Bard 实现“平替”第二天,多所大学联合发布了 Vicuna ,并使用 GPT-4 驱动的 eval 来提供模型输出的定性比较。虽然评估方法值得怀疑,但该模型实际上比早期变体更好。训练费用:300 美元。值得注意的是,他们能够使用来自 ChatGPT 的数据,同时绕过对其 API 的限制——他们只是对发布在 ShareGPT 等网站上的“令人印象深刻的”ChatGPT 对话示例进行了采样。
- 3 月 25 日 ——选择您自己的模型Nomic 创建了 GPT4All ,它既是一个模型,更重要的是一个生态系统。我们第一次看到模型(包括 Vicuna)聚集在一个地方。训练费用:100 美元。
- 3 月 28 日——开源版 GPT-3Cerebras(不要与我们自己的 Cerebra 混淆)使用 Chinchilla 隐含的最佳计算计划和 μ 参数化隐含的最佳缩放来训练 GPT-3 架构。这大大优于现有的 GPT-3 克隆,并且代表了“在野外”首次确认使用 μ 参数化。这些模型是从头开始训练的,这意味着社区不再依赖 LLaMA。
- 3 月 28 日 ——一小时多模态训练LLaMA-Adapter 使用一种新颖的参数高效微调 (PEFT) 技术,在一小时的训练中引入了指令调优和多模态。令人印象深刻的是,他们仅使用 120 万个可学习参数就可以做到这一点。该模型在多模态 ScienceQA 上实现了新的 SOTA。
- 4 月 3 日——真人无法区分 13B 开放模型和 ChatGPT伯克利推出了 Koala ,这是一种完全使用免费数据训练的对话模型。他们采取了关键步骤来衡量他们的模型和 ChatGPT 之间的真实人类偏好。虽然 ChatGPT 仍然略有优势,但超过 50% 的用户要么更喜欢 Koala,要么没有偏好。培训费用:100 美元。
- 4 月 15 日 ——ChatGPT 级别的开源 RLHFOpen Assistant 启动了一个模型,更重要的是,启动了一个用于通过 RLHF 对齐的数据集。他们的模型在人类偏好方面与 ChatGPT 接近(48.3% 对 51.7%)。除了 LLaMA,他们还展示了这个数据集可以应用于 Pythia-12B,让人们可以选择使用完全开放的堆栈来运行模型。此外,由于数据集是公开可用的,因此对于小型实验者而言,RLHF 从无法实现变为廉价且容易。
原文链接:https://www.semianalysis.com/p/google-we-have-no-moat-and-neither