GPT-4技术细节保密惹争议，OpenAI首席科学家回应了

人工智能1年前发布 719401146

45 00

昨天凌晨，OpenAI 出人意料地发布了 GPT-4。

这次发布令科技界颇感意外，毕竟人们普遍认为 GPT-4 会在微软周四的「The Future of Work with AI」活动上宣布。

距离 ChatGPT 首次亮相才不过四个月，它便创造了「历史上增长最快的消费者应用程序」记录。如今 GPT-4 上线，这款产品的应对能力又上了一层楼。

震撼之余，很多研究者认真阅读了 GPT-4 的技术报告，却感到了失望：怎么没有技术细节呢？

一次违背创始精神的发布

在公告中，OpenAI 分享了大量 GPT-4 基准和测试结果以及一些有趣的演示，但几乎没有提供有关用于训练系统的数据、算力成本或用于创建 GPT-4 的硬件或方法等信息。

GPT-4技术细节保密惹争议，OpenAI首席科学家回应了

比如，一种省流读 GPT-4 论文的结论是：「我们用的 Python。」

GPT-4技术细节保密惹争议，OpenAI首席科学家回应了

更有人打趣道：「我读到了 GPT-4 是基于 Transformer 架构的。」

GPT-4技术细节保密惹争议，OpenAI首席科学家回应了

许多 AI 领域的成员批评了这一决定，指出它破坏了 OpenAI 作为研究型组织的创始精神，并使其他人更难复现其工作。

对 GPT-4 封闭模型的大多数初始反应都是负面的，但似乎愤怒已经不能改变其「闭源」的决定：

GPT-4技术细节保密惹争议，OpenAI首席科学家回应了

其实对于 OpenAI 不开源的批判已持续了一段时间。连 OpenAI 的创始团队成员马斯克都公开质疑过其「背离初心」：

GPT-4技术细节保密惹争议，OpenAI首席科学家回应了

就这件事，让马斯克至今仍感到困惑：「我不懂，当初投了近 1 亿美元的非营利机构怎么就变成了市值 300 亿的商业公司呢？」

GPT-4技术细节保密惹争议，OpenAI首席科学家回应了

Nomic AI 信息设计副总裁 Ben Schmidt 说道：「我认为可以停止称其『Open』了 —— 介绍 GPT-4 的 98 页论文自豪地宣称他们没有披露关于训练集内容的任何信息。」

GPT-4技术细节保密惹争议，OpenAI首席科学家回应了

还有一些人认为， OpenAI 隐藏 GPT-4 细节的另一个原因是法律责任。AI 语言模型是在巨大的文本数据集上训练的，许多模型（包括早期的 GPT 系统）都会从网络上抓取信息，其中一个来源可能包括受版权保护的素材。目前已有几家公司正被独立艺术家和图片网站 Getty Images 起诉。

一些人表示，更重要的是，这会使针对 GPT-4 构成的威胁制定保障措施变得更困难。Ben Schmidt 也认为，由于无法看到 GPT-4 训练的数据，很难知道该系统可以在哪里安全使用并提出修复方案。

「众所周知，像 GPT-4 这样的神经网络是黑盒子。事实上，它们的操作是不可预测和难以理解的，这是关于是否应该使用它们、在何处使用它们的最重要问题之一。现在 OpenAI 正逐步制定一个标准，进一步扩展了这个谜团。」Ben Schmidt 表示。

GPT-4技术细节保密惹争议，OpenAI首席科学家回应了

OpenAI 首席科学家：开源 GPT-4 是不明智的

OpenAI 的首席科学家兼联合创始人 Ilya Sutskever 对上述争议进行了回应，表示 OpenAI 不分享更多 GPT-4 细节信息的原因是「害怕竞争和担心安全」：

「从竞争格局上看，外界的竞争很激烈。GPT-4 的开发并不容易，几乎集聚了所有的 OpenAI 力量，经过很长时间的努力才产出了这个东西，而且有很多公司都想做同样的事情。」

「安全方面的原因不像竞争方面那样突出，但它也会发生变化。这些模型是非常高效的，而且它们变得越来越高效。某些时候，如果有人愿意，用这些模型造成巨大的伤害将会相当容易。随着这些能力越来越高，不公开它们是有道理的。」

当被问及「为什么 OpenAI 改变了分享研究成果的方式」，Sutskever 回答说：「坦率地说，我们错了。如果你像我们一样相信，在某个时候，AI 或 AGI 将变得极其强大、令人难以置信，那么开源就没有意义。这是一个坏主意，我完全相信在几年内，每个人都会清楚地认识到开源 AI 是不明智的。」

Lightning AI 首席执行官、开源工具 PyTorch Lightning 的创建者 William Falcon 对 VentureBeat 表示，自己能从商业角度理解这个决定：「作为一家公司，你完全有权这样做。」

但他也表示，OpenAI 此举为更广泛的社区树立了一个「坏的模板」，可能会产生有害影响。

关于 OpenAI 不共享其训练数据的原因，Sutskever 的解释是：「我对此的看法是，训练数据是技术。我们不公开训练数据的原因与我们不公开参数数量的原因几乎相同。」当被问及 OpenAI 是否可以明确声明其训练数据不包含仿版材料时，Sutskever 没有回答。

Sutskever 同意 OpenAI 批评者的观点，即开源模型有助于保障措施的开发。「如果有更多人研究这些模型，我们就会了解更多，那就更好了，」他说。出于这些原因，OpenAI 向某些学术和研究机构提供了访问其系统的权限。

接下来，我们期待什么？

由 GPT-4 引发的热议预计还会持续一阵，以至于人们可能会忽略一些其他动态。

比如，在昨日铺天盖地的讨论中，谷歌的发布就显得静悄悄。目前，Google Workspace 中已经全面集成了生成式 AI，更新了生成图片、演示文稿、电子邮件、文档等功能。可以想象的是，这将是一次生产力的大提升。

接下来，人们可以期待的还有很多：不久之后，微软 CEO 萨蒂亚・纳德拉将亲自登台演讲，介绍微软和 OpenAI 的更多合作，比如基于 GPT-4 的 Office 套件。

GPT-4技术细节保密惹争议，OpenAI首席科学家回应了

消息来源：https://www.theinformation.com/articles/microsoft-rations-access-to-ai-hardware-for-internal-teams

让我们拭目以待。

人工智能 # ai

文章版权归作者所有，未经允许请勿转载。

十分钟理解ChatGPT的技术逻辑及演进（前世、今生）

人工智能 # chatgpt

1年前

230

五步教你如何制定网站SEO优化策略

人工智能 # 五步教你如何制定网站SEO优化策略

9个月前

0100

硅谷银行倒闭后，OpenAI CEO 向多家初创公司提供紧急资金

人工智能 # chatgpt

1年前

390

印度人用AI赛博上香！学者：机器人可能比人类更虔诚

人工智能 # ai

1年前

GPT-4技术细节保密惹争议，OpenAI首席科学家回应了

一次违背创始精神的发布

OpenAI 首席科学家：开源 GPT-4 是不明智的

接下来，我们期待什么？

清华系千亿基座对话模型ChatGLM启动内测，开源单卡版模型

北大、西湖大学等开源「裁判大模型」PandaLM：三行代码全自动评估LLM，准确率达ChatGPT的94%

相关文章

十分钟理解ChatGPT的技术逻辑及演进（前世、今生）

五步教你如何制定网站SEO优化策略

硅谷银行倒闭后，OpenAI CEO 向多家初创公司提供紧急资金

印度人用AI赛博上香！学者：机器人可能比人类更虔诚