ChatGPT与Google Bard：孰优孰劣，差异大盘点！

人工智能1年前发布 FFFFF

14 00

译者 | 崔皓

审校 | 孙淑娟

开篇

AIGC行业最大的两个竞争对手：ChatGPT vs Google Bard! 本文介绍这两个人工智能引擎之间的技术差异。

ChatGPT与Google Bard：孰优孰劣，差异大盘点！

截至目前Google Bard和ChatGPT之间最大的区别是：Bard知道ChatGPT，但ChatGPT却对Bard懵然不知。虽然我们可以玩转ChatGPT，而Bard对我们大多数人来说仍然遥不可及。

ChatGPT与Google Bard：孰优孰劣，差异大盘点！

ChatGPT与Google Bard之战的开始

ChatGPT和Google Bard都是人工智能聊天机器人。人工智能的简易版本已经可以在手机上使用了，当你输入 “good”时，手机就可以预测下一个词是 “morning”。

ChatGPT最初是由OpenAI开发的，然后由微软以令人瞠目结舌的100亿美元（除了早先的10亿美元投资外）进行投资。谷歌方面，对他们的搜索垄断可能要结束而略感恐慌，因此推出了Bard，但这个版本仍然存在一些缺陷。在第一次现场演示中，Bard犯了几个事实性错误，让谷歌感到很尴尬。

ChatGPT和Google Bard比智能手机的预测文本功能要更加复杂，如果说要了解这两款智能机器人之间的差异，下面的内容你就不能错过了。

这里我们会深入描述两个人工智能引擎之间的技术差异。

ChatGPT与Bard：内藏玄机？

我们可以通过如下表格快速了解它们之间的技术差异，通过表格可以看到很多细节。

	ChatGPT	Bard
模型	GPT-3.5	LaMDA，即对话应用的语言模型
神经网络结构	Transformer	Transformer
训练数据	网络文本，主要是被称为 “commoncrawl”的数据集，在2021年中期截止。	156万字的公共对话数据和网络文本
目的	成为一个多用途的文本生成聊天机器人	专门协助搜索
参数	1750亿参数	1370亿参数
创建者	OpenAI	Google
优势	– 对所有人开放 – 更加灵活，能够处理开放式文本 – 训练数据截止到2021年	– 训练数据截止到当前 – 专门为对话而训练，所以当你和它对话的时候，听起来更像人。
劣势	– 对话没有那么有说服力 – 没有那么仔细的微调	– 目前还没有 – 可能不那么适合一般的文本创作

通过上面的表格了解了两者之间的差异，接下来让我们深入了解一下其他指标。

什么是ChatGPT？

ChatGPT于2022年11月30日突然出现在舞台上。到2022年12月4日，该服务每天有超过一百万的用户。2023年1月，这个数字膨胀到1亿多用户。

它突然这么受欢迎其基本原因是，它能以一种听起来几乎是人类的方式，为你提供许多主题的靠谱回答，而且任何能够上网的人都可以使用它。

ChatGPT是OpenAI创建的，OpenAI是一家位于旧金山的人工智能实验室，专注于创造友好的人工智能方案。该聊天机器人是基于GPT-3.5开发的，GPT-3.5是一个大型语言模型，当给定文本时，可以持续给请求者提供回复。

ChatGPT在此基础上增加了一些额外的训练–人类培训师通过与模型的互动改进了模型，并通过”奖励 “的方式让模型具备提供高质量答案的能力。

训练数据

GPT-3.5是在一个巨大的网络文本数据集上训练的，包括一个叫做Common Crawl的流行数据集。Common Crawl包含PB级的网络数据，包括原始网页数据、元数据提取和文本提取。例如，它包括来自StrataScratch的URLs集合。想想ChatGPT使用训练的数据来自网友在ChatGPT的输入，这是不是很疯狂？

Common Crawl负责60%的训练数据，但GPT-3.5也有其他数据来源。

ChatGPT与Google Bard：孰优孰劣，差异大盘点！

什么是Google Bard？

GoogleBard是在ChatGPT大受追捧的情况下，由Google推出的智能聊天机器人。与ChatGPT不同，Bard是由Google自己的模型LaMDA驱动。LaMDA是对话应用语言模型的简称，与ChatGPT不同的是，它没有那么惊艳，原因很简单，大多数人还不能访问它。尽管Google在2月初确实搞了一个充满尴尬的Bard演示，但目前Bard只对少数人开放。

GoogleBard的主要优势是它对互联网开放。问ChatGPT“现在谁是总统？”，它是不知道的。这是因为训练数据在2021年中期左右被切断了。而Bard则是借鉴了今天互联网上的信息。从理论上讲，Bard应该能够从今天互联网上的数据中提取，告诉你现在谁是总统。

很容易看出Bard在几个关键方面是如何从ChatGPT中脱颖而出的。

ChatGPT与Google Bard：孰优孰劣，差异大盘点！

训练数据

首先，LaMDA是在对话中训练的，专门用于对话，而不是像GPT-n模型那样只产生文本。虽然ChatGPT对其训练数据不加掩饰，但我们对Bard所训练的数据还不甚了解，可以通过查看LaMDA的研究论文来推断。谷歌的研究人员说，12.5%的训练数据来自Common Crawl，比如GPT-n模型。另外12.5%来自维基百科。而根据研究论文，他们使用了1.56万亿字的 “公共对话数据和网络文本”。

以下是完整的分类：

12.5%基于C4的数据（Common Crawl数据的衍生品）。
12.5%的英语维基百科
12.5%来自编程问答网站、教程和其他的代码文档
6.25%的英文网络文档
6.25%的非英语网络文档
50%来自公共论坛的对话数据

从上面的信息可以知道两者共同利用的数据，显然有维基百科。其余的数据明显是Google故意隐藏的，大概是为了保护Bard（和LaMDA）不被模仿。

LaMDA是通过微调Transformer的神经语言模型而形成的，它是一个最初由谷歌开发的开源神经网络架构。(GPT也是建立在Transformer的基础上）。

ChatGPT与Google Bard：孰优孰劣，差异大盘点！

ChatGPT存在一些壁垒，以防止它让人生厌或者说一些废话，但谷歌强调如何保证质量，以使Bard变成更好、更安全的聊天机器人。Bard经过微调，变得”高质量、接地气和安全”。

谷歌对此有很多说法，我建议阅读他们的相关博文，但如果你时间不多，基本上可以分成如下几个方面：

Bard应该给出有意义的回应–没有荒谬的内容，没有矛盾的内容
Bard应作出有见地、诙谐或出人意料的回应。
Bard应该避免任何有可能对用户造成伤害的东西–血腥、偏见、可憎的刻板印象等
Bard不胡编乱造

众所周知，由于一次错误的发布，谷歌还没有完全弄清楚底层需求。但值得注意的是，谷歌对设计要求说得很清楚，而ChatGPT没有说的那么清楚–至少目前是这样。

ChatGPT与Google Bard对比：模型参数为什么很重要？

ChatGPT确实比Bard拥有更多的模型参数–1750亿对1370亿。你可以把参数看作是模型调整的旋钮或杠杆，以适应它所训练的数据。更多的参数通常意味着模型有更多的能力来捕捉语言中的复杂关系，但也有过度拟合的风险。与ChatGPT相比，Google Bard可能不那么灵活，但也可能因为新的语言用例使其更加强大。