译者 | 崔皓
审校 | 孙淑娟
开篇
AIGC行业最大的两个竞争对手:ChatGPT vs Google Bard! 本文介绍这两个人工智能引擎之间的技术差异。
截至目前Google Bard和ChatGPT之间最大的区别是:Bard知道ChatGPT,但ChatGPT却对Bard懵然不知。虽然我们可以玩转ChatGPT,而Bard对我们大多数人来说仍然遥不可及。
ChatGPT与Google Bard之战的开始
ChatGPT和Google Bard都是人工智能聊天机器人。人工智能的简易版本已经可以在手机上使用了,当你输入 “good”时,手机就可以预测下一个词是 “morning”。
ChatGPT最初是由OpenAI开发的,然后由微软以令人瞠目结舌的100亿美元(除了早先的10亿美元投资外)进行投资。谷歌方面,对他们的搜索垄断可能要结束而略感恐慌,因此推出了Bard,但这个版本仍然存在一些缺陷。在第一次现场演示中,Bard犯了几个事实性错误,让谷歌感到很尴尬。
ChatGPT和Google Bard比智能手机的预测文本功能要更加复杂,如果说要了解这两款智能机器人之间的差异,下面的内容你就不能错过了。
这里我们会深入描述两个人工智能引擎之间的技术差异。
ChatGPT与Bard:内藏玄机?
我们可以通过如下表格快速了解它们之间的技术差异,通过表格可以看到很多细节。
ChatGPT | Bard | |
模型 | GPT-3.5 | LaMDA,即对话应用的语言模型 |
神经网络结构 | Transformer | Transformer |
训练数据 | 网络文本,主要是被称为 “commoncrawl”的数据集,在2021年中期截止。 | 156万字的公共对话数据和网络文本 |
目的 | 成为一个多用途的文本生成聊天机器人 | 专门协助搜索 |
参数 | 1750亿参数 | 1370亿参数 |
创建者 | OpenAI | Google |
优势 | – 对所有人开放 – 更加灵活,能够处理开放式文本 – 训练数据截止到2021年 | – 训练数据截止到当前 – 专门为对话而训练,所以当你和它对话的时候,听起来更像人。 |
劣势 | – 对话没有那么有说服力 – 没有那么仔细的微调 | – 目前还没有 – 可能不那么适合一般的文本创作 |
通过上面的表格了解了两者之间的差异,接下来让我们深入了解一下其他指标。
什么是ChatGPT?
ChatGPT于2022年11月30日突然出现在舞台上。到2022年12月4日,该服务每天有超过一百万的用户。2023年1月,这个数字膨胀到1亿多用户。
它突然这么受欢迎其基本原因是,它能以一种听起来几乎是人类的方式,为你提供许多主题的靠谱回答,而且任何能够上网的人都可以使用它。
ChatGPT是OpenAI创建的,OpenAI是一家位于旧金山的人工智能实验室,专注于创造友好的人工智能方案。该聊天机器人是基于GPT-3.5开发的,GPT-3.5是一个大型语言模型,当给定文本时,可以持续给请求者提供回复。
ChatGPT在此基础上增加了一些额外的训练–人类培训师通过与模型的互动改进了模型,并通过”奖励 “的方式让模型具备提供高质量答案的能力。
训练数据
GPT-3.5是在一个巨大的网络文本数据集上训练的,包括一个叫做Common Crawl的流行数据集。Common Crawl包含PB级的网络数据,包括原始网页数据、元数据提取和文本提取。例如,它包括来自StrataScratch的URLs集合。想想ChatGPT使用训练的数据来自网友在ChatGPT的输入,这是不是很疯狂?
Common Crawl负责60%的训练数据,但GPT-3.5也有其他数据来源。
什么是Google Bard?
GoogleBard是在ChatGPT大受追捧的情况下,由Google推出的智能聊天机器人。与ChatGPT不同,Bard是由Google自己的模型LaMDA驱动。LaMDA是对话应用语言模型的简称,与ChatGPT不同的是,它没有那么惊艳,原因很简单,大多数人还不能访问它。尽管Google在2月初确实搞了一个充满尴尬的Bard演示,但目前Bard只对少数人开放。
GoogleBard的主要优势是它对互联网开放。问ChatGPT“现在谁是总统?”,它是不知道的。这是因为训练数据在2021年中期左右被切断了。而Bard则是借鉴了今天互联网上的信息。从理论上讲,Bard应该能够从今天互联网上的数据中提取,告诉你现在谁是总统。
很容易看出Bard在几个关键方面是如何从ChatGPT中脱颖而出的。
训练数据
首先,LaMDA是在对话中训练的,专门用于对话,而不是像GPT-n模型那样只产生文本。虽然ChatGPT对其训练数据不加掩饰,但我们对Bard所训练的数据还不甚了解,可以通过查看LaMDA的研究论文来推断。谷歌的研究人员说,12.5%的训练数据来自Common Crawl,比如GPT-n模型。另外12.5%来自维基百科。而根据研究论文,他们使用了1.56万亿字的 “公共对话数据和网络文本”。
以下是完整的分类:
- 12.5%基于C4的数据(Common Crawl数据的衍生品)。
- 12.5%的英语维基百科
- 12.5%来自编程问答网站、教程和其他的代码文档
- 6.25%的英文网络文档
- 6.25%的非英语网络文档
- 50%来自公共论坛的对话数据
从上面的信息可以知道两者共同利用的数据,显然有维基百科。其余的数据明显是Google故意隐藏的,大概是为了保护Bard(和LaMDA)不被模仿。
LaMDA是通过微调Transformer的神经语言模型而形成的,它是一个最初由谷歌开发的开源神经网络架构。(GPT也是建立在Transformer的基础上)。
ChatGPT存在一些壁垒,以防止它让人生厌或者说一些废话,但谷歌强调如何保证质量,以使Bard变成更好、更安全的聊天机器人。Bard经过微调,变得”高质量、接地气和安全”。
谷歌对此有很多说法,我建议阅读他们的相关博文,但如果你时间不多,基本上可以分成如下几个方面:
- Bard应该给出有意义的回应–没有荒谬的内容,没有矛盾的内容
- Bard应作出有见地、诙谐或出人意料的回应。
- Bard应该避免任何有可能对用户造成伤害的东西–血腥、偏见、可憎的刻板印象等
- Bard不胡编乱造
众所周知,由于一次错误的发布,谷歌还没有完全弄清楚底层需求。但值得注意的是,谷歌对设计要求说得很清楚,而ChatGPT没有说的那么清楚–至少目前是这样。
ChatGPT与Google Bard对比:模型参数为什么很重要?
ChatGPT确实比Bard拥有更多的模型参数–1750亿对1370亿。你可以把参数看作是模型调整的旋钮或杠杆,以适应它所训练的数据。更多的参数通常意味着模型有更多的能力来捕捉语言中的复杂关系,但也有过度拟合的风险。与ChatGPT相比,Google Bard可能不那么灵活,但也可能因为新的语言用例使其更加强大。
ChatGPT与Google Bard:共同点?
值得强调的是,Bard和ChatGPT的模型(分别是LaMDA和GPT-3.5)都位于基于Transformer的深度学习神经网络。
例如,Transformer可以使一个经过训练的模型来阅读一个句子或段落,注意这些词之间的关系,然后预测它认为接下来会出现什么词–类似前面提到的智能手机预测性文本的功能。
这里就不展开讨论了,但你需要知道的是,这意味着在其核心部分,Bard和ChatGPT彼此之间没有太大区别。
ChatGPT与Google Bard:所有权
虽然所有权并不完全是一个技术上的差异,但它是值得记住的。
Google Bard是由Google制作并完全拥有的,在LaMDA之上,LaMDA也是由Google创建的。
ChatGPT是由OpenAI开发的,这是一家位于旧金山的人工智能研究实验室。OpenAI最初是非营利性的,但它在2019年创建了一个营利性的子公司。OpenAI也是Dall-E的幕后推手,你可能玩过的人工智能文本到图像的生成。
虽然微软在OpenAI上投入了大量资金,但就目前而言,它是一个独立的研究机构。
ChatGPT和谷歌 Bard哪个好?
这个问题很难给出公平的回答,因为两者相似的地方很多,但也有不同的地方。首先,现在几乎没有人可以访问Google Bard。另外,ChatGPT的训练数据几乎在两年前就被切断了。
两者都是文本生成器–你提供一个提示,Google Bard和ChatGPT都能回答。两者都有数十亿的参数来微调模型。两者都有重叠的训练数据源,并且都建立在Transformer上,即同一个神经网络模型。
它们的设计目的也不同,Bard将帮助你浏览谷歌搜索,它被设计为对话式的。ChatGPT可以生成整个博客文章。它的设计是为了输出有意义的文本。
即便说了ChatGPT和Google Bard之间的差异,那也只能证明人工智能驱动的文本生成技术已经取得了多大进展。虽然它们都有一段路要走,而且都面临着版权和道德方面的争议,但这两个生成器都是现代人工智能模型发展的有力证明。
译者介绍
崔皓,51CTO社区编辑,资深架构师,拥有18年的软件开发和架构经验,10年分布式架构经验。
原文标题:ChatGPT vs Google Bard: A Comparison of the Technical Differences,作者:Nate Rosidi