ChatGPT最强对手,实测却输给了文心一言!
整理 | 王瑞平
审校 | 言征
侵犯版权、隐私、遭遇轮番起诉,ChatGPT访问量直线下降,市场竞争力暴跌!
就在此时,Open AI的最强竞争对手Anthropic趁虚而入,推出Claude 2,杀它个措手不及。一批网友抢先体验过后,铺天盖地一片好评。
据悉,Claude系列刚被推出时就被给予厚望,由于创始团队都在Open AI任职过,技术过硬,呈现出的效果相当完美,意图理解也非常优秀。而且还推出了Claude Chat网页版,完全免费!
在性能方面,Claude 2正式支持10万tokens的输入,并且可以一次性输出4000个tokens。
此外,由于使用了2023年的数据训练模型,Claude 2“了解时事”,输出内容更具时效性。这些性能的改进都大大提升了Claude 2在用户心目中的分量。
(来源:Anthropic)
Anthropic官网上描述说:“我们很高兴发布Claude 2新模型,不仅改进了性能,还延长了响应时间,可通过API及面向公众的测试版网站Claude.ai进行访问。”
1、性能提升:文理通吃、为安全保驾护航
相较ChatGPT,Claude 2有如下优势:
首先是token:GPT-4的下限默认为8k个token,上限32k个token,而Claude 2是100k个token,与GPT-4根本不是一个量级!
然后是费用,GPT-4每月支付20美元,而Claude 2是完全免费的!
由于Claude 2具有更长的token,长文本处理能力更强,在文科方面发挥出了优势。
图片
在美国律师资格考试的多选题部分可以取得76.5%的正确率,前代Claude 1.3仅为70%。在GRE阅读和写作测试中,得分超过90%应届毕业生。而在美国医师执照考试中,Claude 2在3个科目中的分数都超过了60%,获得ALL PASS佳绩。
不仅如此,Claude 2还文理通吃,在编程、数学和推理方面准确率大大提升。
在迭代的过程中,Claude 2的安全性变得更强、受模型的约束,很难产生具有攻击性或危险的输出。 研发团队内部特设评估团队,针对大量有害提示对模型评分和自动化测试。团队也会定期亲自上手检查结果,确保万无一失!
结果表明,在整个评估环节中,Claude 2在给出无害反馈方面比Claude 1.3强2倍。
鉴于安全、功能及性能有所提升,Anthropic宣布Claude 2在美国及英国开放全面公测,他们也计划未来几个月内再扩大测试对象。
2、生态强:多领域、跨学科合作
Anthropic的理念是多领域、跨学科合作,与数千家使用Claude API的企业建立了合作关系。
其中之一是AIGC独角兽公司Jasper。Claude 2能够在各种用例中与其它最先进模型齐头并进,在长时间、低延迟使用方面具有特别的优势,为客户生成独具创意的广告文案内容。
Jasper工程副总裁Greg Larson表示:“我们很高兴能够成为首批向客户提供Claude 2的公司之一。它增强了语义、带来最新知识培训、能够对复杂提示进行推理改进。”
Sourcegraph是AI代码平台,可帮助客户编写、修复和维护代码。编码助手Cody使用Claude 2改进的推理能力为客户提供更准确答案,同时,还通过token高达100K的上下文窗口传递更多代码库。此外,Claude 2的训练数据更新,可获取新框架和库的知识。
Juni Learning是在线教育解决方案的领先提供商,使用Anthropic为其Discord Juni Tutor Bot提供支持,帮助学生完成学业。
图片
首席执行官Vivian Shen表示:“对我们来说,Claude 提供的对话体验就像真正的导师或老师水平,而不是表面答案。”
法律领域最困难的问题之一是阅读和理解复杂的法律文本。因此,法律基础设施企业Robin AI也正在利用Claude 2拟定合同。
3、Open AI内忧外患,挑战者的好时机
近日,据外媒报道称,OpenAI的核心员工正在流失到谷歌。其中一些员工已经辞职并与谷歌签订了合同,另外一部分人也将在近期离开OpenAI。
虽然此次核心员工离职潮看起来是OpenAI爆炸式增长引发的一系列管理问题,但深究其本质原因,或许是员工对CEO管理的不满以及对ChatGPT技术举步不前的失望造成的。
凭借着微软100亿美元的资金,OpenAI似乎满足于追逐他们最大的摇钱树 ChatGPT,但对于ChatGPT进一步开发计划却迟迟没有下文。如此看来,3月份亮相的Claude正朝初心方向发展,而ChatGPT却中途停滞。
不仅是内忧、外患也一并袭来。马斯克虎视眈眈,又有大动作!其旗下又一家公司问世!当地时间7月12日,马斯克在推特上宣布:人工智能公司——xAI正式成立。
图片
xAI的官网已上线。据介绍,该公司由马斯克本人亲自带队,而其他成员则来自DeepMind、OpenAI、谷歌研究院、微软研究院、特斯拉、多伦多大学等,曾参与过DeepMind的AlphaCode和OpenAI的GPT-3.5和GPT-4聊天机器人等项目。
从成员组成看,如此高端,马斯克或将xAI定位为与OpenAI、Google和Anthropic等公司同台竞技,他们多是知名聊天机器人的推手。
xAI公司号称宗旨是“了解宇宙的真实本质”。7月14日,该公司团队将在推特空间举行发布会,进一步解答网友的问题。
4、版本评测
官网消息显示,今年3月,Claude被正式推出,当时发布了两个版本,即,Claude1.3和Claude Instant1.1,各司其职、特性各异。
在基本的评测中,研究者也比较了三个版本。数据证明,新版本功能提升极大,主要表现在如下方面:
图片
如上表所示,在Python函数合成(Codex P)、GSM8k(小学数学问题)、MMLU(多学科问答)、QuALITY(长故事问答测试)、ARC-Challenge(科学问题)、TriviaQA(阅读理解)和RACE-H(高中阅读理解和推理)上,Claude 2的大部分得分都更高了。
官网上也透露说:“Claude具有高性能,而Claude Instant更便宜、更快。”
5、鸡兔同笼,输给了文心一言
为实测Claude 2的能力,我们尝试用“鸡兔同笼”问题测试文心一言和Claude 2,并进行了对比。
图片
如图所示,Claude 2的中英文都输出了错误的答案…
图片
而用文心一言进行测试,竟然算对了,看来还是文心一言靠谱!
图片
图片
有趣的是,ChatGPT中文版算对而英文版算错了!实测有点打脸!看来,Claude 2数学能力提升任重而道远。
6、用户:Claude比ChatGPT更健谈
再来看看用户反馈如何,Claude生成的对话文字似乎比ChatGPT更灵活!
“Claude比ChatGPT更健谈,在讲故事时更具互动性和创造性。”一位用户留言说。
“我个人喜欢Claude的答案呈现方式,深入而简单,”一位用户评价说,他对Claude的语言技能和专业知识问答印象深刻。
图片
主要合作伙伴之一Quora通过AI聊天工具Poe也向用户展示了Claude。“用户普遍认为Claude的回答详细且易于理解,交流时感觉像普通交流对话,”Quora的人员和通信主管Autumn Besselman说。
用户应明确,Claude与所有当前模型一样,会输出不合理内容。但是,这并不妨碍你与Claude 交谈。用开放、包容的心去使用吧,体验地址在这里:https://claude.ai/chats,祝你玩得愉快!
参考资料:
1.https://www.anthropic.com/index/claude-2
2.https://www.ithome.com/0/705/362.htm