ChatGPT的火爆背后，人工智能发展未来路向何方？

本文转载自微信公众号「活在信息时代」，作者活在信息时代。转载本文请联系活在信息时代公众号。

这几天，人工智能领域最火的当红炸子鸡，无异于OpenAI开发的可以进行对话聊天的机器人ChatGPT了。

ChatGPT是一个大型预训练语言模型，它可以在对话中生成类似于人类的文本响应。其基于算法基于当下最为流行的Transformer架构，这是一种使用自注意力机制处理输入数据的深度神经网络。广泛用于各类自然语言处理任务。ChatGPT基于大量文本对话数据集进行训练，并使用自注意力机制来学习类人对话的模式和结构。这使得他的回答，与真人的回答非常接近。甚至有人认为ChatGPT可以完全替代搜索引擎了。

在知乎作者DeFi的科普文《科普：什么是ChatGPT？》中，对ChatGPT进行了介绍。如图所示：

但是在文末的最后，作者给了大家一个彩蛋，表示这篇文章本身即是ChatGPT自己写的。例如上图中的“ChatGPT介绍”一节，即是作者在向ChatGPT提问：什么是ChatGPT？之后得到的回答，类似的，“算法”一节，则是作者在提问了“ChatGPT背后的算法是什么？”之后得到的回答。

从文章中，我们可以看出，ChatGPT在这种场景下的回答，几乎难以分辨是否是机器人在回答。这也难怪很多人对它的表现表示出惊叹了。

然而另外的一批人则对于ChatGPT的表现并不满意。例如说著名的程序员社区Stackoverflow在12月4日的时候就发布了一条临时规定：禁止使用ChatGPT生成的内容来回答Stackoverflow上面的问题。原因在于，这些生成的内容正确率非常的低，而这些似是而非的内容，对于整个网站以及寻求正确答案的用户来说是有害的。这里的主要问题是，由于使用ChatGPT的门槛非常低，因此近日来很多人都在使用ChatGPT来回答别人提出的问题，而由于他们本身缺少专业知识，没有验证ChatGPT生成的回答是否正确的能力，因此产生了很多毫无价值，甚至会引起误导的回答。

而另外的一些人则尝试了一些小学生的问题，而ChatGPT回答的不尽人意。例如：

ChatGPT的火爆背后，人工智能发展未来路向何方？

而这些简单问题回答的不尽人意的背后，则是我们对于人工智能领域发展的深度思考。

在深度学习领域，研究者们常说一句话：如果你拷问数据到一定程度,它会坦白一切。

这是一种自嘲，目前的人工智能领域，主要还是依靠大量的训练数据来训练模型，一个模型的成功与否与其训练的数据量息息相关。那么这势必会引出一个问题：如果有一天，一个超级模型使用了世界上最大的数据集进行训练之后，还是不能得到足够优秀的结果怎么办？毕竟对于普通人来说，并不需要学习世界上的所有知识就可以具有自己的学习和判断能力。

而更进一步的讲，全部的真实数据训练的数据就一定会比一部分真实数据训练出来的模型更好吗？考虑到有些真实数据本来就是对于同一个问题的答案完全相反的。就好像同一个问题下面，总会有不同的人进行争论一样。而这些训练集势必会对于神经网络的训练结果产生影响。

或许，人工智能的真正突破，还要等待基础科学的突破。就好像麦克斯韦方程将人们带入了无线信号传输时代一样。在我们朝夕相处的空间中，或许还隐藏着更深的秘密，等待人们去发现。