吴鑫岩
在5月14日谷歌公司举办了一年一度的开发者大会(Google I/O 2024),然而,OpenAI公司抢在其前一天召开了春季发布会,并且推出了GPT-4o。与GPT-4相比,GPT-4o不仅速度更快,而且具有了“多模态”的功能,这也就是omni的含义。简言之,GPT-4o可以接受文字、图片、语音和视频输入。在语音输入中,它可以提取出“语气”或“情感”的因素;此外,其输出的语音也可以采取不同的语气。因此,GPT-4o在与人类的交流中,不仅可以“论事”,而且还可以“谈情”。在视频输入方面,GPT-4o具有了深度记忆的功能,因此可以对以前“看到”的情景进行描述和评论。总而言之,GPT-4o将可以模仿人类来进行信息处理和交流。
如果从“炫酷”的角度来看,OpenAI所展示的新功能明显胜过谷歌。然而,如果从“实用”和“拓展”的角度来看,谷歌公司将要推出的新产品涵盖了很多不同的层次,并且与硬件的结合更密切,例如谷歌手机和谷歌眼镜。在AI方面谷歌准备推出了一个全能的Agent,取名为Astra,它将可以通过多模态与人类进行交流。此外,谷歌还预期把具有通用智能的Gemini变成具有“个性化”和“专业化”的Gems,从而在某一方面与个人进行深度交流。
目前AI领域发展的主要目标是“全知全能”,而其研发的方式则是简单粗暴的“大力出奇迹”,也就是采用越来越复杂的模型和更强的计算能力。但是,在未来的实际应用中,在不同的领域人们往往只需要AI在特定方面给予帮助。例如,一个小学生需要一个AI家教来辅导学数学,那么,这个AI模型就可以变得很小,完全可以存入手机中。另外,如果人们需要AI来帮助写RISC-V汇编语言的程序,这也可以用一个很小的AI模型来加以实现。因此,AI领域的一个健康发展方向是走MATLAB的模式:一个通用的模块和大量专用的模块,而用户可以根据需要来选择所需的专用模块。其实,这也与人脑的结构类似,它有分别处理各种感官信息的模块。
最近,AI Agent引起了很多人的关注,它可以代理人类与AI模型进行交流,因此其效率会很高。例如,我们在用AI编程的时候,往往对其给出的结果不放心或者不满意。此时,如果有一个Agent来对AI生成的程序进行检查并且给出修改意见,那就可以实现编程的自动优化。其实,这个方案在设计FPGA的硬件描述语言(VHDL或Verilog)中已经得到了广泛的应用:人们在设计一个逻辑电路的同时还设计一个test bench程序,它可以对生成的电路进行各种测试,并且把结果进行输出。当然,这仅仅是AI Agent的一个简单例子,人们可以将其拓展为许多Agent来共同完成一项任务,就像具有分工合作能力的人类团队一样。
由于AI的研发在某种程度上可以实现“自我迭代”,所以其发展趋势就具有指数函数特征。然而,在自然界中具有这种特征的事物最终都会遇到资源枯竭的极限;例如,细菌的繁殖就具有指数函数特征,但是,当营养耗尽的时候其增长就会戛然而止。同样,AI领域这种粗犷式的发展模式也无法持久,因此巨型AI模型必然会被模块式的小模型集合所取代。此时就需要AI行业制定出一些规范和标准,这样众多AI公司就可以进行大范围的协作。中国在这个方面是有很大优势的,政府可以把几个AI巨头组织起来,对AI的架构进行标准化,从而使这个领域可以得到健康发展。
(2024年5月18日)