蓝天白云:什么是物理AI?

老高與小茉有个视频说AI有个通病,简单数学问题容易犯错误。例如,根据他们的测试结果, ChatGPT 4o 和ChatGPT o1以及谷歌Gemini都说9.11比9.9更大【1】。这些AI可以很好的回答很多问题,写故事,诗歌,画图都很能干,为什么不能正确回答一个小学生的简单问题?这些AI就像一个小孩不上学,只是通过和许多大人很长时间的聊天,长大后已经获得了许多知识。上知天文,下知地理,好像知识渊博。可是这些人毕竟没上过小学算术课,不会正确解答简单的算术问题。到百货店卖货都不会算收钱多少。如果AI有这重大缺陷,在关键时刻可能造成大问题。另一方面考虑,现在多数AI都是聊天机器人型,不擅长解决现实问题。于是自然提出了AI进一步发展的问题。

现在在这方面做得比较早,比较突出的是英伟达的(可能是黃仁勋带头的)物理AI。他们认识到要给AI增加科学知识,这显然是正确的。一开始不可能把全部科学知识都教给AI。那就先从最基本的,又有现实价值的经典力学开始。现实价值可能先在汽车自动驾驶AI中显示出来。自动驾驶中需要对汽车及障碍物的位置,速度,加速度做出非常快速的测量,然后AI做快速计算,发指令汽车做快速调整。循环往复。事故现场的细节是千变万化的,每一两秒都会有新情况需要AI按照思维逻辑作出立即变化的应对。这是现在的自动驾驶做不到的。这里计算和调整也是建立在经典力学计算结果基础上的。其实这类计算和游戏程序里长期使用的一类计算很相似,叫做刚体动力学计算。今年初不知什么原因飞机事故频发,在空中和在地面都相碰撞,也是类似的问题。差别是对汽车的计算是在二维空间,对飞机的计算是在三维空间。至于数学知识,在物理计算中必不可缺,自然和物理知识一起进入AI。在经典力学之外的所有科学知识,对AI也很可能是有用的,AI将来会逐渐学会。实际应用的AI只需学会,使用必要的科学知识。

如果你或者家人对选择AI职业有兴趣,或对股票投资AI有兴趣,或仅仅为了扩充知识,那么你也许有兴趣阅读英伟达网站上的一篇文章”什么是物理AI?”(What is Physical AI?)我并不是在这里推荐英伟达股票,毕竟英伟达目前还没有什么可值得提的AI产品,但是AI发展促销英伟达的芯片是无疑问的。而且上个月英伟达和丰田公司还达成协议共同生产自动驾驶汽车。这里是中文网站,为阅读方便,我用了中文的”什么是物理AI?”。中文是用谷歌翻译的。只在少数意思不清楚的地方,我做了一点修改。此外,英伟达网站不定哪天可能修改文章,和这里的中文翻译就有不一致的地方了。英语好的网友可以直接读英伟达原文【2】。

这篇文章标题里的“Physical AI”在网上通常都翻译成中文“物理AI”,很少看到有不同的中文翻译。叫物理AI的原因可能是英伟达的Physical AI用到rigid body dynamics(刚体动力学)计算。刚体动力学属于物理学。同时提到物理也表示对当前人工智能重视聊天不重视科学的纠正。下面是英伟达的文章:

什么是物理AI

物理AI使机器人和自动驾驶汽车等自主机器能够感知、理解和执行真实(物理)世界中的复杂动作。由于它能够生成洞察力和可执行的操作,因此它也被称为“生成式物理AI”(以下讲的物理AI等同生成式物理AI)。

物理AI如何工作?

现在的生成式AI模型(如 GPT 和 Llama 等大型语言模型)在大量文本和图像数据上进行训练,这些数据主要来自互联网。这些人工智能在产生人类语言和抽象概念方面具有惊人的能力,但它们对物理世界及其规则的掌握很有限。

生成式物理AI扩展了当前的生成式人工智能,使其能够理解我们所生活的 3D 世界的空间关系和物理行为。这是通过在人工智能训练过程中提供包含有关现实世界的空间关系和物理规则的信息的附加数据来实现的。

3D 训练数据是由高精度计算机模拟生成的,这些模拟既是数据源,也是AI训练场。

一个空间(例如工厂)的数字孪生【3】生成基于物理的数据。在这个虚拟空间中,添加传感器和机器人等自主机器。进行现实世界场景的模拟,传感器用刚体动力学捕捉各种相互作用,(例如运动和碰撞),用光与环境交互作用的规律(光学)说明光的行为。

强化学习在物理AI中的作用是什么?

强化学习在模拟环境中教授自主机器技能,以便在现实世界中执行。它允许自主机器通过数千甚至数百万次反复试验来安全快速地学习技能。

这种学习技术会奖励物理AI模型在模拟中成功完成所需的操作,因此模型会不断适应和改进。通过反复的强化学习,自主机器最终会适应新情况和不可预见的挑战,为在现实世界中运行做好准备。随着时间的推移,自主机器可以发展现实世界应用所需的复杂精细运动技能,例如整齐地包装盒子、帮助制造车辆或在没有帮助的情况下导航。

为什么物理AI很重要?

以前,自主机器无法感觉和感知周围的世界。但有了物理 AI,就可以构建和训练机器人,使其与现实世界中的周围环境无缝交互并适应周围环境。

要构建物理 AI,团队需要强大的基于物理的模拟,为训练自主机器提供安全、受控的环境。这不仅可以提高机器人执行复杂任务的效率和准确性,还可以促进人机之间更自然的交互,提高实际应用中的相互联系和功能。

生成式物理 AI 正在释放新功能,这些功能将改变很多行业。例如:

机器人:借助物理 AI,机器人在各种环境中展示了操作能力的重大进步。

*仓库中的自主移动机器人 (AMR) 可以使用机载传感器的直接反馈在复杂环境中导航并避开障碍物(包括人类)。

*机械手可以根据传送带上物体的姿势调整抓握强度和位置,展示针对物体类型量身定制的精细或不精细的动作技能。

*手术机器人受益于这项技术,可以学习穿针引线和缝合等复杂任务,凸显了物理 AI 在训练机器人执行专门任务方面的精确性和适应性。

*人形机器人(通用机器人)需要粗大和精细运动技能,无论任务是什么,都需要感知、理解、导向和与物理世界互动的能力。

自动驾驶汽车 (AV)AV 使用传感器来感知和理解周围环境,使它们能够在各种环境中做出明智的决策,从开放的高速公路到城市郊区。通过对自驾汽车进行物理 AI 训练,它使 自驾汽车能够更准确地检测行人、响应交通或天气状况并自主导向变道,从而有效地适应各种意外情况。

智能空间:物理 AI 正在增强大型室内空间(如工厂和仓库)的功能性和安全性,这些空间的日常活动涉及人员、车辆和机器人的稳定流动。使用固定摄像头和先进的计算机视觉模型,团队可以通过跟踪这些空间内的多个实体和活动来增强动态路线规划并优化运营效率。此外,他们通过准确感知和理解复杂的大规模环境来优先考虑人员安全。

如何开始使用物理 AI

使用物理 AI 构建下一代自主机器涉及跨多台专用计算机的协调过程:

1. 构建虚拟 3D 环境:需要高保真、基于物理的虚拟环境来表示真实环境并生成训练物理 AI 所需的数据。英伟达 Omniverse™ 是一个 API、SDK 和服务平台,这个平台使开发人员能够轻松地将通用场景描述 (OpenUSD) 和 RTX 渲染技术集成到现有软件工具和模拟工作流程中,以便构建这些 3D 环境。英伟达 OVX™ 系统支持这个环境。此步骤还包括为了模拟和训练捕获大规模场景或数据。fVDB 是一项关键技术突破,它使用丰富的 3D 数据集进行高效的 AI 模型训练和推理,它能够高效地表示特征,是 PyTorch 的扩展,对大规模 3D 数据执行深度学习操作。

2. 生成 3D 到真实的合成数据:使用元宇宙平台( Omniverse )【4】复制器(Replicator)进行环境和对象域随机化。将随机场景渲染为图像或视频,然后使用 英伟达 Cosmos™ 模型生成3D 真实照片的视频,以进一步增加数据集。

3. 训练和验证:英伟达 DGX™ 平台是一个完全集成的硬件和软件 AI 平台,可以与基于物理的数据一起使用,使用 TensorFlow、PyTorch 或 英伟达 TAO 等框架以及 英伟达 NGC 上提供的预训练计算机视觉模型来训练或微调 AI 模型。训练完成后,可以使用 英伟达 Isaac Sim™ 等参考应用程序在模拟中验证模型及其软件堆栈。此外,开发人员还可以利用 Isaac Lab 等开源框架,通过强化学习来完善机器人的技能。

4. 部署:最后,优化的结果和策略模型可以部署在英伟达 Jetson™ 或英伟达DRIVE AGX™ 上,用于自主机器人或车辆。

【1】https://www.youtube.com/watch?v=uKBI1Ea8VO0&t=400s

【2】https://www.nvidia.com/en-us/glossary/generative-physical-ai/

【3】数字孪生(digital twin):数字孪生是对应现实世界中物理产品、系统或流程的数字模型,它作为其数字对应物,用于模拟、集成、测试、监控和维护等目的。和数字孪生相对应的叫做物理孪生(physical twin)。

【4】元宇宙平台 (Omniverse):元宇宙平台是一個可以擴充3D設計軟體和多個GPU(目前僅限於英伟达 RTX系列的GPU),並支援多方實時協作的平台。其最主要的目的是希望能整合各家3D設計應用軟體,將各家的資產和技術整合到一個簡化的介面之中,讓團隊能更快速地創造出元宇宙中的虛擬世界。

作者投稿

此条目发表在 书刊评论, 华夏快递, 各抒己见, 学术探讨, 热门话题, 科普知识 分类目录,贴了 标签。将固定链接加入收藏夹。

评论功能已关闭。

本文短链接为 https://hx.ciaos.org/?p=243842