AI计算的物理本质与物理AI实现的探索
[摘要]当前基于不同模态的数据、不同类型的算法研究AI技术,逐渐进入商业化阶段。但是也出现幻觉、安全等一系列问题,导致不少场景落地困难,所以业界又提出物理AI的概念。本文用全新视角分析AI计算要素的物理真实、计算过程的物理本质、计算结果的数学结构,探索其在物理法则上的约束和数学结构的边界。最后,基于对AI计算物理本质的认识基础,洞察物理AI工作原理,探索物理AI的实现途径。
关键词:自由波,秩序,信息分类,统计属性,动态机制。
前言
经验和理性告诉我们,一种理论或技术带来产业变革的前置条件,是我们完全掌握了这种理论或技术的物理本质和数学结构,没有例外。
本文基于信息和系统两大主线,研究AI计算的物理本质。这个世界的物理真实并不透明,这个世界真实结构、存在的本质和运转规律隐藏在微观频域中。我们感官呈现等事物,包括我们综合理解的事物,往往是基于我们的能力、认知(生物智能)感知到的客观世界的某种属性。如图1,我们看到的黄色其实是590nm波长的电磁波在视网膜上的视觉呈现。事实上,将760nm波长的电磁波(红色)与535nm波长的电磁波(绿色)以一定比例混合,也能在我们视网膜上产生黄色的色觉。
图1 物理真实与感官呈现
所以需要我们超越感官和经验“看”物理真实,演绎数据(信息)、AI计算的本质,并演绎AI计算的能力边界。而AI计算提为我们供的服务,必须在宏观的、看得见的时空域有确定性和一致性,满足每一个人朴素的诉求。本文用逻辑将微观频域的本质与宏观时空域的诉求连接,使其整体呈现逻辑自洽、结构稳定,也就是物理AI的原理和实现途径。
文中不少章节有AI计算单元与人类大脑处理信息的对比,并不是简单的经验归纳、观察结果类比。而是,我们认为在抽象的系统层面,AI计算实现智能的途径与人类大脑实现智能的途径是一致的。这种认识在业界确实没有统一,有行业专家明确表述过AI计算和人类大脑计算方式不可能一致,但是大部分行业专家支持一致的观点。
我一直坚信,实现人工智能的唯一途径是以类似于人类大脑的方式进行计算。
---杰弗里·辛顿(Geoffrey Hinton)
我们认为的一致是在微观层面和抽象的系统层面:
-
在微观层面,粒子、相互作用、遵守的物理法则都是一致;
-
在抽象的系统层面,基本功能要素、连接关系、运行机制、整体功能结构是一致的;
人脑神经元中传递的化学物质有数百种,硅基单元当然没有复杂的材料,更别说化学物质,我们需要了解这些化学物质承载的信息属性、作用。系统理论是一门小众的学科,本文没办法更详细的论述。举个例子对比理解,飞机和鸟类的材质、组成形式、飞行方式完全不一样,但是它们一定遵守完全一样的空气动力学,自然法则不会区分鸟类的空气动力学与飞机空气动力学。我们的思想,自然法则也绝对不会支持两种完全不同智能实现原理,因为这会破坏宏观和微观物理世界整体结构的简洁优美性,也违反整体运行代价最小原则。
文中大部分举例、示意图以智能驾驶为背景,因为智能驾驶在业界被广泛的讨论和熟悉,但是研究范式和关键结论具有普适性。
为了方便阅读,解释几个关键名词。
宏观时空域:符合人类感官和经验的视角,在时间和空间维度理解事件运动和变化;
微观频域:在物理真实的视角,基于电磁波和场的维度理解AI计算的本质;
信息:非常广泛的概念,但本文限于硅基电路领域研究,基于电磁波承载信息的范畴;
系统:抽象概念,业界有两个流派,以路德维希·冯·贝塔朗菲、诺伯特·维纳、德内拉·梅多斯等人为代表,强调系统的整体性,内部要素通过机制相互关联、相互作用,与外部环境交互信息、摄取能量保持整体结构稳定性;物理、生理领域的科学家更强调系统复杂性,整体大于部分之和,整体呈现智能涌现等属性。本文中不同位置的系统概念,其内涵也不同,读者注意甄别。
秩序:物理学领域一般从热力学、开放系统视角解释系统内部要素总体状态呈现背后的原因。本文借用秩序这个概念,一方面描述一个宏观的时空场景运转呈现合理状态背后的原因,比如一个交通场景之所以可以合理运转其背后有一种秩序在主导(可以简单理解成交通法规);另一方面描述微观频域中基本要素合理组合涌现出整体的智能。
说明:
1、 本文中主要观点、解释并不是业界共识,研究范式也是全新的。因此,读者要理性阅读,可以质疑、批判。一些依赖作者“直觉”的解释,会有明确的注释。
2、 读者需要跳出当前研究AI的普遍范式、视角和当前的框架,基于理性和逻辑来看待本文的论述。
1. AI计算理论的研究路线
重要的科学理论都是循序渐进,需要经过现象观察、经验总结和理论总结阶段,形成理论框架指导产业发展。其中典范就是,第谷、开普勒、牛顿横跨上百年的时间开展的天体运动规律研究。
AI概念的提出有70多年的历史,进入数据驱动的研究范式也有20多年的时间,近10年更是生成式AI、通用智能、物理AI等概念层出不穷,技术加速演进。表格1直观对比天体运动理论和AI计算理论的研究历程,从数据分析、总结规律到探索本质。
表格1 天体运动规律和AI计算规律研究历程对比
|
阶段 |
现象观察 |
经验总结 |
理论推演 |
|
方法论 |
经验主义、数据积累 |
数学归纳,经验性规律 |
理论演绎,物理本质 |
|
天体运动理论 |
第谷系统地记录了777颗恒星的位置,并对火星、金星等连续追踪,积累了约1000余组高精度数据 |
开普勒以数学家的思维对火星轨道进行了700多次试算,最终发现星星运行的三大定律:椭圆轨道定律、面积定律、周期定律。 |
牛顿以数学为工具严格推导三大运动定律,基于物理直觉将其升华为普适的万有引力定律。建立力与运动的关系,解释了运动的本质。 |
|
AI计算理论 |
出现大量的AI模型算法,模型训练方法(强化学习、自监督等),工程验证经验(数据标注、仿真等) |
Scaling law: 随着模型中参数数量的增加,性能按照幂律改善;更大规模的训练数据也带来更好的性能,也遵循幂律关系。计算架构对性能影响不大。 |
AI计算领域的“力” |
站在当时的视角,牛顿的研究有两个层面的突破:
-
跳出数据记录、运动规律的经验总结,洞察到一个全新物理真实,力;
-
用力、质量、运动这些“风马牛不及”物理量纲构建了一个结构自洽的体系;
只有万有引力概念的提出才使天体力学从经验描述升华为可解释、可计算、可预测的理论体系,并统一了天地物体的运动规律,奠定了现代工程的理论框架。
所有困难的问题,答案都在另一个层次。本文的基本目标之一,要超越数据层面找到一个“力”的概念,“看”到AI计算的本质,再解释Scaling law原因。
2. AI计算的物理本质
如图2所示,AI计算的研究整体可以分为模型训练阶段和实际推理阶段。我们的视角理解模型训练,场景数据通过反馈机制提取出一组权重参数,注入硅基电路单元中,使硅基电路单元产生了秩序。相当于把支撑场景运转的秩序传递到AI计算单元的海量参数中。
本文不关注AI模型训练过程,只研究AI计算单元在实际推理阶段的微观物理本质和宏观整体属性。AI计算的推理过程涉及到的要素有数据(信息)和计算单元(硅基电路)。首先,分析这些要素的物理真实;其次,计算过程这些要素的相互作用和约束,也就是AI计算过程的物理本质;最后,计算结果全局数学结构。
图2 AI计算的全景图
2.1. 信息的物理真实
人类在掌握硅基电路处理信息的路径上,电子单元、通信(计算)单元、AI计算单元是脉络清晰的三个阶段。按照这三个阶段分析信息的物理真实和属性,论述方便,也方便归纳出普适性、客观性的理解。
2.1.1. 电平的物理解释
在电路单元里面,电平是最基本的信息表达形式。结合图3分析电平的物理真实和整体属性。
图3 电平的本质和属性
电平的物理真实:一组分布的在特定频域上的电磁波,每一个电磁波可以用相位、频率、幅值去描述,如图3中间部分所示。
分布属性:电磁波之间再没有主观的作用与关联,只是在频域上客观的分布,如图3右侧部分所示。
表象:所以图3左侧部分所示的电平是一种观察值,是一组电磁波在相位、幅值、以及关键的频域分布属性的整体表现。或者说是我们理解物理真实的一种方式而已。
综述,真实的物理世界(微观频域)并没有电平,电磁波是客观真实的存在。所谓电平,就是一组在频域上特定排列组合的电磁波呈现出来的整体属性。硅基电路能“看”到的最小尺度就是每一个独立的电磁波,也是当前物理学理论的最小尺度。
下面介绍的通信与计算单元、AI计算单元处理信息单元内部的基本要素就是电平(一组电磁波),即能“看”到最小尺度的要素都是电平。为了论述方便,又符合本文的思想,后文会把组成电平的一组电磁波统称为自由波。
2.1.2. 报文的物理解释
在通信与计算领域,报文是基本信息单元。
图4 报文的本质和属性
报文的物理真实:0或1都是一个特定的自由波,报文就是在时域上有序排列组合的若干个自由波。
分布属性:若干个自由波一旦产生彼此之间再没有主观的作用或相关性,只是在时间域上客观的分布。
表象:报文是一种观察值,是我们理解时间序列自由波的方式。
2.1.3. 向量/张量/Token的物理解释
在AI计算领域,向量/张量/Token是基本信息单元,它们的空间维度不同。日常生活中的图片、文本、符号、语音等都可以转化为AI计算单元可以识别的向量/张量/Token,就是多维数组。如图5所示,图片与向量/张量/token的对应关系,为了直观理解它们的排列分布简化为一个四维时空左边。实际张量/Token的维度非常高,需要用数学描述,读者注意甄别。
图5 向量本质和属性
图片的物理真相:图片中的像素是宏观时空域中一个极小的时空范围分布的内若干个自由波,图片/视频就是分布在时空域上有序排列组合的海量自由波。
分布属性:海量的自由波一旦产生彼此之间再没有主观的作用或相关性,只是在时空域上客观的分布。
表象:图片/视频是一种观察值,是我们理解时空序列自由波的方式。
综述,AI计算单元处理信息单元里面的基本要素也是自由波,向量/张量是自由波在更高维度的数学表达。
2.1.4. 信息的定义与意义
本文的信息研究与定义限定到硅基系统处理的电磁波承载的信息。信息的物理真实,一组若干数量在时域、时空域、或更高维度有序的排列组合的自由波,所谓有序可以用数学描述其分布结构。需要强调的是,除了自由波存在的状态,它们的排列组合方式是更重要的信息内涵。电平、图片、颜色等概念对硅基单元无意义,仅仅是我们观察或研究物理系统的方式。向量、张量是自由波组合分布状态的数学描述。
2.2. AI计算单元的物理真实
承载AI计算的实体就是一块硅基电路,通常称为神经网络是按照计算属性的一种抽象称呼。如表格2,复杂的神经网络电路中,每一个神经节点由大规模门电路、存储电路按照特定形式组成。一个基本门电路由晶体管、信道按照特定逻辑组成。一个基本共识,晶体管、信道就是复杂神经网络电路的最基本单元,直接处理分布在频域上的每一个自由波。
表格2 复杂电路的层级与基本组成
|
硅基电路单元层级 |
硅基电路的规模与组成形式 |
对应的自由波维度 |
|
大规模神经网络电路单元 |
|
高维度分布的自由波 比如连续时空视频流 |
|
门电路组合单元 |
|
低维度分布的自由波 比如时间序列自由波 |
|
基本电路单元 |
|
分布在频域上的自由波 |
直接描述,电路单元的物理真实是电磁场。在电路工作的时候,每一段PCB走线,每一个阻容器件,每一个基本的晶体管,对于自由波的意义是以它们为载体建立的电磁场。神经网络等大规模硅基电路,物理真实就是海量电磁场的有序组合。硅、PCB只是承载电磁场的物质基础,在理论上和工程实践中都合理的一种材料,对自由波、对计算(信息处理)没有直接意义。
2.3. AI计算成立的条件
由光(或者其他形式的自由波)承载的连续的信息输入一片复杂的硅基电路单元能输出有意义的计算结果,还有一个重要的条件,就是秩序。海量自由波在时空、或更高维度的排列组合方式埋藏着秩序,大规模电磁场的排列组合方式埋藏着秩序。
站在我们的视角,模型训练过程就是将某个场景的运转秩序提取,并传递到硅基电路单元里面,使一个规模宏大的电磁场群有高维秩序。如图6下半部分结合图2以交通场景为例,模型训练的基本过程可以这样理解:
-
交通场景中的参与者、交通标识、基础设施的存在状态都有规范性,它们在场景中的布局、运动都有规律性,所以交通场景运转才能有序。把交通场景的规范性和规律性统称为交通秩序(可以简单理解为交通法规);
-
理想情况,每一个交通参与者对交通秩序都有一致的理解;
-
交通场景运转中产生的数据隐藏着交通秩序;
-
基于场景运转产生的数据训练模型生成权重参数,这些权重参数整体意义上的理解就是隐藏的交通秩序;
-
将权重参数注入硅基电路,产生了新的硅基秩序(当然传递进硅基电路里面的还有激活函数,不是本文研究范畴)。
说明,AI计算层面的权重参数注入电路,并没有改变物理布局,只是在门电路输入关系组合、逻辑链接关系、时序关系方面产生了改变,鉴于篇幅限制本文不会描述细节。
AI的推理过程如图6上半部分,在宏观上看,海量的自由波以一种特定秩序方式存在,大规模电磁场以一种相应秩序形式存在,当它们叠加到一个时空范围内两种秩序精确的适配,便产生有意义的计算结果。
图6 秩序传递的过程
除了权重参数注入秩序,其实芯片的设计和加工过程本质也是建立基本秩序。如表格2中,一个基本的晶体管工作时候,本质是把两个电磁场在垂直分布,一个电磁场的工作可以打开或关闭另一个电磁场。这样可以处理有逻辑关系的事件,这就是最基本的电路原理。对于计算和通信的硅基电路,通过协议的方式建立电磁场的秩序,使其可以处理时间序列信息,不是本文的重点不再赘述。
复杂建立在简洁之上。组成复杂神经网络电路的基本要素就是晶体管、信道等,关键是这些基本要素的组合方式,即整体的硅基秩序。这种硅基秩序与主导场景运转的秩序有结构上的一致性。
秩序是本文关键的概念,从复杂系统、分子生命科学领域借用过来的。对比理解,硅基智能是在数学(激活函数、损失函数、奖励函数、梯度下降函数等)结构的主导下产生了秩序,使基本晶体管、信道堆叠出有意义计算单元。碳基智能是在基因的主导下产生了秩序,使基本的细胞组合出有意义的器官。
2.4. AI计算过程的物理本质和结果属性
从两个物理真实自由波、电磁场和一个抽象概念秩序洞察AI计算的本质和属性,这是我们的研究视角。下面将从微观局部研究AI计算过程的物理本质,从整体全局研究AI计算结果的数学结构,这就是我们的研究范式之一。
2.4.1. 微观局部的物理本质
直接描述如下。
-
法则一①:
如图7,任何一个自由波自动适配在当前空间维度下阻抗最小的电磁场(信道、晶体管等)通道,因为在所有可能的电磁场中传递,只有阻抗最小的付出的代价最小。也可以这样解释,自由波有无限的自由度(这就是将一组电磁波定义为自由波的原因),走了所有可能得电磁场通道,最终叠加和抵消后,总体效果只体现在阻抗最小的电磁场通道上。
-
法则二②
如图7,一个神经元(一组门电路)接收到足够的自由波,便会触发激活函数(一组门电路)输出一个值(一组自由波),小到一个基本的晶体管的开关动作也可以这样理解。假设理想情况下,任何一个基本单元(电磁场组合)在接收、释放自由波过程中遵守能量守恒,当输入的自由波能量超过门限值就会自动释放,基本单元自动保持稳定。在脑科学研究中也有一致的观点③,每一个独立的神经元都要遵守自由能最小的法则。
图7 AI计算微观层面的物理本质
当海量的自由波进入大规模的电磁场中,每一个自由波传递遵守法则一,每一个功能单元运行遵守法则二。在微观层面再没有其他任何作用或因素能影响它们、约束它们。
2.4.2. 计算结果的全局属性
继续以智能驾驶为例,如图8所谓AI计算的物理过程可以描述:
-
电磁波(光)与交通场景各种交通要素的作用,反射的电磁波在时空维度持续的产生了特定排列组合,也就是在时空维度产生连续的自由波;
-
由于交通场景所有要素的分布、运动变化都遵守交通秩序,所以这些海量的自由波在时空维度的变化也一定遵守“交通秩序”;
-
海量的有序自由波进入规模宏大而有序的硅基电路中,每一个自由波都遵守法则一,每一个神经元都遵守法则二;
-
生成所谓的“行车路径”,本质就是海量连续自由波(信息)进入大规模电磁场中,在法则一和法则二约束下,输出的一组自由波。
图8 AI计算结果的宏观属性
以上分析,AI计算结果与输入信息在全局上没有任何逻辑、因果上的约束,全局上只能基于两种秩序的适配,结合复杂系统理论,AI计算结果在全局上遵守统计属性。
在工程实践中,交通场景运转的复杂性、随机性、不确定性,埋藏在硅基电路中的“交通秩序”不可能完美,再加上环境因素、硅基电路制造等因素,每一个自由波在传递过程中都有不确定性。
说明:整体遵守统计属性的结论,我们目前很难用绝对的逻辑演绎或数学推导论证,有复杂系统理论和较好物理理论基础的读者更容易接受该论断。
2.5. 总结
AI计算本质的解释基础一定是物理学,计算结果属性的解释基础是统计学。空间向量只能对事物存在状态的孤立描述,无法描述微观频域中的动态过程和全局的随机性、不确定性。
AI计算要素的物理真实是自由波、电磁场,计算成立的条件是秩序。
法则一和法则二就是AI计算过程的物理本质。当前范式下的AI计算,整体计算结果遵守统计属性就是数学结构。这就是AI计算领域的“力”,与第一章的问题呼应。
① 背后的物理法则是最小作用量原理;
② 基本单元遵守能量守恒,自动保持稳定性;
③ 《The free-energy principle:a rough guide to the brain?》---kail Friston
3. AI计算的现象、规律和工程应用问题的解释
基于第二章的推演结论,解释一些AI计算的现象、规律和具体工程落地过程中的问题。
3.1. “不可解释性”的解释
AI计算的“不可解释性”是行业的持续话题,是指AI模型在输入与输出之间形成的决策过程无法被人类清晰理解、追溯或用逻辑语言解释的现象。以智能驾驶系统举例,所谓“不可解释性”是指在AI计算在解析信息的过程中出现“错误”或“正确”的结果,无法用一些逻辑、流程、因果方式找到具体的原因。
海量自由波在大规模自由场中,全局上只有遵守统计属性的秩序适配。无论在微观个体层面还是全局总体层面,没有任何逻辑、因果的约束。比如一个感知模型识别交通场景的要素可以这样理解,比如一辆车由一组像素(自由波组)信息承载,模型中有海量的参数,每一个参数或多或少、或直接或间接都参与了这组像素的适配,但是任何一个参数都起不到主导作用。当前的端到端模型处理信息也可以这样理解,只不过它会把不同的交通要素关联起来同步处理,涉及全局参数。
所以,本文认为所谓“不可解释性”就是AI模型(统计系统)的基本属性,这样才能应对动态、复杂、充满不确定性的交通场景运转。一个或一些确定的逻辑、流程不可能应对交通场景运转。
其实是我们理解物理世界的视角不对,真实的物理世界在宏观时空域和微观频域有各自的运行规律和法则,它们并没有直接对应关系,6.2节有详细介绍。
业界也有学者基于还原论研究AI计算的原理,通过理解每一个细小单元的工作原理,逐步向整体延伸,最终解释清楚AI计算的整体逻辑和原理。用端到端模型举例,模型里面根本没有独立的单元、也没有主观的意图或逻辑。所谓的功能单元、逻辑过程仅仅是我们抽象出来的。甚至我们认为,计算同一个场景下完全一致的交通要素,在不同时间参与计算的参数、信息流都会有所不同。还原论,包括SHAP、LIME、机制可解释性、注意力可视化等方案试图解释AI计算的逻辑,一定行不通。
3.2. 为什么AI计算性能遵守Scaling law?
既然是AI计算结果在整体上遵守统计属性,就可以用
![]()
定理和
![]()
④定理描述整体误差分布。
![]()
定理,描述承载一个宏观物体,在微观领域信息要素的规模与误差的关系。比如AI识别一辆汽车,其准确率与表达汽车的像素(自由波组合)数量有关。假设AI计算能力确定,N是像素的数量,则AI计算识别汽车的误差为1/
![]()
。比如,N=100,其误差为10%;N=1000000,其误差为0.1%;详细曲线关系如图9所示。这就是在工程实践中选用高像素的相机效果好的原因。
图9 像素数量与误差的关系曲线
用描述AI计算单元的参数规模与计算误差的关系。在N确定的条件下,M是AI计算单元的参数量,AI计算结果的误差分布遵守
代表秩序系数。假设x=0.1,比如,M=100000000(1亿),AI平均计算10000(1万)次出0.1次错误;M=10000000000(100亿),AI平均计算100000(10万)次出0.1次错误。
很显然,训练AI模型的数据量越大,数据质量越高,模型越有序,即秩序系数x越小。
这就是AI计算遵守scaling law规律的原因,数学结构决定了AI计算单元要想在推理过程中表现出宏观的确定性、高性能,必须:
-
表达实物的视频或者其他形式的数据格式,信息要素量要大;
-
模型要的权重参数规模要大;
-
训练模型的数据量要大、数据质量要高,秩序系数才会小⑤;
同时也决定了另一个残酷事实,提高AI计算准确性付出的代价呈现指数增长。
3.3. 模型推理有因果或逻辑?
我们认为当前研究范式下,AI计算不可能产生真正的因果关系和逻辑推理。分析两个行业应用实例。
案例一,24年发布的OpenAI o1在数学公式计算除了正确的结果还有完整的推理步骤,所以业界不少人认为o1已经有理解事物的因果和逻辑的能力。仔细研究该模型所谓推理步骤,其实是将解题涉及到的信息进行蒙特卡洛搜索,再用马尔科夫链排列所谓的解题步骤。蒙特卡洛搜索就是面对复杂的、不确定的系统,通过概率统计方式逼近问题的本质;马尔科夫链基于转移概率规则描述随机动态系统随时间的变化行为。其背后都是概率思想。
案例二,当前智驾领域的VLA模型,对于特定的决策可以给出具体原因。比如行驶过程中一次刹车动作,随后可以输出前面有锥桶导致的,因此不少行业人士认为模型内部计算已经有因果关系。背后的原因是训练阶段,将常规交通标识、参与者、交通设施的数据和执行动作数据关联起来标注,所以模型不仅学习到了交通要素还学习到了关联关系。这种标注成本非常高,需要有经验、高学历的工程师参与数据标注工作。
以上计算方式到底算不算因果关系、逻辑推理,可以见仁见智。站在作者的视角理解,整个过程没有抽象的规则、没有稳定的推理结构、没有真实的前提条件,肯定不能算。AI计算的物理本质和数学结构决定了,无论是计算过程还是计算结果与场景输入数据不可能有因果或逻辑关系。
3.4. 安全问题
当前研究范式下,AI计算单元就是一个统计系统,其结果对硅基电路单元而言仅仅是一个统计分布,根本没有错误与正确概念。统计属性只能做整体性、结果性描述,无法面对个体的、过程的问题,但是我们生活的现实社会一定会要求每一个个体的安全。直接导致不少应用场景存在安全问题,无法规模商业化,典型的就是智能驾驶,正在兴起的具身智能也会面临这种局面。
比如智能驾驶行业,基于当前的理论框架,一方面缺少公信力,图灵奖获得者约瑟夫.斯发基斯公开表示自动驾驶技术尚未成熟,交通出行不建议依赖自动驾驶;美国汽车协会(AAA)分别于2018/2019/2025年调查,有70%以上的受访者不信任无人驾驶汽车的安全性。另一方面商业化落地成本高昂,代表L4级的智能驾驶RoboTaxi,通常要配置30个以上的传感器、双算力平台,国外某平台的RoboTaxi单车智能设备成本高达14万人民币。
当前业界部分人认为,当智能驾驶的事故率(或者说交通事故造成死亡人数)低于人类驾驶时候,智能驾驶就可以逐步落地。这是错误的理解,人类驾驶出的任何一次交通事故或死亡,都有一个法律主体来担责。对于交通事故,很明显车企、模型供应商都无法承担这样的后果。这样就要做到绝对的安全,就像商业电梯一样安全才有可能产业落地。SAE International等机构定义L4级别的智能驾驶系统故障率低于10-8甚至10-9h,参考图10对比其苛刻程度.读者注意,每人每年被闪电击中死亡的概率大概是10-7.
图10 故障率对比
业界解决当前智能驾驶安全问题的方案包括逻辑规则兜底、AI功能安全设计(ISO08800、ISO05469)、预期功能安全设计(ISO21448)、冗余备份、以及基于海量的实际道路数据强化学习,无论在理论层面还是在工程实践层面都毫无说服力。
我们认为基于当前的AI计算框架想让智能驾驶等要求高安全的场景,实现L4级别规模化产业的期望超越了物理法则和数学结构的边界。最多在封闭场景,或有条件地实现辅助智能驾驶。这是我们研究物理AI及其实现途径的直接原因。
④ 用1/和
描述统计系统全局误差分布,这是分子生物、复杂系统领域的共识。提示1,如果有读者深究该部分的描述,不能简单对照数学的统计概念(因为数学的统计概念只强调采样次数和结果的平均分布),还要深入研究物理学和复杂系统理论。典型参考著作有埃尔温·薛定谔的《生命是什么》。提示2,对于当前的AI计算系统,x应该是远远小于1,应该是非线性的。
⑤ 这一条解释的不够理想,缺少数学的严谨性,我们还在系统性的研究,读者注意甄别;
4. 物理AI的探索
由瑞士联邦材料科学与技术实验室Aslan Miriyev与伦敦帝国理工学院Mirko Kovač于2020年在《Nature Machine Intelligence》首次提出,能够理解物理定律并与现实世界交互的智能实体系统。也有业界专家的表述,物理AI的核心是算法有理解质量、能量、运动、力、时空关系等基本物理法则的能力,或者嵌入特定的约束,使智能体可以动态的融入某种场景运转中。两种表述的本意是一致的,是当前业界的基本共识。实现的技术路径,物理信息神经网络(PINNs)、物理神经网络(PNNs)、物理引导的强化学习与仿真闭环。
后文用独立的研究范式、思想理念演绎物理AI实现路径。
4.1. 探索物理AI的研究范式⑥
作为一种研究范式举例说明,确实有点赘述。读者可以根据兴趣选择阅读本节内容,可以直接看4.1.5的总结。
继续用智能驾驶场景举例说明。本如图11,文把交通场景、智能驾驶(AI计算)单元、服务状态,三个抽象单元放在一个体系来分析。分析每个单元的结构、属性、合理的假设,追求内部的目的、要素、机制之间的整体逻辑自洽。
图11 研究范式
4.1.1. 安全状态的假设
无论有人还是无人驾驶,驾驶的目的就是从A到B。站在服务的角度,穷举过程中的状态也就三种:
-
持续安全行驶服务达成(整体达成率,个体安全);
-
由于某种错误暂停行驶,保障人员安全;
-
某种错误导致交通事故(或违规);
无论是业界普遍认可的道路车辆功能安全标准ISO 26262,基本思想就是探测到系统错误,可以暂停服务保障人员安全;还是人们的朴素认知,只要不出交通事故损害生命财产,偶尔的暂停服务是可以接受的(其实这种一致认知是被物理世界的不确定性塑造出来的)。所以本文的假设:智能驾驶提供的服务只要能收敛于达成和暂停两种状态,服务就是安全的,消费者可以接受,也就可以产业化。
安全状态的定义是前提假设,也是推演物理AI实现方案的逻辑终点。
说明:这里的暂停不要简单理解为车辆直接停在马路上,只是理论研究提出的一种状态描述。
4.1.2. 交通场景的信息分类
交通场景确实是动态的、随机的、复杂的,永远有corner case。但是我们从整体视角看待交通场景,层次化、结构化结构交通场景的运转机理和运转状态,存在两种属性的信息,即维度信息和本征信息。维度信息表征交通场景的运转机理,本征信息表征交通场景的存在状态。
维度信息,是在一段连续的时间和对应的动态空间范围内研究一个场景的运转规律、秩序,场景内的维度信息(要素)呈现动态性、相互关联性、随机性、不确定性。
本征信息,是在一个孤立的时间点和对应的静态空间范围内,研究一个场景运转状态,场景内的本征信息是静态的、孤立的、确定的。另外,本征信息必须与场景对应,一辆车在交通道路运行的场景里面,本征信息就是时空的占用状态,但是放在商务场景中,本征信息是身份地位的代表。
4.1.3. AI计算单元的整体属性
假设AI计算单元里面是理想模型,则AI计算单元整体上遵守如下法则
对称与守恒:
-
模型里面埋藏的交通秩序与主导交通场景运转的交通秩序是一致的;
-
任何一个时刻,交通场景里面的交通要素状态分布与数字世界(逻辑层面理解,AI模型中流动的信息一定有一个与交通场景对称的数字世界)里面的本征信息是一致的;
对称守恒的思想,在算法里面的向量变换也有体现,所有的向量变换一定有一种结构性的东西不变;以及损失函数、回归函数等都在追求一种状态或结构的一致性。
图12 AI计算的整体属性
时空不重叠:
在宏观时空域,事件的运动、变化在时间和空间维度遵守不重叠法则。由于对称性法则,智能驾驶的AI计算单元规划出来的行车路径也必然遵守该法则。
时间差:
在宏观时空域,事件的运动、变化是低速的,比如车辆移动速度最快也就30多米每秒。微观频域,电磁波、场的变化的高速的,可以和光速比较。这样,在微观频域规划行车路径花费时间,在宏观时空域里面车辆实际运行花费的时间存在巨大的差。正是这个时空差,为整体系统设计校验机制、规避交通事故提供了可能性。
4.1.4. 智能驾驶的安全框架
基于安全假设、场景信息分类、AI计算的整体属性,直接给出我们认为正确的智能驾驶计算单元。如图13,同时处理两种属性的信息,本征信息与规划出的路径实时比较,如果判断路径是正确的则继续行驶,如果路径是错误的则采取措施规避风险,即使暂停一段时间也可以接受。
本质是增加了实时校验机制,或者说增加了一条动态的逻辑判断,使一个统计属性的计算单元变为一个逻辑单元。这样逻辑自洽的解决了智能驾驶安全问题。
图13 智能驾驶安全框架的原理体系
事实上我们已经规划了完整的、可落地的产品方案,鉴于篇幅这里不再赘述。
4.1.5. 研究范式总结
方便描述,将当前的研究范式和我们的研究范式对比说明如下
表格3两种范式的对比
|
研究范式 |
场景信息 |
计算单元 |
服务状态 |
|
我们的研究范式,将场景信息、计算单元、服务状态放在一个体系里面研究 |
全局视角分析,场景中两种属性的信息 |
AI计算; 本征信息比较; |
达成、暂停、事故三个状态 |
|
当前研究范式,孤立地场景信息、计算单元、服务状态 |
场景中永远有corner case,试图穷尽各种场景 |
AI计算
|
达成、事故两个状态 |
⑥ 4.1基本直接给出观点,没有完整的论述过程。详细的论述可以看论文《智能驾驶系统实时校验机制的研究》和分析文章《全新视角理解智能驾驶系统运行原理与安全(一)》、《全新视角理解智能驾驶系统运行原理与安全(二)》、《全新视角理解智能驾驶系统运行原理与安全(三)》。
4.2. 物理AI的理念与方案
让智能体动态的融入现实世界,这是产业成立的基本目标。让当前框架下的AI计算理解物理法则,只是我们基于产业目标,用我们的视角倒推AI计算的能力要求。如果本文第二章论证AI计算过程的物理本质和计算结果的计属性是正确的、完整的,当前框架下的AI计算不可能理解物理法则,因为完全没有思想基础、也没有逻辑的可能性。我们甚至认为,即使算法进一步演进,提取宏观时空域秩序的效率更高,运行过程中推理的结果更准确一些;算法框架的改进,比如空间智能等研究,也只是覆盖更多模态的数据、提取了宏观时空域中更多类型的秩序。本质是复杂系统的统计属性的能力提升。
如果读者仔细研究过脑科学、系统理论等,生物智能是在物理法则、数学结构、系统理论的综合约束下演化出来的。如果把人类大脑孤立、静态地研究,里面也没有什么物理定律。硅基智能也不可能超越物理法则、数学结构孤立的存在,物理AI必须在系统层面结构性的融入真实的物理世界。
4.2.1. 我们的洞察
如图14(其实是图13普适化变形),基于一种系统性思维框架探索物理AI原理和实现途径。具体描述如下:
-
把物理场景和物理AI计算单元抽象成同层次的组件,放在一个系统里面动态化、层次化的研究;
-
主导场景运转的秩序和埋藏在AI计算单元海量参数里面的秩序是一样的;
-
物理场景有两种不同属性的信息,维度信息和本征信息;
-
物理AI计算单元同时处理两种信息,AI模型从维度信息里面综合推理(统计)出决策。本征信息通过物理的、逻辑的方式传递进入计算单元。
-
本征信息与决策做比较,如果没有达到预期的一致性或协调性,反馈给推理组件重新调整决策;如果达到某种一致性或协调性,执行决策;
-
因为本征信息表征场景的运转状态,这样执行的策略和物理场景运转是一致的,也就融入了物理场景中。
也可以认为场景和计算单元之间形成了一个实时的校验机制,用一种动态的逻辑判断决策的合理性。本征信息是场景中的物理真实,所以这样的系统作出正确的决策是有逻辑前提的。由一个孤立的统计单元变为一个逻辑系统,系统本身有了正确与错误的概念,这是硅基单元产生智能的必要条件。
图14 物理AI框架
核心理念:信息分类,两种不同属性的信息放在同一个体系里面用不同的方式处理,然后比较达到了某种一致性,再去执行任务。
4.2.2. 举例类比
这种思想和方案确实很难论证,举几个例子,供读者进一步理解与思考。
例子1,如图15所示我们搬运重物,信息传递过程和处理原理可以描述如下:
-
场景运转的本征要求,搬运的力与物体的重力一致;
-
视觉观察物体的尺寸、形态、材质、位置等信息,经过一系列的传递转换,在高级视觉皮层形成综合编码;
-
综合编码与前额叶、海马体存储的经验知识关联,形成决策(重量预估);
-
基于决策形成搬运动作(决策1KG和50KG重物,搬运动作完全不一样)和搬运力;
-
另一种重量信息,通过手臂肌肉拉伸变化,肌梭被牵拉产生传入信号,信号沿脊髓、丘脑传递并变换,在体感皮层形成重量编码;
-
重量编码与决策(重量预估)对比调整决策,最终输出与物体重力一致的搬力;如果实际重量远超搬运者的体力,会终止搬运动作。
-
-
对比两种信息,也会优化海马体和前额叶内部的经验知识;
注意:基于视觉的决策会因人而异,手臂传递进的重量信息是物理真实。
图15 重物搬运决策处理信息流程
例子2,如图16所示,人类驾驶场景中信息传递和处理原理可以描述如下:
-
交通场景运转的本征要求,规划的行车路径(决策)与场景中所有要素在时空布局呈现出协调性、一致性;
-
通过视觉感知、理解场景中所有要素的存在状态和动态属性,输出行车路径(决策);
-
另一种信息处理:我们开车过程中经常看到、或听到一些突发的、危险的状况,我们总能在“大脑一片空白”的情况下采取合理的应急措(紧急刹停、转弯等)施规避交通事故。
-
你并没有感知到时什么物体,仅仅识别到路面有东西并且和行车轨迹有冲突;
-
这种信息并没有走完整的视觉(或听觉)路径,而是直接传到顶叶皮层处理(海马体也可能参与);
-
处理该信息并没有关联经验知识(交通秩序),而是靠直觉(时空不重叠)快速处理;
-
参与处理该过程的组织很少,应该是顶叶,海马体也可能参与;
-
以上描述就是交通场景的本征信息;
图16 人类驾驶处理信息流程
说明:人脑实际处理信息过程非常复杂,不仅涉及视觉信息、本体信息的分类,还涉及光信号、电信号和化学信号的转换,各种生物化学传递介质,远超图15和16所示的范畴。本文只关注信息分类、信息属性,传递信息的通道,多种信息协同过程,校验机制实现的原理。
例子3, F=ma;E=mc²;iħ·∂ψ/∂t=Ĥψ等物理公式,等号两侧都是不同属性的物理量纲,把不同属性的物理量纲放在一个体系里面研究,达成某种一致性。
总结:
-
把不同属性的物理量纲放在一个体系对比,是表达物理规律的基本范式;
-
把不同属性的信息放在一个体系里面对比,应该是智能体理解物理规律的基本范式,也就是物理AI实现的基本途径。
在真实的物理场景中,智能体采集的本征信息可能不止一种,比如在搬运图15中的物体,除了判断物体的重量,还有物体的表面温度,以及搬运过程中场景里面时空位置。通过视觉信息作出综合的决策,在通过触觉、体感、听觉等传递不同的本征信息。可以扩展图14来表达,不再赘述。
4.2.3. 业界的观点
业界对物理AI(或者称智能)实现途径也有与我们类似的思想和认识。
-
美国心理学家史蒂芬.斯科尼克.维斯伯格提出的认知机制,即假设-推定机制:大脑先构建一种对场景的认知,再回到实际场景中获取信息来验证。
-
interactive scaling law,确实有信息实时交互的理念。但是我们认为,交互只是表象,关键要有信息分类、对比的思想,以及逻辑自洽的系统。
4.3. 工程实践范式
当研究范式、计算框架、实现方案不一样时候,AI计算的工程实践范式一定也会彻底改变。如图13或14,当比较值不符合预期时候,不仅要采取措施规避事故,同时精确记录场景数据,基于这些异常场景数据训练AI模型一定会低成本、高效率。
首先,客观上形成AI模型自我演进的范式,不用为AI计算的准确采集10亿公里、甚至100亿公里的数据,只要精确采集异常数据即可。前期的服务体验差一些,可以先在物流配送场景落地。
其次,由于动态机制的加入,AI计算单元由统计属性变为逻辑系统,整体可解释、可计算、可预测,提供确定性、一致性的服务。或许这是奠定AI计算大规模商业化的基础。
5. 结论
AI计算的物理本质和物理AI实现是当今业界最重要、最热门的研究,我们试图给出正确研究范式和正确的结论。
AI计算要素的物理真实是自由波、电磁场,计算结果有意义的条件是秩序。AI计算过程的物理本质就是2.4节描述的两个法则,计算结果在总体上遵守统计属性。
数据规模、参数规模是物理AI实现的必要条件,不是全部条件。物理AI实现需要将统计属性的AI计算单元重构为逻辑系统如4.2节描述。核心思想,物理场景中的信息分类,不同属性的信息经过不同的计算方式同时传递到一个体系里面,比较达成某种一致性再去执行任务。实现物理AI(智能体)融入整体场景的运转中⑦。
看问题的视角和研究范式也是本文的一部分贡献。
⑦ 物理AI的实现原理和基本思想缺少完整的推演,只能是一种观察或洞察结论,读者可以质疑。
6. 讨论与展望
本节内容仅仅是讨论与展望,直觉的成分会更多。
6.1. 本文的局限
这样的研究课题缺少基本的数学公式描述,仅用文字和图标描述,其实很难将思想、框架表达清楚。
业界也有不少专家基于统计物理解释AI计算本质,试图用熵连接微观和宏观。这可能因为将熵引入信息领域研究信息的不确定性、测度曾经取得过巨大成就。尤其在通信领域,用一个简洁的公式描述了信道容量、带宽、功率、噪声的关系。
C=B log₂(1+S/N)
但是在我们看来,熵在AI计算领域还很难有所作为。如图17,主要原因是,无论克劳修斯的理论提出的熵还是玻尔兹曼的理论视角,虽然用熵将微观和宏观关联起来,但是只描述了微观和宏观的一部分属性,即存在状态。无法表达宏观世界的时间序列属性、相互关联与意图、或者更高维度的信息含义,这部分属性在通信领域完全靠人脑处理,硅基系统不涉及,但是在AI计算领域硅基系统必须处理这部分属性。
所以本文没有用熵这个概念,而是用秩序来连接宏观和微观,同时也较好的解释了模型训练的意义。
秩序这个词在复杂系统、分子生命科学领域使用较多,但是没有对应的数学描述。用数学描述秩序的含义,或者说用数学连接AI计算领域的宏观与微观,对于我们来说是极其困难的工作。
图17 熵与秩序
6.2. 视角与范式
在写本文过程中与相关专家、工程师交流发现,对研究结果的分歧很大程度来自看待事物的视角和研究范式不一致造成。如果读者不了解、或不认可我们的视角和范式,也很难与我们的研究结论产生共鸣,即使认可也是字面上的理解。
6.2.1. 微观与宏观
如图18,在AI计算单元内部真实的物理要素在频域层面的相互作用与约束,称之为微观频域。这些物理要素遵守相应的物理法则和整体上的数学属性。
在宏观的物理场景中,以我们的视角看到的各种宏观要素,称之为宏观时空域。这些宏观要素的存在、运行、相互关联与意图,遵守我们视角中的逻辑,比如法律、制度、以及显而易见的规则。
微观与宏观领域的要素有各自的运行法则和逻辑,两个领域的要素之间并没有直接的关联、逻辑。这就是我们认为AI计算神秘、不可解释性的原因。这个物理世界在微观层面和宏观层面都是合理的,就是我们看问题的视角不对。
6.2.2. 系统的整体
让AI计算融入物理世界运转中的目的也是合理的,这需要我们看到系统的整体。如图18,一片硅基电路,要想产生智能理解物理场景并融入物理场景的运转中,必须与物理场景形成一个统一的系统。它们有统一的秩序、动态的机制、稳定的结构,就能承载的确定性、一致的服务。
正是动态机制,使系统整体有了逻辑属性,整体上符合我们视角层面的逻辑性,所谓物理AI。这种系统框架并不是我们发明的,而是发现的,它本身就是一种客观存在。我们做的事情仅仅是让其工程实现,然后系统在参与物理世界运行中自我演进AI能力。
需要强调的,系统并不是孤立的演进,始终需要消耗外部的能量。
图18 系统的整体
6.2.3. 泛化性问题
当前业界对AI的泛化性能力颇为神秘,甚至有一种担忧。经常有智能驾驶的车辆在运行过程中,正确处理训练之外的交通场景行驶任务,比如智能驾驶车辆感知到公交车另一侧的行人,提前做了合理避让策略。或者AI涌现出超过我们理解的范畴。如图19,我们认为:
-
同样的场景、同样的数据,人类和AI在学习过程中完全有可能提取出的秩序范围不同,当然大部分是一致的;
-
AI系统既然能做出正确的判断,参数中一定埋藏了对应的秩序,只不过是我们不理解;
-
比如空间向量表达的时空结构,我们也未必能理解完整;
图19 两种智能的差异
我们不能理所当然的认为我们理解的秩序就是场景中的全部的物理秩序,我们只能理解客观世界里面一部分规律、秩序、结构,这是客观事实。其实我们理解这个物理世界的规律、本质、结构是比较困难的,因为在相当长的时间里面,我们的智力进化的方向是为自己生存服务,够用就好。
另一种描述方式,如图19随着AI计算的发展,很明显形成了三个并不一致世界,真实的物理世界、我们(碳基智能)理解的世界、硅基智能“理解”的世界。当硅基世界超越了我们的理解范围,就产生了所谓的泛化。
当然,人类在漫长进化中,尤其现代文明的发展中理解了不少规律、本质,也形成大量的规范性设计,比如法律、法规等,这里统称为秩序。这些秩序隐藏在文字、图片、视频等符号中。我们认为这就是当前大模型用各种数据大量训练,产生理解真实场景运转“智能”的原因。
6.3. 展望
交通是AI计算落地最理想的场景,没有之一。因为驾驶这件事情需要处理的信息维度很少,场景的状态信息单一,需要的AI能力降低,但是产业价值巨大。可以这样观察,交通场景的运转与感情、道德、教育程度、财富、背景等都没有关系;任何一个司机一旦掌握的驾驶技能,基本可以在任何交通场景开车,只要小心、合理驾驶可以彻底规避交通违规或交通事故(不可抗拒因素除外);即使发生交通事故,一个普通交警可以快速找到原因,甚至一个普通市民都可以直接看到原因。智能驾驶产业价值绝对不是在一些封闭场景、或者在苛刻条件下解放人类的手脚眼。应该像互联网一样应用简单,走进千家灯火万家炊烟,让每个人都拥有完整的时间和空间。
AI计算一定会给人类带来广泛而深远的影响。或许有一天,每个人的大脑都外挂一个数字皮层,帮助我们整理外部世界的秩序性、规律性事情。生物大脑基于我们的愿景、同情心、喜好等思考结构性的、抽象的事情。更多的人有足够的资源,做“无用”的事情。AI技术将世界改造成一个具体的样子,客观的说不知道,就像让一个1830年的人不可能想象出电力革命对世界的改造程度。
6.4. 特别建议
研究AI计算原理的读者要阅读论文《The Platonic Representation Hypothesis》arXiv:2405.07987。作者看问题的视角和研究范式有独特性,研究结论也在靠近AI计算的物理本质。
参考文献
在撰写本文的过程中,我们阅读了大量的论文和期刊,当然之前阅读的大量书籍也为我们提供关键的思想、范式素材。下面这些文献对本文尤为重要。
1. 《OpenAI o1 System Card》(arXiv:2412.16720v1)
2. 《Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail》,https://arxiv.org/pdf/2511.00088
3. 《The Platonic Representation Hypothesis》arXiv:2405.07987。
4. 《A Mathematical Theory of Communication》C. E. SHANNON。
5. 《The free-energy principle:a rough guide to the brain?》---kail Friston。
6. 《Learning representations by back-propagation errors》Geoffrey E.Hinton
7. 《Attention is All You Need》Ashish Vaswani
8. 《一般系统论》Ludwig Von Bertalanffy
9. 《物理学和生物学中的开放系统理论》Ludwig Von Bertalanffy
10. 《计算机器与智能》Alan Turing
11. 《The sensory order:An inquiry into the foundation of theoretical psychology》Friedrich August von Hayek
12. 《思考的本质》约翰.杜威
13. 《物理世界的本质》A.S.爱丁顿
14. 《夸克与美洲豹》M.盖尔曼
15. 《系统之美》德内拉.梅多斯
16. 《深奥的简洁》约翰.格里宾
17. 《万物原理》弗兰克.维尔切克
18. 《概率论沉思录》E.T.Jaynes
19. 《什么是数学》R.柯朗 H.罗宾
20. 《费曼物理学讲义》Richard Feynman
21. 《薛定谔生命物理学讲义》Erwin Schrdinger
22. 《神经科学---脑探索》Mark F.Bear,Barry W.Connore,Michael A.Paradiso
23. 《控制论》Norbert Wiener
24. 《思考,快与慢》丹尼尔.卡尼曼
25. 《智能简史》麦克斯.班尼特
热门文章
更多精华美文扫码阅读
焉知汽车
希骥电池与储能

请先 登录 后再发表评论~