纵观70年人工智能研究史,我们获得的最重要启示是:那些充分利用计算的通用方法,终将以显著优势成为最有效的解决方案。其根本原因在于摩尔定律,或者说更广义的"单位计算成本持续指数级下降"规律。多数人工智能研究默认可用计算资源恒定(这种情况下利用人类知识成为提升性能的主要途径),但只要将时间跨度拉长到略超典型研究周期,计算能力的数量级增长就变得不可避免。研究者为获得短期可见的改进,往往诉诸领域专业知识,但从长远来看,真正起决定性作用的唯有对计算的极致利用。这两种方法本可并行不悖,但现实往往顾此失彼——任何一方的投入都会挤占另一方的资源,研究者也会形成心理层面的路径依赖。更关键的是,依赖人类知识的方法常使系统复杂化,反而不利于通用计算方法发挥最大效能。人工智能发展史上充满了对这种苦涩教训的迟来认知,审视几个典型案例颇具启发价值。
在计算机象棋领域,1997年击败世界冠军卡斯帕罗夫的方法基于海量深度搜索技术。当时,这令大多数致力于利用人类对象棋特殊结构理解的计算机象棋研究者深感挫败。当基于专用软硬件的简单搜索方法展现出碾压性优势时,这些依赖人类知识的象棋研究者难以心服口服。他们辩称"暴力"搜索或许侥幸取胜,但绝非普适性策略,况且完全不同于人类的下棋方式。这些研究者原本期待基于人类经验的方法能获胜,最终却不得不面对现实落差。
相似的技术演进在计算机围棋领域重现,只是时间上延后了约二十年。早期研究投入大量精力试图通过人类棋理或围棋特性规避搜索,但当大规模搜索被有效运用后,这些努力不仅徒劳无功,甚至成为技术桎梏。通过自对弈学习训练价值函数的方法同样至关重要(该技术也应用于其他棋类乃至象棋领域,尽管在1997年首次击败人类冠军的程序中学习机制尚未起主要作用)。自对弈学习与广义的机器学习,如同搜索技术一样,能够充分释放海量计算的潜力。搜索与学习构成了人工智能研究中驾驭大规模计算的两大支柱。在计算机围棋领域,如同象棋领域,研究者最初执着于运用人类智慧(以减少搜索需求),直到后期转向拥抱搜索与学习才实现质的飞跃。
在语音识别领域,20世纪70年代DARPA曾主办过一场早期竞赛。参赛方案中既有大量利用人类知识的特殊方法——包括词汇知识、音素知识、人类声道结构知识等,也有基于隐马尔可夫模型(HMM)的新型统计方法,后者需要更多计算资源。最终统计方法再次战胜了基于人类知识的方法。这引发了整个自然语言处理领域长达数十年的范式转变,统计与计算逐渐成为主导力量。近年来深度学习在语音识别领域的崛起,正是这一持续趋势的最新注脚。深度学习方法对人类知识的依赖更少,通过海量训练集的学习与更强大的算力,构建出性能飞跃的语音识别系统。与棋类博弈领域相似,研究者总是试图按照自己理解的思维模式构建系统——将既有认知植入系统——但当摩尔定律带来充足算力并找到有效利用方式时,这种努力往往适得其反,造成研究者时间资源的巨大浪费。
计算机视觉领域也呈现类似规律。早期方法将视觉视为边缘检测、广义柱体识别或SIFT特征提取的过程。但如今这些方法已被全面摒弃。现代深度学习神经网络仅使用卷积概念与特定不变性原则,却实现了更优越的性能。
这个教训足够深刻——作为研究领域,我们仍未完全吸取教训,仍在重复同类错误。要认清并有效抵制这种倾向,必须理解这类错误的内在吸引力。我们必须接受这个苦涩的启示:将人类自认为的思维模式植入系统终将失败。这一教训基于四项历史观察:1)AI研究者常试图将知识植入智能体;2)短期看这确实有效并能满足研究者成就感;3)长期将导致发展停滞甚至阻碍进步;4)突破性进展最终来自通过搜索与学习实现计算规模化的对立方法。这种成功常带有苦涩意味且难以被完全接纳,因为它战胜了备受青睐的人类中心主义方法。
苦涩教训的启示之一是通用方法的强大力量——那些能随着计算规模持续扩展的方法,即使可用算力已非常庞大。目前具备无限扩展潜力的两大方法是搜索与学习。
第二点启示是心智内容的极端复杂性:我们应停止寻求描述心智内容的简单范式(如空间、物体、多智能体或对称性的简单理解)。这些都属于外部世界任意且本质复杂的组成部分,不应被硬编码到系统中,因其复杂性永无止境;我们应构建能发现并捕捉这种任意复杂性的元方法。这些方法的核心在于寻找优质近似解,但搜索过程应由方法本身而非人类完成。我们需要能像人类一样自主发现的AI智能体,而非固化既有发现的系统。植入已有发现只会阻碍对发现过程的本质理解。