人工智能(AI)如今已成为现代生活中熟悉的一部分,广泛应用于从商业到医疗的各个领域。然而,很少有人意识到,人工智能的发展历史始于20世纪中叶,并经历了诸多起伏,才取得了如今的爆发性成就。
本文由INVIAI提供,将详细介绍人工智能的形成与发展历史,从最初的萌芽阶段,经历了充满挑战的“人工智能寒冬”,直到深度学习革命和2020年代生成式人工智能浪潮的爆发。
1950年代:人工智能的起点
1950年代被视为人工智能领域的正式起点。1950年,数学家艾伦·图灵(Alan Turing)发表了论文《计算机与智能》(Computing Machinery and Intelligence),提出了著名的图灵测试,用以评估机器的思维能力。这一里程碑开启了计算机能够“思考”如人类的理论基础。
1956年,“人工智能”(Artificial Intelligence)一词正式诞生。同年夏天,计算机科学家约翰·麦卡锡(John McCarthy)(达特茅斯学院)与马文·明斯基、内森尼尔·罗切斯特(IBM)和克劳德·香农等同事共同举办了历史性的达特茅斯会议。
麦卡锡为此次会议提出了“人工智能”这一术语,达特茅斯会议通常被视为人工智能领域的诞生。会上,科学家们大胆宣称“学习或智能的所有方面都可以用机器模拟”,为这一新兴领域设定了雄心勃勃的目标。
1950年代末期见证了许多人工智能的初步成果。1951年,早期的人工智能程序被编写运行于Ferranti Mark I计算机上,值得注意的是克里斯托弗·斯特拉奇(Christopher Strachey)的跳棋程序和迪特里希·普林茨(Dietrich Prinz)的国际象棋程序,标志着计算机首次能够玩智能游戏。
1955年,IBM的亚瑟·塞缪尔(Arthur Samuel)开发了能够从经验中自我学习的跳棋程序,成为最早的机器学习系统之一。同一时期,艾伦·纽厄尔(Allen Newell)、赫伯特·西蒙(Herbert Simon)及其团队编写了逻辑理论家(Logic Theorist)(1956),能够自动证明数学定理,证明机器可以进行逻辑推理。
除了算法,1950年代还诞生了专门用于人工智能的工具和编程语言。1958年,约翰·麦卡锡发明了专为AI设计的编程语言Lisp,迅速在AI开发社区中流行。同年,心理学家弗兰克·罗森布拉特(Frank Rosenblatt)介绍了感知机(Perceptron)——首个能够从数据中学习的人工神经网络模型,被视为现代神经网络的基础。
1959年,亚瑟·塞缪尔首次在一篇具有里程碑意义的论文中使用了“机器学习(machine learning)”一词,描述了计算机如何被编程以学习并自我提升跳棋技能,甚至超越程序员。这些进展显示出强烈的乐观情绪:先驱者们相信,机器将在几十年内达到人类智能水平。
1960年代:初步进展
进入1960年代,人工智能继续发展,涌现出许多重要项目和发明。多所著名大学(MIT、斯坦福、卡内基梅隆等)成立了AI实验室,吸引了大量关注和研究资金。计算机性能逐渐增强,使得更复杂的AI理念得以测试。
一项突出成就是首个聊天机器人程序的诞生。1966年,MIT的约瑟夫·韦岑鲍姆(Joseph Weizenbaum)开发了ELIZA,模拟心理医生风格与用户对话。ELIZA基于关键词识别和模板回复,尽管程序简单,却让许多人误以为ELIZA真正“理解”并具备情感。ELIZA的成功不仅为现代聊天机器人铺路,也引发了人类赋予机器情感的思考。
与此同时,首个智能机器人也出现了。1966至1972年,斯坦福研究院(SRI)开发了Shakey——首个具备自我感知和行动规划能力的移动机器人,而非仅执行单一命令。Shakey配备传感器和摄像头,能自主导航、推开障碍、爬坡等,首次将计算机视觉、自然语言处理和规划集成于机器人中,为后来的机器人AI奠定基础。
美国人工智能协会(AAAI)也在此期间成立(前身为1969年IJCAI会议,1980年正式成立AAAI),汇聚AI研究者,显示出AI社区日益壮大。
此外,1960年代还见证了专家系统和基础算法的发展。1965年,爱德华·费根鲍姆(Edward Feigenbaum)及其团队开发了被视为世界首个专家系统的DENDRAL,用于帮助化学家从实验数据分析分子结构,模拟专家知识和思维。DENDRAL的成功表明计算机能辅助解决复杂专业问题,为1980年代专家系统的爆发奠定基础。
另外,1972年在马赛大学开发了专门用于逻辑人工智能的编程语言Prolog,开启了基于逻辑和关系规则的AI方法。1969年,马文·明斯基(Marvin Minsky)和西摩·帕珀特(Seymour Papert)出版了《Perceptrons》一书,指出单层感知机的数学局限(无法解决简单的XOR问题),导致神经网络领域遭受严重质疑。
许多资助者对神经网络的学习能力失去信心,神经网络研究在1960年代末逐渐衰退。这标志着人工智能热潮经历了首次“降温”,结束了十余年的乐观期。
1970年代:挑战与首个“人工智能寒冬”
进入1970年代,人工智能面临现实挑战:前十年的诸多期望因计算能力、数据和科学理解的限制未能实现,导致信心和资金大幅下降,这一时期后来被称为首个“人工智能寒冬”。
1973年,詹姆斯·莱特希尔爵士(Sir James Lighthill)发表了题为《人工智能:总体调查》的报告,极为负面地评价了AI研究进展。莱特希尔报告指出研究者“承诺过多,成果甚少”,特别批评计算机未能达到预期的语言理解和视觉识别能力。
该报告导致英国政府大幅削减AI预算。美国国防高级研究计划局(DARPA)也转向更务实的项目。结果是从1970年代中期到1980年代初,人工智能几乎陷入停滞,缺乏重大突破和资金支持。这正是所谓的“人工智能寒冬”——1984年该术语被提出,用以描述AI研究的长期低迷期。
尽管困难重重,1970年代仍有一些亮点。专家系统在学术界持续发展,代表作是1974年的MYCIN,由斯坦福的Ted Shortliffe开发,用于血液感染诊断。MYCIN利用推理规则提供治疗建议,准确率较高,证明了专家系统在特定领域的实用价值。
此外,1972年推出的Prolog语言开始应用于语言处理和逻辑问题,成为基于逻辑的AI重要工具。1979年,斯坦福团队成功开发了Stanford Cart,首辆能自主穿越障碍物的机器人车,无需远程操控,为后续自动驾驶研究奠定基础。
总体来看,1970年代末,人工智能研究陷入低迷,许多AI科学家转向相关领域,如统计学习、机器人和计算机视觉,以继续工作。
人工智能不再是前十年的“明星”,而成为一个进展缓慢的狭窄领域。这一阶段提醒研究者,人工智能比预期复杂得多,需要更根本的新方法,而非仅依赖逻辑推理模拟。
1980年代:专家系统——兴起与衰落
进入1980年代初,人工智能迎来复兴阶段,有时称为“AI文艺复兴”。这一推动力来自于专家系统的商业成功和政府及企业的重新投资。计算机性能提升,社区相信可以逐步实现狭义AI的理念。
一个重要动力是商业专家系统。1981年,数字设备公司推出了XCON(专家配置系统),帮助配置计算机系统,为公司节省数千万美元。XCON的成功推动了企业中专家系统的广泛应用,许多科技公司投资开发专家系统“壳”(expert system shell),方便企业定制自己的系统。
Lisp语言也走出实验室,出现了专门运行AI程序的Lisp机器硬件。1980年代初,众多Lisp机器初创公司(如Symbolics、Lisp Machines Inc.)成立,引发投资热潮,被称为AI的“Lisp机器时代”。
各国政府也大力投资AI。1982年,日本启动了耗资8.5亿美元的第五代计算机项目,旨在开发基于逻辑和Prolog的智能计算机。美国(DARPA)也加强了AI研究资金,聚焦专家系统、自然语言处理和知识库,期望打造超智能计算机。
在新一波乐观浪潮中,人工神经网络也悄然复苏。1986年,研究者杰弗里·辛顿(Geoffrey Hinton)等人发表了反向传播算法(Backpropagation),这是一种有效训练多层神经网络的方法,解决了1969年《Perceptrons》指出的限制。
反向传播算法虽然早在1970年就被提出,但直到80年代中期才因计算能力提升而广泛应用。反向传播迅速引发了第二波神经网络研究热潮,人们开始相信深层神经网络可以学习复杂模型,为后来的深度学习奠定基础。
年轻研究者如法国的Yann LeCun和加拿大的Yoshua Bengio也加入神经网络运动,成功开发了手写识别模型。
然而,第二次AI繁荣并未持续太久。80年代末,AI再次陷入危机,因成果未达预期。专家系统虽在狭窄领域有效,但暴露出僵化、难以扩展且需手工更新知识的缺点。
许多大型专家系统项目失败,Lisp机器市场崩溃,因个人电脑更便宜。1987年,Lisp产业几乎破产。80年代末AI投资大幅削减,引发第二次“人工智能寒冬”。1984年提出的“AI寒冬”一词再次应验,许多AI公司于1987-1988年倒闭。人工智能进入衰退周期,研究者被迫调整期望和策略。
总结来说,1980年代是人工智能的兴衰循环。专家系统首次将AI引入工业实践,但也暴露了基于固定规则方法的局限。尽管如此,这一时期孕育了宝贵的理念和工具:从神经网络算法到首批知识库。也吸取了避免过度炒作的教训,为下一阶段的谨慎发展奠定基础。
1990年代:人工智能回归现实
经历了80年代末的人工智能寒冬后,1990年代对AI的信心逐渐恢复,得益于一系列实用进展。研究者不再追求雄心勃勃的强人工智能(通用人工智能),而专注于应用于具体问题的弱人工智能,取得了显著成果。许多从前AI分支(如语音识别、计算机视觉、搜索算法、知识库等)独立发展并广泛应用。
一个重要里程碑是1997年5月,IBM的超级计算机深蓝(Deep Blue)击败了世界国际象棋冠军加里·卡斯帕罗夫(Garry Kasparov),这是首次AI系统在复杂智力游戏中击败世界冠军,引发轰动。
深蓝基于暴力搜索算法结合开局数据库,展示了强大计算能力和专业技术能使机器超越人类在特定任务上的表现。此事件标志着AI在媒体上的华丽回归,激发了多年沉寂后的研究热情。
不仅在棋类,1990年代的AI在多个领域取得进展。1994年,程序Chinook完全解决了跳棋游戏,令世界冠军承认无法战胜计算机。
在语音识别领域,商业系统如1990年的Dragon Dictate开始出现,至90年代末,语音识别软件广泛应用于个人电脑。手写识别也集成于PDA设备,准确率不断提升。
机器视觉应用于工业,从零件检测到安全系统。曾令AI挫败的机器翻译也取得显著进步,SYSTRAN系统支持多语言自动翻译,服务欧盟。
另一个重要方向是统计学习和神经网络应用于大规模数据挖掘。90年代末互联网爆发,带来海量数字数据。数据挖掘和机器学习算法(决策树、神经网络、隐马尔可夫模型等)被用于网页数据分析、搜索引擎优化和内容个性化。
“数据科学”一词尚未普及,但AI已渗透软件系统,通过学习用户数据提升性能(如垃圾邮件过滤、电商推荐)。这些实用成功帮助AI在企业和社会中重新赢得信任。
可以说,1990年代是AI“默默扎根”进入生活的阶段。研究者不再大张旗鼓宣称人类级智能,而是专注解决具体问题。结果是,AI已存在于20世纪末众多科技产品中,用户往往未察觉——从游戏、软件到电子设备。此阶段也为后续的深度学习奠定了重要的数据和算法基础。
2000年代:机器学习与大数据时代
进入21世纪,人工智能因互联网和大数据时代而强劲转型。2000年代见证了个人电脑、互联网和传感设备的爆发,产生了海量数据。机器学习——尤其是监督学习方法——成为挖掘这一“数据矿藏”的核心工具。
“数据是新的石油”的口号盛行,因为数据越多,AI算法越精准。大型科技公司开始构建用户数据收集与学习系统,以提升产品性能:谷歌打造更智能搜索,亚马逊根据行为推荐商品,Netflix优化影片推荐。AI逐渐成为数字平台背后的“无形大脑”。
2006年是重要节点:斯坦福教授李飞飞(Fei-Fei Li)发起了ImageNet项目,建立了包含1400多万张带详细标签图片的庞大数据库。2009年推出后,ImageNet迅速成为训练和评估计算机视觉算法的标准数据集,尤其是图像识别。
ImageNet被比作推动深度学习研究的“兴奋剂”,为复杂深度模型提供了充足数据。自2010年起,ImageNet挑战赛成为重要竞技场,研究团队竞相开发最佳图像识别算法。正是在这里,2012年AI历史性转折即将发生(见2010年代部分)。
2000年代,AI还实现了多项重要应用突破:
- 2005年,斯坦福自动驾驶车“Stanley”赢得了212公里的DARPA大挑战赛,耗时6小时53分钟,开启了自动驾驶新时代,吸引谷歌、优步等巨头投资。
- 手机虚拟助手出现:2008年,Google Voice Search支持iPhone语音搜索;2011年,苹果推出集成语音控制的Siri,标志着AI首次大规模进入公众视野。
- 2011年,IBM的超级计算机沃森(Watson)在美国电视节目《危险边缘》(Jeopardy!)中击败两位冠军,展现了AI在自然语言处理和信息检索领域的强大能力,证明计算机能在广泛知识领域“理解”并智能应答。
- 社交网络与网络平台:Facebook推出自动人脸识别标签功能(约2010年),YouTube和谷歌利用AI过滤内容和推荐视频。机器学习技术默默驱动平台,优化用户体验,用户往往不自知。
可以说,2000年代AI的主要动力来自数据和应用。传统机器学习算法如回归、支持向量机、决策树等在大规模应用中展现出实际效益。
AI从研究课题强力转向工业应用:“企业AI”成为热门话题,众多公司提供管理、金融、营销等领域的AI解决方案。2006年,“企业人工智能”一词出现,强调AI在提升业务效率和决策中的作用。
2000年代末,深度学习革命的萌芽开始显现。多层神经网络研究持续发展。2009年,斯坦福的吴恩达(Andrew Ng)团队首次利用GPU训练神经网络,速度比传统CPU快70倍。
GPU的并行计算能力非常适合神经网络矩阵运算,为2010年代大规模深度学习模型训练铺平道路。数据量大、硬件强、算法改进三大要素齐备,等待时机爆发新的AI革命。
2010年代:深度学习革命
如果要选出一个AI真正“起飞”的阶段,那就是2010年代。凭借前十年积累的数据和硬件基础,人工智能进入深度学习时代——多层神经网络模型取得突破性成果,打破多项AI任务纪录。机器“像人脑一样学习”的梦想部分实现。
2012年,杰弗里·辛顿(Geoffrey Hinton)及其学生(Alex Krizhevsky、Ilya Sutskever)参加ImageNet挑战赛。他们的模型——通常称为AlexNet——是一个8层卷积神经网络,使用GPU训练。结果,AlexNet以压倒性优势获胜,识别错误率比第二名低一半。
这一胜利震惊计算机视觉界,标志着AI领域掀起深度学习热潮。随后几年,传统图像识别方法几乎被深度学习模型取代。
AlexNet的成功证明,只要有足够数据(ImageNet)和计算资源(GPU),深度神经网络远超其他AI技术。辛顿及团队迅速被谷歌挖角,深度学习成为AI研究的热点。
深度学习不仅革新了计算机视觉,还扩展到语音识别、自然语言处理及其他领域。2012年,Google Brain(吴恩达和Jeff Dean项目)引起轰动,发布了一个深度神经网络自动学习YouTube视频并发现“猫”这一概念,无需预先标注。
2011至2014年间,虚拟助手如Siri、Google Now(2012年)和微软Cortana(2014年)相继问世,利用语音识别和自然语言理解技术。微软的语音识别系统2017年达到人类水平,主要得益于深度神经网络音频模型。2016年,谷歌翻译采用基于神经网络的机器翻译(NMT)架构,显著提升翻译质量。
另一个重要里程碑是AI在围棋领域的胜利。2016年3月,DeepMind(谷歌旗下)开发的AlphaGo以4比1击败世界第一围棋选手李世石。围棋远比国际象棋复杂,无法通过暴力搜索解决。AlphaGo结合了深度学习和蒙特卡洛树搜索算法,通过数百万人类棋局学习并自我对弈。
这场胜利被视为与1997年深蓝击败卡斯帕罗夫同等重要,证明AI已超越人类在直觉和经验要求高的领域。随后,DeepMind推出了完全自学的AlphaGo Zero(2017年),无需人类数据,仍以100比0击败旧版,展示了强化学习结合深度学习的巨大潜力。
2017年,谷歌研究团队发布了革命性的自然语言处理架构——Transformer。论文《Attention Is All You Need》提出了自注意力机制(self-attention),允许模型捕捉句子中词语间的关系,无需序列顺序处理。
Transformer极大提升了大型语言模型(LLM)的训练效率,取代了之前的循环神经网络(RNN/LSTM)。基于Transformer的改进模型陆续出现:谷歌的BERT(2018年)用于理解上下文,OpenAI的GPT(生成式预训练变换器)首次于2018年发布。
这些模型在语言分类、问答和文本生成等任务中表现卓越。Transformer奠定了2020年代大型语言模型竞赛的基础。
2010年代末,生成式人工智能(Generative AI)兴起,模型能够自主创造新内容。2014年,伊恩·古德费洛(Ian Goodfellow)等人发明了生成对抗网络(GAN),由两个对抗的神经网络生成逼真假数据。
GAN以生成逼真虚假人脸图像(deepfake)闻名。同时,变分自编码器(VAE)和风格迁移网络(style transfer)也被开发,允许图像和视频以新风格变换。
2019年,OpenAI发布了参数量达15亿的文本生成模型GPT-2,因能生成流畅、近似人类的长文本而引发关注。显然,AI不再仅仅是分类或预测,而是能够创造性地生成内容。
2010年代的AI取得了超出预期的飞跃。许多曾被认为“计算机无法完成”的任务,如图像识别、语音识别、翻译和复杂游戏,AI均已达到或超越人类水平。
更重要的是,AI开始渗透日常生活:从智能手机摄像头自动识别人脸,智能音箱中的虚拟助手(Alexa、Google Home),到社交网络上的内容推荐,均由AI驱动。这一时期被称为AI爆发期,有人形象地称其为“AI是新的电力”——一项改变所有行业的基础技术。
2020年代:生成式AI爆发与新趋势
仅在2020年代初几年,人工智能以史无前例的速度爆发,主要得益于生成式人工智能(Generative AI)和大型语言模型(LLM)的崛起。这些系统使AI直接触达数亿用户,引发了创造性应用浪潮和广泛的社会讨论。
2020年6月,OpenAI发布了拥有1750亿参数的巨大语言模型GPT-3,规模是此前最大模型的10倍。GPT-3令人惊讶地能撰写文章、回答问题、作诗、编程,几乎媲美人类,尽管仍存在事实错误。GPT-3的规模和训练数据量显示,模型规模与训练数据是实现流畅语言生成的关键。基于GPT-3的应用迅速涌现,从营销内容创作、邮件助手到编程辅助。
2022年11月,AI真正走入公众视野,OpenAI推出了基于GPT-3.5的交互式聊天机器人ChatGPT。仅用5天用户数突破100万,约2个月内超过1亿用户,成为史上增长最快的消费级应用。
ChatGPT能流畅回答各种问题,从写作、解题到咨询,令用户惊叹其智能与灵活性。其普及标志着AI首次大规模作为内容创作工具被广泛使用,并开启了科技巨头间的AI竞赛。
2023年初,微软将GPT-4(OpenAI后续模型)集成至Bing搜索,谷歌推出基于自家LaMDA模型的聊天机器人Bard。这场竞争推动了生成式AI技术的快速普及与改进。
除了文本,生成式AI在图像和音频领域也取得突破。2022年,OpenAI的DALL-E 2、Midjourney和Stable Diffusion等文本生成图像模型问世,用户输入文字描述即可获得AI绘制的逼真创意图像,开启了数字内容创作新时代。
然而,这也带来了关于版权和伦理的挑战,因AI训练依赖艺术家作品,生成类似作品。音频领域的新一代文本转语音(text-to-speech)模型能生成极其逼真的人声,甚至模仿名人声音,引发对语音深度伪造(deepfake)的担忧。
2023年,首批关于AI训练数据版权的诉讼出现,例如Getty Images起诉Stable Diffusion开发商Stability AI,因其未经许可使用数百万版权图片训练模型。这反映了AI爆发背后的法律、伦理和社会问题,亟需严肃关注。
在AI热潮中,2023年超过1000位科技界人士(包括埃隆·马斯克、史蒂夫·沃兹尼亚克及多位AI研究者)联名公开信,呼吁暂停训练比GPT-4更大规模的AI模型6个月,担忧快速发展可能失控。
同年,深度学习“教父”之一的杰弗里·辛顿也公开警告AI可能超出人类控制。欧盟委员会迅速完善了全球首个全面的人工智能法案(EU AI Act),预计2024年实施,禁止被视为“不可接受风险”的AI系统(如大规模监控、社会评分),并要求AI模型透明。
美国多个州也出台法律限制AI在招聘、金融、选举等敏感领域的使用。显然,全球正加速构建AI法律与伦理框架,以应对技术带来的深远影响。
总体来看,2020年代见证了AI在技术和普及上的双重爆发。新一代AI工具如ChatGPT、DALL-E、Midjourney等已深入人心,帮助数百万用户以全新方式创造和高效工作。
同时,AI投资竞赛激烈进行,预计未来几年企业在生成式AI上的支出将超过1000亿美元。AI正深入医疗(影像诊断、新药研发)、金融(风险分析、欺诈检测)、教育(虚拟助教、个性化学习)、交通(高级自动驾驶)、国防(战术决策)等多个领域。
可以说,AI如今如同电力和互联网,成为所有企业和政府都渴望利用的基础设施。许多专家乐观认为,只要正确发展和管理,AI将持续带来生产力和生活质量的飞跃。
自1950年代以来,人工智能的发展历史经历了令人惊叹的历程——充满了雄心、失望与辉煌。从1956年达特茅斯小型会议奠基,到两次因过度期望而陷入的“人工智能寒冬”,每次低谷后AI都凭借科学与技术突破强势复苏。尤其是过去15年,AI取得了飞跃进步,真正从实验室走向现实世界,产生深远影响。
目前,AI已渗透几乎所有领域,变得日益智能和多功能。然而,强人工智能(通用人工智能)——即具备灵活人类智能的机器——仍是未来的目标。
现有AI模型虽令人印象深刻,但通常仅擅长训练任务范围内,偶尔会犯低级错误(如ChatGPT可能“幻觉”生成错误信息且自信满满)。安全与伦理挑战迫切需要解决:如何确保AI发展受控、透明,并造福全人类。
未来的AI之路必将极具趣味性。凭借当前进展,我们可以预见AI将更深度融入生活:从辅助医疗的AI医生、法律文书检索的AI律师,到学习和心灵陪伴的AI伙伴。
研究中的类脑计算(neuromorphic computing)试图模仿人脑结构,可能催生更高效、更接近自然智能的新一代AI。尽管AI超越人类智能的前景仍有争议,但显然AI将继续进化并深刻塑造人类未来。
回顾人工智能的形成与发展历史,我们看到的是一段关于人类坚持与不断创新的故事。从只能计算的原始机器,到教会机器下棋、驾驶、识别世界甚至创作艺术,人工智能正是我们突破自我极限的见证。
重要的是,我们从历史中学到的教训——合理设定期望,负责任地发展AI——将确保AI在未来道路上为人类带来最大福祉。