人工智能(AI)如今已成為現代生活中不可或缺的一部分,廣泛應用於從商業到醫療的各個領域。然而,鮮有人知道人工智能的發展歷史始於20世紀中葉,經歷多次起伏,才達到如今的爆炸性成就

本文由INVIAI提供,將詳細介紹人工智能的形成與發展歷程,從最初的構想,經歷艱難的“人工智能寒冬”階段,到深度學習革命及2020年代爆發的生成式人工智能浪潮

1950年代:人工智能的起點

1950年代被視為人工智能正式起步的年代。1950年,數學家艾倫·圖靈(Alan Turing)發表了《計算機與智能》(Computing Machinery and Intelligence)一文,提出了著名的圖靈測試,用以評估機器的思考能力,這被視為人工智能理論的奠基。

1956年,“Artificial Intelligence”(人工智能)一詞正式誕生。當年夏天,計算機科學家約翰·麥卡錫(John McCarthy)與馬文·明斯基(Marvin Minsky)、內森尼爾·羅徹斯特(Nathaniel Rochester,IBM)及克勞德·香農(Claude Shannon)等人在達特茅斯學院舉辦了一場歷史性研討會。

麥卡錫首次提出“人工智能”這一術語,達特茅斯會議因此被視為人工智能領域的誕生。會上,科學家們大膽宣稱“學習或智能的所有方面都可以用機器模擬”,為這一新興領域設定了雄心勃勃的目標。

1950年代末期見證了多項人工智能的初步成就。1951年,早期的人工智能程序在Ferranti Mark I計算機上運行,其中包括克里斯托弗·斯特拉奇(Christopher Strachey)的跳棋程序和迪特里希·普林茲(Dietrich Prinz)的國際象棋程序,標誌著計算機首次能夠玩智能遊戲。

1955年,IBM的亞瑟·塞繆爾(Arthur Samuel)開發了能夠從經驗中自我學習的跳棋程序,成為最早的機器學習系統之一。同時期,艾倫·紐厄爾(Allen Newell)赫伯特·西蒙(Herbert Simon)等人開發了Logic Theorist(1956),能自動證明數學定理,證明機器能進行邏輯推理。

除了算法,1950年代還誕生了專為人工智能設計的工具和程式語言。1958年,約翰·麥卡錫發明了專為AI設計的程式語言Lisp,迅速成為AI開發的主流語言。同年,心理學家弗蘭克·羅森布拉特(Frank Rosenblatt)提出了感知器(Perceptron),這是首個能從數據中學習的人工神經網絡模型,為現代神經網絡奠定基礎。

1959年,亞瑟·塞繆爾首次在一篇劃時代的論文中使用了“機器學習(machine learning)”一詞,描述了計算機如何被編程以學習並自我改進下棋能力,甚至超越了程序員的水平。這些進展帶來了強烈的樂觀情緒,先驅們相信機器在數十年內能達到人類智能水平。

1950年代 - 人工智能的起點

1960年代:初步突破

進入1960年代,人工智能持續發展,出現多個重要項目和發明。多所著名大學(如MIT、史丹佛、卡內基梅隆)成立了AI實驗室,吸引了大量關注和研究資金。計算機性能提升,使得更複雜的AI構想得以實驗。

一項突出成就是首個聊天機器人的誕生。1966年,MIT的約瑟夫·韋岑鮑姆(Joseph Weizenbaum)創造了ELIZA,模擬心理醫生與用戶對話。ELIZA基於關鍵詞識別和模板回應,雖然簡單,卻讓許多人誤以為它真正“理解”並有情感。ELIZA的成功不僅為現代聊天機器人鋪路,也引發了人類對機器情感投射的思考。

同時,首個智能機器人也出現。1966至1972年間,史丹佛研究院(SRI)開發了Shakey,這是首個能自主感知和規劃行動的移動機器人,配備感測器和攝像頭,能分析任務並執行如尋路、推動障礙物、爬坡等基本動作。Shakey整合了計算機視覺、自然語言處理和規劃,為後來的機器人AI奠定基礎。

美國人工智能協會(AAAI)也在此期間成立(前身為1969年IJCAI會議,1980年正式成立AAAI),凝聚了AI研究社群,顯示出AI社群日益壯大

此外,1960年代還見證了專家系統和基礎算法的發展。1965年,愛德華·費根鮑姆(Edward Feigenbaum)等人開發了全球首個專家系統DENDRAL,用於協助化學家從實驗數據分析分子結構,模擬專家知識和推理。DENDRAL的成功證明計算機能解決複雜專業問題,為1980年代專家系統的爆發奠定基礎。

同時,專為邏輯AI設計的程式語言Prolog於1972年在馬賽大學開發,開啟了基於邏輯和關係規則的AI方法。1969年,馬文·明斯基(Marvin Minsky)西摩·帕珀特(Seymour Papert)出版了《Perceptrons》,指出單層感知器模型的數學限制(無法解決簡單的XOR問題),導致神經網絡領域遭受嚴重質疑。

許多資助者對神經網絡的學習能力失去信心,神經網絡研究在1960年代末逐漸衰退,這是人工智能熱潮中首次出現的“寒冬”跡象

1960年代的人工智能

1970年代:挑戰與首個“人工智能寒冬”

進入1970年代,人工智能面臨現實挑戰:前一年代的高期待因計算能力、數據和科學理解的限制未能實現,導致信心和資金大幅減少,這一時期後被稱為首個“人工智能寒冬”

1973年,詹姆斯·萊特希爾爵士(Sir James Lighthill)發表了題為《人工智能:綜合調查》的報告,對AI研究進展持極為悲觀的評價。萊特希爾報告指出AI研究“承諾過高,成果甚微”,特別批評計算機未能達到語言理解和視覺識別的期望。

該報告導致英國政府大幅削減AI預算。美國的DARPA等資助機構也轉向更實用的項目。結果是從1970年代中期到1980年代初,AI幾乎陷入停滯,缺乏重大突破和資金支持,這正是所謂的人工智能寒冬

儘管困難重重,1970年代仍有一些亮點。專家系統在學術界持續發展,代表作是1974年由Ted Shortliffe在史丹佛開發的醫療專家系統MYCIN,用於診斷血液感染,利用推理規則提供高準確度的治療建議,證明專家系統在特定領域的實用價值。

此外,1972年推出的Prolog語言開始應用於語言處理和邏輯問題,成為基於邏輯的AI重要工具。1979年,史丹佛團隊成功開發了首輛能自主穿越障礙物的機器人車輛Stanford Cart,無需遠程操控,為後來自駕車研究奠定基礎。

整體而言,1970年代末期,AI研究陷入低潮,許多科學家轉向相關領域如統計機器學習、機器人和計算機視覺繼續工作。

人工智能不再是上一個十年的“明星”,而成為一個進展緩慢的狹窄領域。這一時期提醒研究者,人工智能比預期複雜得多,需要更根本的新方法,而非僅靠模擬推理。

1970年代的人工智能

1980年代:專家系統的興衰

1980年代初,人工智能迎來復興時期,有時稱為“AI文藝復興”。這得益於專家系統的商業成功及政府和企業重新投入資金。計算機性能提升,社群相信AI在狹窄領域內的理想可逐步實現。

一大推動力是商業專家系統。1981年,Digital Equipment Corporation推出了XCON(Expert Configuration),幫助配置計算機系統,為公司節省數千萬美元。XCON的成功推動了企業中專家系統的發展,許多科技公司投資開發專家系統框架,方便企業定制。

Lisp語言也從實驗室走向市場,出現了專門運行AI程序的Lisp機器。1980年代初,眾多Lisp機器初創公司(如Symbolics、Lisp Machines Inc.)成立,引發投資熱潮,被稱為AI的“Lisp時代”。

各國政府也大力資助AI。1982年,日本啟動了耗資8.5億美元的第五代計算機計劃,旨在開發基於邏輯和Prolog的智能計算機。美國(DARPA)也加強AI研究資助,聚焦專家系統、自然語言處理和知識庫,期望打造超越常規的智能計算機。

在這波樂觀浪潮中,人工神經網絡也悄然復興。1986年,研究者傑弗里·辛頓(Geoffrey Hinton)等人提出了反向傳播算法(Backpropagation),有效訓練多層神經網絡,克服了1969年《Perceptrons》一書指出的限制。

反向傳播算法雖早在1970年被提出,但直到80年代中期隨著計算能力提升才被充分利用。反向傳播迅速引發第二波神經網絡研究熱潮,研究者開始相信深層神經網絡能學習複雜模型,為後來的深度學習奠定基礎。

年輕研究者如法國的Yann LeCun和加拿大的Yoshua Bengio也加入神經網絡運動,並於80年代末成功開發手寫字識別模型。

然而,第二波AI熱潮並未持久。80年代末,AI再次陷入危機,因為專家系統雖在狹窄應用中有效,但存在僵化、難以擴展且需手動更新知識的缺陷。

多個大型專家系統項目失敗,Lisp機器市場因個人電腦崛起而崩潰。1987年,Lisp產業幾乎破產。80年代末AI投資大幅縮減,引發第二次人工智能寒冬。1984年提出的“AI冬天”一詞在此時應驗,許多AI公司於1987至1988年倒閉。AI領域再次進入衰退期,研究者被迫調整期望與策略。

總結來說,1980年代是AI的興衰週期。專家系統首次將AI帶入工業應用,但也暴露了基於固定規則方法的限制。儘管如此,這一時期孕育了許多寶貴的理念和工具:從神經網絡算法到首批知識庫。這段歷史教訓促使後續研究更加謹慎,為下一個十年奠定基礎。

1980年代的人工智能

1990年代:AI重返實務

經歷了80年代末的人工智能寒冬後,1990年代對AI的信心逐漸恢復,得益於一系列實用性突破。研究重點從雄心勃勃的強人工智能轉向專注於具體任務的弱人工智能,在特定領域取得顯著成果。此前從AI分支出的多個領域(如語音識別、計算機視覺、搜索算法、知識庫系統)獨立發展並廣泛應用。

一個重要里程碑是1997年5月,IBM的計算機深藍(Deep Blue)擊敗世界象棋冠軍加里·卡斯帕羅夫(Garry Kasparov),成為首個在複雜智力遊戲中擊敗世界冠軍的AI系統,震驚全球。

深藍的勝利基於暴力搜索算法結合開局資料庫,展示了強大計算能力和專門技術能使機器超越人類在特定任務上的表現。此事件標誌著AI在媒體上的華麗回歸,激發了多年沉寂後的研究熱情。

不僅在象棋,1990年代的AI在多個領域取得進展。1994年,程序Chinook完全解決了跳棋遊戲,令世界冠軍承認無法擊敗計算機。

語音識別方面,商用系統如Dragon Dictate(1990年)開始出現,至90年代末,語音識別軟件廣泛應用於個人電腦。手寫識別也集成於PDA(個人數碼助理)設備,準確度不斷提升。

計算機視覺應用於工業檢測和安全系統。即使是曾令AI挫敗的機器翻譯,也取得顯著進步,如SYSTRAN系統支持多語言自動翻譯,服務歐盟。

另一重要方向是統計機器學習和神經網絡應用於大規模數據挖掘。90年代末,互聯網爆炸式增長,帶來海量數據。技術如數據挖掘、決策樹、神經網絡、隱馬爾可夫模型等被用於網絡數據分析、搜索優化和內容個性化。

“數據科學”一詞尚未普及,但AI已深入軟件系統,通過學習用戶數據提升性能(如垃圾郵件過濾、電商推薦)。這些實用成功幫助AI在企業和社會中重建信譽。

可以說,1990年代是AI穩健而低調地融入生活的時期。研究者不再誇大智能,而是專注解決具體問題。結果是,AI已存在於20世紀末多種科技產品中,卻不為用戶所察覺,為後續的數據和算法基礎打下堅實基礎,為下一波爆發做好準備。

1990年代的人工智能

2000年代:機器學習與大數據時代

進入21世紀,AI因互聯網和大數據時代而強勢轉型。2000年代見證了個人電腦、網絡和感測設備的爆炸式增長,產生海量數據。機器學習,尤其是監督學習方法,成為開採這些“數據油田”的核心工具。

數據是新的石油”成為流行口號,因為數據越多,AI算法越精準。大型科技公司開始建立用戶數據收集與學習系統,提升產品性能:Google優化搜索,亞馬遜根據行為推薦商品,Netflix提供影片推薦。AI逐漸成為數字平台背後的“無形大腦”

2006年,史丹佛大學教授李飛飛(Fei-Fei Li)發起了ImageNet項目,建立了包含超過1400萬張帶標註圖片的龐大數據庫。2009年推出後,ImageNet迅速成為訓練和評估計算機視覺算法的標準數據集,尤其是物體識別。

ImageNet被譽為推動後續深度學習研究的“興奮劑”,因為它提供了足夠的數據支持複雜深層模型的訓練。從2010年起,每年舉辦的ImageNet挑戰賽成為頂尖團隊競爭視覺算法的舞台。正是在這個平台上,2012年AI迎來歷史性轉折(詳見2010年代部分)。

2000年代,AI還實現了多項重要應用突破:

  • 2005年,史丹佛自駕車“Stanley”贏得了212公里的DARPA大挑戰賽,完成賽程用時6小時53分鐘,開啟了自駕車時代,吸引Google、Uber等巨頭投資。
  • 手機虛擬助理出現:2008年Google Voice Search支持iPhone語音搜索;2011年Apple推出Siri,集成語音識別、自然語言理解和網絡服務,標誌AI首次大規模接觸消費者。
  • 2011年,IBM Watson在美國電視節目《危險邊緣》(Jeopardy!)中擊敗兩位冠軍,展示了AI在自然語言處理和信息檢索上的強大能力,證明機器能在廣泛知識領域“理解”並智能應答。
  • 社交網絡與網絡平台:Facebook於2010年左右推出自動人臉識別標籤功能,YouTube和Google利用AI過濾內容和推薦視頻。機器學習技術默默運行,優化用戶體驗,往往用戶不自知。

總結來看,2000年代AI的核心動力是數據和應用。傳統機器學習算法如回歸、支持向量機(SVM)、決策樹等在大規模數據上實現了實際效益。

AI從研究課題大幅轉向工業應用,“企業AI”成為熱門話題,眾多公司提供管理、金融、營銷等領域的AI解決方案。2006年,“企業人工智能”一詞出現,強調AI在提升商業效率和決策中的作用。

2000年代末,深度學習革命的萌芽開始顯現。多層神經網絡研究持續發展。2009年,斯坦福大學的吳恩達(Andrew Ng)團隊首次利用GPU訓練神經網絡,速度比傳統CPU快70倍。

GPU的並行計算能力非常適合神經網絡矩陣運算,為2010年代大規模深度學習模型的訓練鋪路。數據量、硬件和算法的最後拼圖齊備,等待時機爆發新一輪AI革命。

2000年代的人工智能

2010年代:深度學習革命

若要選擇AI真正“起飛”的時代,那必是2010年代。憑藉前一十年的數據和硬件基礎,人工智能進入深度學習時代,多層神經網絡模型在眾多AI任務中取得突破,打破多項紀錄。機器“像人腦一樣學習”的夢想部分成真。

2012年,傑弗里·辛頓(Geoffrey Hinton)及其學生(Alex Krizhevsky、Ilya Sutskever)參加ImageNet挑戰賽。他們的模型——通常稱為AlexNet——是一個8層卷積神經網絡,在GPU上訓練。結果顯著,AlexNet的準確率遠超第二名,錯誤率減半。

這場壓倒性勝利震驚計算機視覺界,標誌著AI深度學習熱潮的開始。隨後幾年,傳統圖像識別方法被深度學習模型迅速取代。

AlexNet的成功證明,只要有足夠數據(ImageNet)和計算力(GPU),深度神經網絡能超越其他AI技術。辛頓及團隊很快被Google挖角,深度學習成為AI研究的熱門詞彙

深度學習不僅革新了計算機視覺,也擴展至語音處理、自然語言及多個領域。2012年,Google Brain(由吳恩達和Jeff Dean領導)發布了一個深度神經網絡,自主學習觀看YouTube視頻,無需標註即可識別“貓”的概念。

2011至2014年間,虛擬助理如Siri、Google Now(2012年)和Microsoft Cortana(2014年)相繼問世,利用語音識別和自然語言理解技術。2017年,微軟的語音識別系統達到接近人類的準確率,主要得益於深度神經網絡模型。2016年,Google Translate轉向基於神經網絡的機器翻譯(NMT),顯著提升翻譯質量。

另一重要里程碑是AI在圍棋領域的突破。2016年3月,DeepMind(Google旗下)開發的AlphaGo以4比1擊敗世界圍棋冠軍李世石。圍棋比象棋複雜得多,無法暴力搜索。AlphaGo結合深度學習和蒙特卡羅樹搜索,通過數百萬局人類棋譜學習並自我對弈。

這場勝利與1997年深藍擊敗卡斯帕羅夫齊名,證明AI已能超越人類在直覺和經驗要求極高的領域。隨後,DeepMind推出完全自學的AlphaGo Zero(2017年),無需人類數據,仍以100比0擊敗舊版,展示了強化學習結合深度學習的巨大潛力

2017年,Google研究團隊發表了革命性的自然語言處理架構——Transformer,在論文《Attention Is All You Need》中提出了自注意力機制(self-attention),允許模型捕捉句子中詞語間的關聯,而無需序列順序處理。

Transformer大幅提升了大型語言模型(LLM)的訓練效率,取代了之前的循環神經網絡(RNN/LSTM)。基於Transformer的模型如Google的BERT(2018年)用於語境理解,OpenAI的GPT(Generative Pre-trained Transformer)於2018年首次亮相。

這些模型在語言分類、問答和文本生成等任務中表現卓越。Transformer奠定了2020年代大型語言模型競賽的基礎

2010年代末,生成式人工智能(Generative AI)開始興起,能夠自主創造新內容。2014年,Ian Goodfellow等人提出了生成對抗網絡(GAN),由兩個對抗的神經網絡生成逼真數據。

GAN以生成逼真人像(deepfake)聞名。同時,變分自編碼器(VAE)和風格轉換網絡(style transfer)也被開發,允許用戶以新風格變換圖像和視頻。

2019年,OpenAI發布了1.5億參數的文本生成模型GPT-2,能生成流暢長文,幾乎媲美人類寫作。AI不再僅是分類或預測工具,而是能夠說服力地創造內容

2010年代的AI取得了超乎預期的飛躍。許多曾被認為“無法實現”的任務,如圖像識別、語音識別、翻譯和複雜遊戲,AI均達到或超越人類水平。

更重要的是,AI開始深入日常生活:從智能手機的臉部識別、智能音箱(Alexa、Google Home)中的虛擬助理,到社交媒體上的內容推薦,AI無處不在。這是AI的爆發期,被譽為“AI是新的電力”,成為改變各行各業的基礎技術。

2010年代的人工智能

2020年代:生成式AI爆發與新趨勢

僅在2020年代初,AI以史無前例的速度爆發,主要得益於生成式人工智能(Generative AI)大型語言模型(LLM)的崛起。這些系統使AI能夠直接觸及數以億計用戶,引發創新應用浪潮及廣泛的社會討論。

2020年6月,OpenAI發布了擁有1750億參數的GPT-3,規模是此前最大模型的10倍。GPT-3令人驚嘆地能夠生成文章、回答問題、作詩、編程,幾乎媲美人類,儘管仍有事實錯誤。GPT-3的規模與龐大訓練數據展現了生成流暢語言的巨大潛力。基於GPT-3的應用迅速湧現,涵蓋市場營銷文案、郵件助理及程式輔助等。

2022年11月,AI真正走入公眾視野,OpenAI推出基於GPT-3.5的互動聊天機器人ChatGPT。僅用5天用戶數突破100萬,約兩個月內突破1億,成為史上增長最快的消費應用。

ChatGPT能流暢回答各類問題,從寫作、解題到諮詢,令用戶驚嘆其智能與靈活性。其普及標誌著AI首次被廣泛用作內容創作工具,並引發科技巨頭間的AI競賽。

2023年初,微軟將GPT-4整合入Bing搜索,Google則推出基於自家LaMDA模型的聊天機器人Bard。這場競爭推動生成式AI技術快速普及與改進。

除了文本,生成式AI在圖像和音頻領域也取得突破。2022年,OpenAI的DALL-E 2、Midjourney和Stable Diffusion等文本生成圖像模型問世,用戶可輸入文字描述,AI即生成逼真創意圖像,開啟數字內容創作新時代。

然而,這也帶來了版權與倫理挑戰,因為AI從藝術家作品中學習並生成相似作品。在音頻領域,新一代文本轉語音模型能生成與真人無異的聲音,甚至模仿名人聲音,引發對語音深偽技術的擔憂。

2023年,首批關於AI訓練數據版權的訴訟出現,例如Getty Images起訴Stability AI,指控其未經授權使用數百萬版權圖片訓練模型。這反映了AI爆發的陰暗面:法律、倫理和社會問題日益突出,亟需嚴肅關注。

同年,超過1000位科技界人士(包括Elon Musk、Steve Wozniak及多位AI研究者)聯署公開信,呼籲暫停6個月訓練超越GPT-4規模的AI模型,擔憂快速發展可能失控。

同時,深度學習之父傑弗里·辛頓也公開警告AI可能超出人類控制。歐盟委員會迅速完善了全球首部全面AI法規——AI法案(EU AI Act),預計2024年生效,禁止被視為“不可接受風險”的AI系統(如大規模監控、社會評分),並要求AI模型透明。

美國多州也出台法律限制AI在敏感領域(招聘、金融、選舉等)的使用。顯然,全球正加速構建AI法律與倫理框架,以應對技術帶來的深遠影響。

總體而言,2020年代見證了AI在技術與普及上的雙重爆發。新一代AI工具如ChatGPT、DALL-E、Midjourney等已成日常,幫助數百萬人以全新方式創作與工作。

同時,AI投資競賽熱烈展開,預計未來數年企業在生成式AI上的支出將超過千億美元。AI正深入醫療(影像診斷、新藥研發)、金融(風險分析、詐騙偵測)、教育(虛擬助教、個性化學習)、交通(高級自駕)、國防(戰術決策)等多個領域。

可以說,AI如今如同電力與互聯網,成為所有企業和政府必爭的基礎設施。許多專家樂觀認為,只要妥善發展與管理,AI將繼續帶來生產力和生活質量的飛躍。

2020年代的人工智能


從1950年代至今,人工智能的發展歷程是一段令人驚嘆的旅程——充滿了雄心、失望與再度輝煌。從1956年達特茅斯小型研討會奠基,AI兩度陷入“寒冬”,但每次都因科學與技術突破而強勢復甦。尤其近15年,AI取得了飛躍進展,真正從實驗室走向現實世界,產生深遠影響

目前,AI已滲透幾乎所有領域,變得越來越智能與多功能。然而,強人工智能(通用人工智能)——即具有人類般靈活智能的機器——仍是未來目標。

現有AI模型雖令人印象深刻,但多數僅擅長特定任務,偶爾會犯低級錯誤(如ChatGPT可能自信地“幻覺”錯誤信息)。安全與倫理挑戰也日益迫切:如何確保AI發展受控、透明,並造福全人類

未來的AI之路必將極具趣味性。憑藉當前進展,我們可見AI將更深度融入生活:從AI醫生協助健康管理、AI律師查閱法律文件,到作為學習與心靈伴侶的AI朋友

類腦計算(neuromorphic computing)等技術正被研究以模仿人腦結構,可能催生更高效、更接近自然智能的新一代AI。儘管AI超越人類智能的前景仍具爭議,但AI無疑將持續演進,深刻塑造人類未來。

回顧人工智能的形成與發展歷史,我們看到一個關於人類堅持與創新不懈的故事。從只能計算的原始機器,到能下棋、駕駛、識別世界甚至創作藝術的智能系統,人工智能正是我們突破自我極限的最佳證明。

重要的是,我們從歷史中學到——合理設定期望,負責任地發展AI,確保AI在未來道路上為人類帶來最大福祉。