多年來(2023年至2025年),人工智能在多個領域實現了飛躍。大型語言模型(LLM)和聊天機器人、多模態系統、科學AI工具及機器人技術均取得突破。

科技巨頭推出了新的AI助理,開源社群發布了強大的模型,甚至監管機構也開始應對AI帶來的影響。

以下我們將回顧最引人注目的成就,從GPT-4擴展版和Google的Gemini,到AlphaFold獲得諾貝爾獎,以及AI在科學和藝術領域的驅動發現。

生成式語言模型與聊天機器人

現代大型語言模型變得更強大且多模態。OpenAI於2023年11月發布的GPT-4 Turbo,單次提示可處理128,000個標記(約300頁文本),且運行成本遠低於GPT-4。

2024年5月,OpenAI推出了GPT-4o(Omni),這是一款升級模型,能夠實時處理文本、圖像和音頻——實質上賦予GPT-4「視覺與聽覺」的對話能力。ChatGPT本身也內建了圖像和語音功能:用戶可以上傳照片或語音,機器人會根據視覺或音頻輸入作出回應。

  • GPT-4 Turbo與GPT-4o(Omni):GPT-4 Turbo(2023年11月)降低了成本並將上下文長度擴展至128K標記。GPT-4o(2024年5月)實現了真正的多模態,能以接近人類的速度交替生成文本、語音和圖像。
  • ChatGPT進展:至2023年底,ChatGPT「現在能看、能聽、能說」——用戶可上傳圖像或語音作為提示,機器人能相應回答。
    同時整合了DALL·E 3(2023年10月),可通過對話式提示生成圖像。
  • Google的Gemini系列:2024年12月,Google DeepMind推出首批Gemini 2.0模型(「Flash」及原型),專為「智能代理時代」設計——能自主執行多步任務的AI。
    Google已開始在搜尋(AI概覽)及其他面向超過十億用戶的產品中測試Gemini 2.0,展現其升級的推理和多模態能力。
  • 其他模型:Meta於2024年4月發布了LLaMA 3(開放權重的大型語言模型,參數量高達4000億),聲稱性能超越多數先前模型。
    Anthropic的Claude 3及微軟的Copilot工具同樣基於這些進展(例如Copilot基於OpenAI技術)。

這些創新使AI助理能進行更長、更豐富的對話,並處理多樣化的輸入。

它們也推動了通過API的新型「助理」應用(如Google的「AI概覽」、OpenAI的Assistants API等),讓開發者和終端用戶更容易接觸AI。

生成式語言模型與聊天機器人

多模態與創意AI進展

AI的創造力與視覺理解能力爆發性增長。文字轉圖像文字轉影片模型達到新高度:

OpenAI的DALL·E 3(2023年10月)能從提示生成逼真照片級圖像,並與ChatGPT整合,輔助提示撰寫。

Google推出了Imagen 3(2024年10月)和Veo 2(2024年12月)——尖端的文字轉圖像及文字轉影片引擎,大幅提升AI藝術和影片生成的質量、細節與一致性。

音樂AI也有進步,Google的MusicFX工具及相關研究(如MusicLM實驗)推動了音樂生成技術。

  • 生成藝術模型:DALL·E 3和Imagen 3能高精度地遵循細微提示(包括圖像中的嵌入文字)。
    Google的Veo 2能從單一文字描述生成短影片,是影片合成的重要突破。
    Stable Diffusion和Midjourney今年也發布了新版(v3、v6),提升了真實感。
  • 設備中的AI:Apple於2024年底在iOS 18和macOS 15中推出了Apple Intelligence——iPhone/iPad/Mac內建的生成式AI。
    新增寫作助理(郵件/Pages中的重寫、校對、摘要)、更智能的Siri,以及圖像工具如Image Playground(透過文字創作趣味插畫)和Genmoji(AI生成的自訂表情符號)。
    照片新增自然語言搜尋(如「找Maya滑板」),「清理」AI可移除照片中不想要的物件。
    Apple強調裝置端處理與隱私保護。
  • 藝術中的AI:一個引人注目的例子是:2024年11月,蘇富比拍賣了首幅由人形機器人創作的畫作。
    由AI驅動的機器人Ai-Da繪製的艾倫·圖靈肖像以108萬美元成交。
    這次創紀錄的拍賣(「A.I. God: Portrait of Alan Turing」)凸顯了AI在創意領域日益重要的角色及其文化影響。

總體而言,生成模型正在普及創意:任何人只需幾句話即可生成藝術、音樂或影片。
產業焦點已從單純新奇(超現實圖像)轉向實用的圖像生成(標誌、圖表、地圖)及擬人化真實感。

(2025年3月,OpenAI甚至發布了「4o圖像生成」,將其最佳圖像模型整合入GPT-4o,實現由對話引導的精確、逼真輸出。)

這些工具正迅速融入應用程式、瀏覽器及創意工作流程中。

多模態與創意AI進展

AI在科學、醫學與數學領域

AI成就推動了科學發現與研究進展:

  • AlphaFold 3 — 生物分子:2024年11月,Google DeepMind(與Isomorphic Labs合作)發布了AlphaFold 3,這是一款能同時預測所有生物分子(蛋白質、DNA、RNA、配體等)三維結構的新模型,準確度前所未有。
    在蛋白質與藥物相互作用方面,AlphaFold 3比傳統方法準確度提升約50%
    其開發者隨即推出免費的AlphaFold伺服器,讓全球研究人員能預測分子結構。
    這擴展了AlphaFold 2僅針對蛋白質的預測,預計將改變藥物發現與基因組學研究。
  • 諾貝爾獎 — 蛋白質摺疊:這項突破的重要性由2024年諾貝爾化學獎彰顯。
    Demis Hassabis與John Jumper(DeepMind)與David Baker共同獲獎,表彰他們開發了AlphaFold(蛋白質摺疊AI)。
    諾貝爾委員會指出AlphaFold「開啟了蛋白質設計的全新可能」。
    (這是迄今最受矚目的AI成就之一。)
  • AlphaProteo — 藥物設計:同年,DeepMind宣布了AlphaProteo,一款能設計新型蛋白質結合劑的AI——這些分子能高效結合目標蛋白質。
    AlphaProteo可加速新抗體、生物感測器及藥物候選分子的創造,通過生成針對特定目標的蛋白質結構。
  • 數學 — AlphaGeometry:DeepMind的AlphaGeometryAlphaProof也取得突破。
    2024年7月,AlphaGeometry 2在19秒內解決了國際數學奧林匹克的一道題目,達到銀牌水準。
    這是AI攻克高階中學數學的罕見案例。
  • 量子計算 — AlphaQubit與Willow:AI同樣推動了尖端硬件發展。
    2024年,Google發布了基於AI的解碼器AlphaQubit,能比以往方法更準確識別量子電腦(如Google Sycamore晶片)中的錯誤。
    隨後於2024年12月,Google推出了新量子晶片Willow,利用先進錯誤校正,在不到5分鐘內完成一項基準任務,而當今最強超級電腦需約10^24年。
    Willow因此獲得2024年「年度物理突破」獎,彰顯AI在量子進展中的關鍵角色。

在醫學與健康領域,AI模型也取得進展。例如,Google的新型Med-Gemini(經醫療數據微調)在美國醫學考試基準(類似USMLE)中得分91.1%,大幅超越先前模型。

放射學與病理學的AI工具(如Derm和Path Foundations)被推出以提升影像分析能力。
總體而言,AI已成為不可或缺的研究夥伴——從利用AI輔助電子顯微鏡成像繪製納米級人腦地圖,到加速非洲結核病篩查,均有Google研究人員報告。

AI在科學、醫學與數學領域

AI在機器人與自動化

由AI驅動的機器人正在學習複雜的現實任務。

Tesla的Optimus人形機器人於2024年10月公開展示(「We, Robot」活動)。數十台Optimus在舞台上行走、站立甚至跳舞——儘管後續報告指出初期演示部分由人類遠程操控。

不過,此活動凸顯了通用機器人快速進展的趨勢。

  • DeepMind的ALOHA機器人:Google AI實驗室在家用機器人領域取得顯著進展。
    2024年,ALOHA機器人(自主雙足家務助理)學會了綁鞋帶、掛襯衫、修理其他機器人、裝齒輪甚至清潔廚房,全靠AI規劃與視覺。
    「ALOHA Unleashed」開源項目展示了機器人協調雙臂完成任務,這是通用操作的首次突破。
  • 機器人變壓器:DeepMind推出了RT-2(Robotic Transformer 2),一款視覺-語言-行動模型,能從網絡圖片和真實機器人數據中學習。
    RT-2使機器人能像人類一樣理解指令,利用網絡知識。
    演示中,RT-2協助機器人根據文字命令分類物品。
  • 工業機器人:其他公司也有進展:Boston Dynamics持續改良Atlas和Spot機器人(雖無重大突破),AI驅動的自動駕駛車輛有所提升(Tesla的全自動駕駛Beta擴大測試,但完全自主仍未解決)。
    製造業中,專注AI的公司如Figure AI籌資打造家用機器人以協助家務。

這些努力顯示機器人能完成越來越複雜的任務,且無需明確編程。
然而,真正完全自主的人形機器人仍在未來。

這些展示(Optimus、ALOHA、RT-2)是重要里程碑,但研究人員提醒,機器人要能安全可靠地大規模與人類共事,仍需更多努力。

AI在機器人與自動化

AI在產品、產業與社會

AI的影響延伸至日常產品甚至政策層面:

  • 消費設備:主要科技產品整合了AI代理。
    微軟的Copilot(嵌入Windows、Office、Bing)和Google的Bard/Bard AI搜尋(背後是Gemini)將大型語言模型的能力帶給用戶。
    Apple設備搭載了Apple Intelligence(如前述),硬件製造商如Nvidia銷售創紀錄的AI GPU,推動雲端及消費端AI發展。
    (Nvidia於2024年因AI熱潮成為全球市值最高公司。)
  • 監管 — 歐盟AI法案:反映AI影響力,監管機構也採取行動。
    2024年8月1日,歐盟AI法案正式生效,成為首部全面AI法律。
    該法案建立風險分級框架:低風險AI(垃圾郵件過濾、電子遊戲)規定寬鬆;透明度規定要求AI系統(如聊天機器人)明確告知其AI身份;高風險AI(醫療或招聘工具)接受嚴格監管;明確不可接受的AI(如政府對個人進行「社會評分」)被禁止。
    這套規則(及即將出台的通用模型指引)是AI治理的重要里程碑,預計將影響全球標準。
  • 產業成長:AI產業本身迎來歷史性資金與估值:OpenAI於2023年底估值達1570億美元,Anthropic、Inflection及中國AI新創公司均完成數十億美元融資。
    NVIDIA的AI硬件需求推動其市值於2024年中突破3.5萬億美元。
    這些數字凸顯AI已成為科技經濟的核心。

>>> 你試過嗎比較人工智能與人類智慧

AI在產品、產業與社會


簡言之,AI不再局限於實驗室或新奇展示——它已深植於手機、汽車、工作場所及公共政策中。

上述進展——從GPT-4的廣博知識到AlphaFold的科學革命——展現了AI的快速成熟。

隨著我們邁入2025年,這些成就預示著更強大且實用的AI應用將融入我們的日常生活。