多年來(2023–2025),人工智慧在多個領域大幅躍進。大型語言模型(LLMs)與聊天機器人、多模態系統、科學AI工具及機器人技術皆取得突破。

科技巨頭推出了新的AI助理,開源社群發布了強大的模型,甚至監管機構也開始著手應對AI的影響。

以下我們將回顧最引人注目的成就,從GPT-4擴展版與Google的Gemini,到AlphaFold獲得諾貝爾獎,以及AI在科學與藝術領域的驅動發現。

生成式語言模型與聊天機器人

現代大型語言模型變得更強大且多模態。OpenAI於2023年11月發布的GPT-4 Turbo,單次提示可處理128,000個標記(約300頁文字),且運行成本遠低於GPT-4。

2024年5月,OpenAI推出了GPT-4o(Omni),這是一款升級模型,能即時處理文字、圖片與音訊——實質賦予GPT-4「視覺與聽覺」的對話能力。ChatGPT本身也內建了圖片與語音功能:用戶可上傳照片或語音,機器人將根據視覺或音訊輸入回應。

  • GPT-4 Turbo與GPT-4o(Omni):GPT-4 Turbo(2023年11月)降低成本並將上下文長度延伸至128K標記。GPT-4o(2024年5月)實現真正的多模態,能以近乎人類的速度交替生成文字、語音與影像。
  • ChatGPT進展:至2023年底,ChatGPT「現在能看、能聽、能說」——可上傳圖片與音訊作為提示,機器人能相應回答。
    同時整合了DALL·E 3(2023年10月),可透過對話式提示生成圖片。
  • Google的Gemini系列:2024年12月,Google DeepMind推出首批Gemini 2.0模型(「Flash」與原型),專為「代理時代」設計——能自主執行多步驟任務的AI。
    Google已開始在搜尋(AI概覽)及其他產品中測試Gemini 2.0,服務超過十億用戶,展現其升級的推理與多模態能力。
  • 其他模型:Meta於2024年4月發布了LLaMA 3(開放權重的大型語言模型,參數高達4000億),聲稱性能超越多數先前模型。
    Anthropic的Claude 3與微軟的Copilot工具同樣基於這些進展(例如Copilot建構於OpenAI技術之上)。

這些創新使AI助理能進行更長、更豐富的對話,並處理多樣化的輸入。

它們也透過API推動新的「助理」應用(如Google的「AI概覽」、OpenAI的Assistants API等),讓開發者與終端用戶更容易使用AI。

生成式語言模型與聊天機器人

多模態與創意AI進展

AI的創造力與視覺理解能力爆發性成長。文字轉圖片文字轉影片模型達到新高度:

OpenAI的DALL·E 3(2023年10月)能從提示生成逼真照片級圖片,並整合於ChatGPT中,協助撰寫提示。

Google推出了Imagen 3(2024年10月)與Veo 2(2024年12月)——最先進的文字轉圖片與文字轉影片引擎,大幅提升AI藝術與影片生成的品質、細節與一致性。

音樂AI也有所突破,Google的MusicFX工具與相關研究(如MusicLM實驗)推動了進步。

  • 生成藝術模型:DALL·E 3與Imagen 3能高忠實度地遵循細微提示(包括圖片中的嵌入文字)。
    Google的Veo 2可從單一文字描述生成短影片,是影片合成的重要里程碑。
    Stable Diffusion與Midjourney今年也發布了新版(v3、v6),提升了真實感。
  • 裝置中的AI:Apple於2024年底在iOS 18與macOS 15推出了Apple Intelligence——iPhone/iPad/Mac內建的生成式AI。
    新增寫作助理(郵件與Pages中的重寫、校對、摘要)、更智慧的Siri,以及圖片工具如Image Playground(透過文字創作趣味插畫)與Genmoji(AI生成的客製化表情符號)。
    照片支援自然語言搜尋(「找Maya滑板」),「清理」AI可移除照片中不想要的物件。
    Apple強調裝置端處理與隱私保護。
  • 藝術中的AI:一個引人注目的例子是:2024年11月,蘇富比拍賣了首幅由人形機器人創作的畫作。
    由AI驅動的機器人Ai-Da繪製的艾倫·圖靈肖像以108萬美元成交。
    這次破紀錄的拍賣(「A.I. God:艾倫·圖靈肖像」)凸顯了AI在創意與文化上的日益重要角色。

整體而言,生成模型正在民主化創作:任何人現在只需幾句話就能生成藝術、音樂或影片。
產業焦點已從單純新奇(超現實影像)轉向實用的圖片生成(標誌、圖表、地圖)與擬人化真實感。

(2025年3月,OpenAI甚至發布了「4o影像生成」,將其最佳影像模型整合入GPT-4o,透過對話引導產出精確且逼真的影像。)

這些工具正迅速融入應用程式、瀏覽器與創意工作流程中。

多模態與創意AI進展

AI在科學、醫學與數學領域

AI成就推動了科學發現與研究進展:

  • AlphaFold 3 – 生物分子:2024年11月,Google DeepMind(與Isomorphic Labs合作)發布了AlphaFold 3,這是一款能同時預測所有生物分子(蛋白質、DNA、RNA、配體等)三維結構的新模型,準確度前所未有。
    在蛋白質與藥物相互作用方面,AlphaFold 3的準確度比傳統方法高出約50%
    開發團隊隨即釋出免費的AlphaFold伺服器,讓全球研究人員能預測分子結構。
    此舉擴展了AlphaFold 2僅針對蛋白質的預測,預期將改變藥物開發與基因組學研究。
  • 諾貝爾獎 – 蛋白質摺疊:此突破的重要性由2024年諾貝爾化學獎彰顯。
    Demis Hassabis與John Jumper(DeepMind)與David Baker共同獲獎,表彰他們開發AlphaFold(蛋白質摺疊AI)。
    諾貝爾委員會指出AlphaFold「開啟了蛋白質設計的全新可能性」。
    (這是迄今最受矚目的AI成就之一。)
  • AlphaProteo – 藥物設計:同樣在2024年,DeepMind宣布了AlphaProteo,一款能設計新型蛋白質結合劑的AI——這些分子能高效結合目標蛋白質。
    AlphaProteo可加速新抗體、生物感測器與藥物候選結構的創造。
  • 數學 – AlphaGeometry:DeepMind的AlphaGeometryAlphaProof也取得突破。
    2024年7月,AlphaGeometry 2在19秒內解決了國際數學奧林匹克的一道題目,達到銀牌水準。
    這是AI攻克高階高中數學的罕見案例。
  • 量子運算 – AlphaQubit與Willow:AI也促進了尖端硬體發展。
    2024年,Google發布了基於AI的解碼器AlphaQubit,能比以往方法更精確地識別量子電腦(如Google Sycamore晶片)中的錯誤。
    同年12月,Google推出了新量子晶片Willow,利用先進錯誤校正,在不到5分鐘內完成一項基準任務,而當今最強超級電腦需約10^24年。
    Willow因此獲得2024年「年度物理突破」獎,彰顯AI在量子進展中的關鍵角色。

在醫療與健康領域,AI模型也取得進展。例如,Google新推出的Med-Gemini(經醫療數據微調)在美國醫學考試基準(類似USMLE)中取得91.1%的高分,遠超先前模型。

放射學與病理學的AI工具(如Derm與Path Foundations)也已發布,提升影像分析能力。
整體而言,AI已成為不可或缺的研究夥伴——從利用AI輔助電子顯微鏡影像繪製奈米尺度的人腦地圖,到加速非洲結核病篩檢,皆有Google研究人員報告。

AI在科學、醫學與數學領域

AI在機器人與自動化

由AI驅動的機器人正學習複雜的現實任務。

Tesla的Optimus人形機器人於2024年10月公開展示(「我們,機器人」活動)。數十台Optimus在舞台上行走、站立甚至跳舞——但後續報導指出初期展示部分由人類遠端操控。

儘管如此,此活動凸顯了通用機器人快速進展的趨勢。

  • DeepMind的ALOHA機器人:Google AI實驗室在家用機器人領域取得顯著進展。
    2024年,ALOHA(自主雙足家務助理)學會了綁鞋帶、掛衣服、修理其他機器人、裝齒輪甚至清理廚房,僅靠AI規劃與視覺。
    「ALOHA Unleashed」開源項目展示了機器人協調雙臂執行任務,為通用操作首次實現。
  • 機器人變壓器:DeepMind推出了RT-2(Robotic Transformer 2),一款視覺-語言-動作模型,能從網路圖片與真實機器人數據中學習。
    RT-2讓機器人能像人類一樣理解指令,並示範協助機器人依文字命令分類物品。
  • 產業機器人:其他公司也有進展:Boston Dynamics持續優化Atlas與Spot機器人(雖無重大突破),AI驅動的自駕車技術提升(Tesla的全自動駕駛Beta擴大部署,但完全自主仍未解決)。
    製造業中,專注AI的公司如Figure AI募資打造家用機器人執行家務。

這些努力展現機器人能逐步完成更困難的任務,且無需明確程式設計。
不過,真正完全自主的人形機器人仍在未來。

這些展示(Optimus、ALOHA、RT-2)是重要里程碑,但研究人員提醒,機器人要能安全且可靠地大規模與人類共事,仍需更多努力。

AI在機器人與自動化

AI在產品、產業與社會

AI的影響擴及日常產品甚至政策層面:

  • 消費裝置:主要科技產品整合了AI代理人。
    微軟的Copilot(內嵌於Windows、Office、Bing)與Google的Bard/Bard AI搜尋(背後由Gemini支援)將大型語言模型的能力帶給用戶。
    Apple裝置搭載Apple Intelligence(如前述),硬體廠商如Nvidia銷售創紀錄的AI GPU,推動雲端與消費端AI發展。
    (Nvidia於2024年因AI熱潮成為全球市值最高公司。)
  • 監管 – 歐盟AI法案:反映AI影響力,監管機構也採取行動。
    2024年8月1日,歐盟AI法案正式生效,成為首部全面AI法律。
    該法案建立風險分級框架:低風險AI(垃圾郵件過濾、電子遊戲)規範寬鬆;透明度規定要求聊天機器人等AI系統明確揭露其AI身份;高風險AI(醫療或招聘工具)須嚴格監管;明確不可接受的AI(如政府對個人進行「社會評分」)則被禁止。
    這套規範(及即將發布的通用模型指導方針)是AI治理的重要里程碑,預計將影響全球標準。
  • 產業成長:AI產業本身獲得歷史性資金與估值:OpenAI於2023年底估值達1570億美元,Anthropic、Inflection及中國AI新創公司均完成數十億美元融資。
    NVIDIA的AI硬體需求推升其市值於2024年中突破3.5兆美元。
    這些數字凸顯AI已成為科技經濟的核心。

>>> 你曾嘗試過比較人工智慧與人類智慧 嗎?

AI在產品、產業與社會


簡言之,AI不再侷限於實驗室或新奇展示——它已深植於手機、汽車、工作場所與公共政策中。

上述進展——從GPT-4的龐大知識庫到AlphaFold的科學革命——展現了AI的快速成熟。

隨著我們邁入2025年,這些成就預示著更強大且實用的AI應用將融入我們的日常生活。