AI 成就

人工智慧（AI）近年來取得了顯著進展，改變了從醫療、金融到藝術與娛樂等多個產業。從能生成類人文本的語言模型，到掌握複雜遊戲與科學研究的 AI 系統，這些成就展現了機器智慧的快速演進。本文將探討近期最令人印象深刻的 AI 突破，強調其影響、潛在應用及 AI 創新的未來。

在許多年（2023–2025）中，人工智慧在多個領域取得飛躍。大型語言模型（LLMs）與聊天機器人、多模態系統、科學 AI 工具與機器人技術皆有突破。

AI 革命時間軸：2023-2025 年期間代表了 AI 能力在多個領域同時加速發展的最重要階段。

科技巨頭推出了新的 AI 助手，開源社群發布了強大的模型，甚至監管機構也開始應對 AI 的影響。

以下我們將回顧最引人注目的成就，從 GPT-4 擴展版與 Google 的 Gemini，到 AlphaFold 獲得諾貝爾獎及 AI 驅動的科學與藝術發現。

生成式語言模型與聊天機器人

現代大型語言模型變得更強大且多模態。OpenAI 的 GPT-4 Turbo（2023 年 11 月發布）現在能在一次提示中處理 128,000 個標記（約 300 頁文本），且運行成本遠低於 GPT-4。

GPT-4o 代表了向真正多模態 AI 的根本轉變，能在即時對話中無縫處理文本、圖像與音訊。
— OpenAI 研究團隊，2024 年 5 月

2024 年 5 月，OpenAI 推出升級版 GPT-4o（Omni），能即時處理文本、圖像與音訊——實質上賦予 GPT-4 對話中的「視覺與聽覺」。ChatGPT 本身也內建了圖像與語音功能：用戶可上傳照片或語音，機器人會根據視覺或音訊輸入回應。

GPT-4 Turbo 與 GPT-4o

GPT-4 Turbo（2023 年 11 月）： 降低成本並將上下文長度延長至 128K 標記。

GPT-4o（2024 年 5 月）： 使 AI 真正多模態，能以近乎人類速度交替生成文本、語音與圖像。

ChatGPT 演進

到 2023 年底，ChatGPT「現在能看、聽、說」——可上傳圖像與音訊作為提示。

整合了 DALL·E 3（2023 年 10 月）以進行對話式圖像生成。

Google 的 Gemini 系列

2024 年 12 月，Google DeepMind 推出首批 Gemini 2.0 模型（「Flash」與原型），專為「代理時代」設計——能自主執行多步驟任務的 AI。

超過 10 億用戶測試
增強推理能力
先進多模態能力

開源與企業模型

Meta 於 2024 年 4 月發布 LLaMA 3（開放權重的大型語言模型，參數高達 4000 億），宣稱性能優越。

Anthropic 的 Claude 3 進展
微軟 Copilot 整合
OpenAI 助手 API

對可及性的影響：這些創新讓 AI 助手能進行更長、更豐富的對話，並處理多樣輸入，透過 API 與整合應用讓開發者與終端用戶更容易使用 AI。

它們也推動了透過 API 的新「助手」應用（如 Google 的「AI 概覽」、OpenAI 的助手 API 等），使 AI 更易於開發者與終端用戶使用。

先進的生成式語言模型與聊天機器人介面

多模態與創意 AI 進展

AI 的創造力與視覺理解能力爆發。文字轉圖像與文字轉影片模型達到新高度：

OpenAI 的 DALL·E 3（2023 年 10 月）能從提示生成逼真照片級圖像，並整合於 ChatGPT 以輔助提示撰寫。

Google 推出 Imagen 3（2024 年 10 月）與 Veo 2（2024 年 12 月）——尖端的文字轉圖像與文字轉影片引擎，大幅提升 AI 藝術與影片生成的品質、細節與一致性。

音樂 AI 也有所進步，Google 的 MusicFX 工具與相關研究（如 MusicLM 實驗）即是例子。

先進生成能力

DALL·E 3 與 Imagen 3：能高忠實度地遵循細微提示（包括圖像中嵌入的文字）
Google 的 Veo 2：能從單一文字描述生成短影片，標誌影片合成重大進展
Stable Diffusion 與 Midjourney：2024 年發布新版（v3、v6），提升整體真實感

蘋果智慧整合

蘋果於 2024 年底在 iOS 18 與 macOS 15 推出內建生成式 AI 的 Apple Intelligence，涵蓋 iPhone/iPad/Mac。

寫作與溝通

在 Mail/Pages 中重寫、校對、摘要
強化 Siri 功能
自然語言處理

視覺與創意工具

Image Playground：透過文字創作插畫
Genmoji：AI 生成的自訂表情符號
Clean Up：移除照片中不想要的物件

隱私重點：蘋果強調裝置端處理與隱私保護，為消費者 AI 整合樹立新標準。

藝術市場歷史性成就

一個引人注目的例子：2024 年 11 月，蘇富比拍賣了首幅由類人機器人繪製的畫作。

破紀錄的 AI 藝術銷售

由 AI 驅動機器人 Ai-Da 繪製的艾倫·圖靈肖像以 108 萬美元成交。

這次破紀錄的銷售（「A.I. God: Portrait of Alan Turing」）凸顯 AI 在創造力與文化影響力上的日益重要角色。

2023 年前

早期 AI 藝術

以新奇為主的作品
超現實、抽象圖像
實用性有限
僅限基本文字轉圖像

2023-2025 年

現代 AI 創意

實用的圖像生成（標誌、圖表、地圖）
類人真實感
整合創意工作流程
多模態能力

整體而言，生成模型正在民主化創造力：任何人現在都能用幾句話生成藝術、音樂或影片。產業焦點已從單純新奇（超現實圖像）轉向實用的圖像生成（標誌、圖表、地圖）與類人真實感。

（2025 年 3 月，OpenAI 甚至發布了「4o 圖像生成」，將其最佳圖像模型整合入 GPT-4o，透過對話引導產生精確、逼真的輸出。）

這些工具正迅速被編織進應用程式、瀏覽器與創意工作流程中。

多模態與創意 AI 技術進展

AI 在科學、醫療與數學領域

AI 成就推動了科學發現與研究進展：

AlphaFold 3 – 革命性的生物分子結構預測

2024 年 11 月，Google DeepMind（與 Isomorphic Labs 合作）推出了新模型 AlphaFold 3，能同時以前所未有的準確度預測所有生物分子（蛋白質、DNA、RNA、配體等）的三維結構。

蛋白質-藥物相互作用準確度提升 50%

其開發者立即發布免費的 AlphaFold 伺服器，讓全球研究人員能預測分子結構。這擴展了 AlphaFold 2 僅蛋白質預測的功能，預計將改變藥物發現與基因組學研究。

諾貝爾獎肯定：此突破的重要性由 2024 年諾貝爾化學獎彰顯。Demis Hassabis 與 John Jumper（DeepMind）與 David Baker 共享此獎，表彰他們開發 AlphaFold（蛋白質摺疊 AI）。諾貝爾委員會指出 AlphaFold「開啟了蛋白質設計的全新可能性」。

AlphaProteo – 藥物設計

同樣在 2024 年，DeepMind 宣布了 AlphaProteo，一款能設計新型蛋白質結合劑的 AI——這些分子能高效結合目標蛋白質。

加速抗體創造
開發生物感測器
生成藥物候選分子
為指定目標創建蛋白質結構

數學 – AlphaGeometry

DeepMind 的 AlphaGeometry 與 AlphaProof 也取得突破。

19 秒解決國際數學奧林匹克問題
銀牌得主水準表現
高階高中數學能力

量子運算突破 – AlphaQubit 與 Willow

AI 也促進了尖端硬體發展。2024 年，Google 發布了基於 AI 的解碼器 AlphaQubit，能比以往方法更準確識別量子電腦（如 Google Sycamore 晶片）中的錯誤。

隨後在 2024 年 12 月，Google 推出新量子晶片 Willow，利用先進錯誤更正技術，在不到 5 分鐘內完成一項基準任務，而當今最強超級電腦需約 10^24 年。

肯定：這些成果讓 Willow 獲得 2024 年「物理年度突破」獎，凸顯 AI 在量子進展中的角色。

Med-Gemini 代表醫療 AI 能力的重大飛躍，在美國醫學考試基準測試中達到 91.1% 的準確率——遠超過先前模型。
— Google Health AI 研究團隊，2024 年

在醫療與健康領域，AI 模型也取得進展。例如，Google 新推出的 Med-Gemini（經醫療數據微調）在美國醫學考試基準（類 USMLE）中得分 91.1%，大幅超越先前模型。

針對放射學與病理學的 AI 工具（如 Derm 與 Path Foundations）被發布以提升影像分析。整體而言，AI 現已成為不可或缺的研究夥伴——從利用 AI 輔助電子顯微鏡影像繪製奈米尺度人腦地圖，到加速非洲結核病篩檢，皆有 Google 研究人員報告。

AI 在科學研究、醫療診斷與數學問題解決的應用

AI 在機器人與自動化

由 AI 驅動的機器人正在學習複雜的現實任務。

特斯拉的 Optimus 類人機器人在 2024 年 10 月公開展示（「We, Robot」活動）。數十台 Optimus 機器人在舞台上行走、站立甚至跳舞——但後續報告指出初期展示部分由人類遠端操控。

現實檢視：雖然 Optimus 展示令人印象深刻，但後續報告揭露初期演示部分由人類遠端操控，凸顯展示與完全自主間的差距。

DeepMind 的 ALOHA 機器人

Google AI 實驗室在家用機器人領域取得顯著進展。2024 年，ALOHA（自主雙足家用助理）機器人學會了綁鞋帶、掛襯衫、修理其他機器人、插入齒輪甚至清理廚房，僅靠 AI 規劃與視覺。

「ALOHA Unleashed」開源展示了機器人協調雙臂執行任務，為通用操作首次。

機器人變形金剛

DeepMind 推出 RT-2（Robotic Transformer 2），一款視覺-語言-行動模型，能從網路圖像與真實機器人數據中學習。

RT-2 讓機器人像人類一樣理解指令，並示範協助機器人根據文字指令分類物品。

產業應用

其他公司也有進展：Boston Dynamics 持續改良 Atlas 與 Spot 機器人（雖無重大突破），AI 驅動的自駕車技術提升（特斯拉全自動駕駛 Beta 擴大部署，但完全自主仍未解決）。

製造業中，專注 AI 的公司如 Figure AI 籌資打造家用機器人執行家務。

現況

展示階段

令人印象深刻的受控展示
特定任務學習
現實部署有限
需人類監督

未來願景

完全自主

安全的人機協作
通用能力
可靠的現實運作
規模化部署

這些努力顯示機器人能逐步完成更困難任務，無需明確程式設計。然而，真正完全自主的類人機器人仍在未來。

Optimus、ALOHA、RT-2 等展示是里程碑，但研究人員提醒，機器人要能安全且可靠地大規模與人類共事，仍需更多努力。

先進的 AI 驅動機器人與自動化系統

AI 在產品、產業與社會

AI 的影響延伸至日常產品甚至政策：

AI 融入日常科技

主要科技產品整合了 AI 代理。微軟的 Copilot（嵌入 Windows、Office、Bing）與 Google 的 Bard/Bard AI 搜尋（背後為 Gemini）將大型語言模型能力帶給用戶。

蘋果裝置搭載了 Apple Intelligence（如前述），硬體製造商如 Nvidia 則銷售創紀錄的 AI GPU，驅動雲端與消費者 AI。

市場領導：Nvidia 在 2024 年因 AI 熱潮成為全球市值最高公司，展現 AI 基礎設施的巨大經濟影響。

歐盟 AI 法案 - 首部全面 AI 法規

反映 AI 影響力，監管機構也採取行動。2024 年 8 月 1 日，歐盟 AI 法案生效，為首部全面 AI 法規。

風險分級框架

低風險 AI：規範最少（垃圾郵件過濾、電子遊戲）
透明度規定：AI 系統必須揭露其 AI 身份
高風險 AI：嚴格監管（醫療、招聘工具）
不可接受 AI：禁止（政府社會信用評分）

全球影響

這套規則（及即將發布的通用模型指導方針）是 AI 治理的重要成就，預計將影響全球標準。

歷史性投資與估值

AI 產業本身也見證了歷史性資金與估值：

公司	成就	價值／影響	意義
OpenAI	估值	$1570 億美元	紀錄
NVIDIA	市值	$3.5 兆美元以上	AI 硬體領導者
多家新創公司	融資輪次	數十億美元	成長階段

這些數字凸顯 AI 已成為科技經濟的核心。

AI 在消費產品、產業應用與社會架構中的整合

展望未來：AI 的變革性影響

簡言之，AI 不再侷限於實驗室或新奇展示——它已嵌入手機、汽車、工作場所與公共政策中。

知識革命

GPT-4 廣泛的知識能力展示了 AI 作為通用知識助手的潛力。

科學突破

AlphaFold 的科學革命顯示 AI 加速人類發現與研究的力量。

日常整合

AI 正無縫整合進我們的日常工具與工作流程中。

上述進展——從 GPT-4 廣泛知識到 AlphaFold 科學革命——展現了 AI 的快速成熟。

未來展望：隨著我們邁入 2025 年，這些成就預示著更強大且實用的 AI 應用將融入我們的日常生活。

隨著我們邁入 2025 年，這些成就預示著更強大且實用的 AI 應用將融入我們的日常生活。

探索更多相關文章

比較 AI 與人類智慧

AI 新聞與趨勢

09/09/2025

Rosie Ha

175 articles

Rosie Ha 是 Inviai 的作者，專注於分享人工智慧的知識與解決方案。憑藉在商業、內容創作及自動化等多個領域應用 AI 的研究經驗，Rosie Ha 將帶來易懂、實用且具啟發性的文章。Rosie Ha 的使命是幫助大家有效運用 AI，提高生產力並拓展創造力。

View Profile Profile All Posts (175) Posts (175)