深度學習是一種機器學習(machine learning)方法,也是人工智慧(AI)領域的一個分支。此方法利用多層人工神經網路(deep neural networks)來模擬類似人腦的複雜決策能力,幫助電腦有效識別數據中隱藏的資訊模式。

事實上,我們周遭大多數現代 AI 應用都是由深度學習技術驅動,從語音辨識、影像識別到推薦系統與智慧聊天機器人等。

深度學習如何運作?

深度學習基於多層人工神經網路模型運作。神經網路包含一個輸入層、多個位於中間的隱藏層,以及一個輸出層。原始數據(例如影像、聲音、文字)輸入到輸入層,接著依序通過各隱藏層,網路逐步抽取更高層次的抽象特徵,最終在輸出層產生預測結果。這個從輸入到輸出的資訊傳遞過程稱為前向傳播forward propagation)。

在獲得預測結果後,模型會將其與期望值(若有實際標籤)比較,計算誤差。接著,利用反向傳播backpropagation)調整網路中的權重:誤差從輸出層反向傳遞至前面各層,並更新神經元間的連結權重以減少誤差。前向傳播與反向傳播交替進行於模型的訓練過程中,使神經網路在每次學習迴圈後逐步提升預測準確度。

透過多層結構,網路中每層神經元學習數據的不同層次特徵。舉例:在人臉辨識模型中,第一層可能學習辨識簡單特徵如邊緣或直線;下一層則學習將這些特徵組合成較複雜的形狀如眼睛、鼻子;更深層的隱藏層則能辨識完整物體,例如判斷照片中是否有人臉。重要的是,深度學習網路能自動學習每層適合的特徵,無需像傳統機器學習方法那樣由人為預先設計輸入特徵。

深度學習運作原理

深度學習與機器學習有何不同?

雖然深度學習本質上是機器學習的一種方法,但它與傳統機器學習技術有幾個重要差異:

  • 模型結構:深度學習模型擁有三層以上的隱藏層,通常是數十甚至數百層,而傳統的淺層機器學習模型通常只有一到兩層(或使用非神經網路算法)。換句話說,深度學習網路結構更為深層,擁有更多神經元層次連結,能學習更複雜的特徵。
  • 特徵學習能力:深度學習能自動從原始數據中抽取特徵。過去傳統機器學習算法需要工程師手動進行特徵工程,即挑選與轉換數據成適合算法的特徵。深度學習網路則能自動學習重要特徵,減少對專家準備輸入數據的依賴。
  • 學習方式:許多現代深度學習模型能結合無監督學習,即從無標籤數據中自動發現結構與模式。相比之下,傳統機器學習多依賴監督學習,需要標註好的數據來訓練模型並產生準確結果。無標籤數據的學習能力使深度學習能利用現實中大量未標註的數據資源。

深度學習與機器學習的差異

深度學習的應用

深度學習已經並正在以其卓越的能力革新多個領域,尤其在複雜數據分析方面表現突出。以下是該技術廣泛應用的幾個典型領域:

電腦視覺(Computer Vision):

深度學習幫助電腦「看見」並理解影像與影片內容。卷積神經網路(CNN)模型能高精度地分類影像、偵測物體、辨識人臉等。

實際應用包括自駕車(辨識車道與行人以輔助安全駕駛)、醫療(分析X光、MRI影像以更精確偵測腫瘤與病變)、社群媒體(辨識照片中的人臉以建議標籤朋友),以及農業(透過衛星影像監控作物)、安全監控(透過攝影機偵測入侵)等多個領域。

語音辨識(Speech Recognition):

這項技術讓電腦能理解人類語音。藉由深度學習,虛擬助理如Amazon Alexa、Google Assistant、Siri能辨識多種語調與語言,並轉換成文字或執行相應指令。

應用包括智慧家庭語音控制、自動產生影片字幕、客服中心通話分析,以及醫療與法律領域的語音轉文字服務。

自然語言處理(Natural Language Processing - NLP):

深度學習幫助電腦理解並生成自然語言文字。著名應用包括:自動翻譯(如 Google 翻譯)、聊天機器人與虛擬助理回覆訊息、文件自動摘要(如新聞摘要、長文重點提取)、社群媒體情感分析(分類正面或負面評論),以及從文本中抽取重要資訊(如郵件或文件資料擷取)。

推薦系統(Recommendation Systems):

深度學習用於根據用戶行為與偏好推薦合適的內容與產品。典型例子包括串流平台如Netflix、YouTube推薦影片,電子商務平台如Amazon推薦可能感興趣的商品。推薦系統也廣泛應用於社群媒體(推薦朋友、內容)、新聞(推薦相關報導)等,提升個人化用戶體驗。

生成式 AI(Generative AI):

這類 AI 應用能基於已有數據創造全新內容(文字、影像、聲音、影片)。深度學習推動了生成模型的發展,如生成對抗網路(GAN)Transformer 模型等。舉例來說,DALL-E能根據文字描述生成新影像,ChatGPT則能生成自然流暢的對話與回答。

生成式 AI 現已應用於行銷內容創作、自動程式碼撰寫、客服回應等多種任務。憑藉深度學習對龐大數據中風格與模式的學習與模擬,這是近年來極具突破性的領域。

深度學習應用

深度學習的優點

深度學習之所以廣受歡迎,主要因其具備以下顯著優勢:

  • 高效自動特徵學習:深度學習模型能自動抽取適合的特徵,減少前置資料處理工作。與需依賴人工設計特徵的傳統算法不同,深度學習能自動學習最適合任務的數據表示,對於結構不明確的數據如影像、聲音、文字尤其有用。
  • 高準確度:憑藉多層結構與大量數據學習,深度學習模型通常達到優於傳統方法的準確度。在某些領域,深度學習甚至達到或超越人類專家的水平,例如影像辨識、圍棋對弈、醫療影像診斷等。這種高效能為自動化複雜任務提供了可靠基礎。
  • 多元且靈活的應用:深度學習具備高度通用性,可應用於多種數據類型與問題。從電腦視覺、自然語言處理、語音辨識到時間序列預測、內容生成等,深度學習提供先進模型解決方案。此技術推動多個產業自動化,完成過去僅人類能執行的任務。且深度學習模型可透過持續學習(learning on the fly)隨新數據不斷提升效能。
  • 擅長大數據學習:深度學習在大數據環境中表現尤為出色。多層模型能吸收龐大數據,挖掘傳統方法無法捕捉的複雜模式。數據越多,模型學習效果越佳,且較不易發生過度擬合(overfitting)問題,相較淺層模型更具優勢。

深度學習的優勢

深度學習的限制

除了優點外,深度學習也存在一些挑戰與限制,需特別注意:

  • 需要大量數據:深度學習模型參數眾多,通常需要龐大且多樣的訓練數據集才能達到良好效果。數據不足或不夠多元,模型容易過度擬合或無法學習到泛化規則。此外,數據必須經過嚴謹準備——目標明確、數量充足且偏差最小,才能確保模型準確性。
  • 高計算資源需求:訓練深度學習網路非常耗費計算資源。調整數百層、數百萬權重需要強大處理器如 GPU 或 TPU 支援。大型模型訓練時間可能從數小時到數週不等,並伴隨硬體與電力成本。實際部署多個深度學習模型也需龐大計算基礎設施(如 GPU 伺服器或雲端服務)。
  • 模型為「黑盒」,難以解釋:深度學習的一大缺點是解釋性差。由於神經網路結構複雜且學習抽象特徵,常被比喻為「黑盒」,人類難以理解模型為何做出特定決策。缺乏解釋性在醫療、金融等高要求領域造成挑戰,也影響用戶信任。目前可解釋 AIExplainable AI)正是研究方向,旨在部分克服深度學習的此項缺陷。
  • 訓練數據偏差風險:深度學習完全依賴訓練數據,若輸入數據存在偏見(bias)或不具代表性,模型會放大這些偏見。例如,若人臉辨識訓練數據缺少某族群的影像,模型可能對該族群辨識不佳或產生偏差。因此,準備多元且平衡的數據,並盡量減少錯誤,是確保模型公平性與效能的關鍵。
  • 需高專業知識開發:建構與優化深度學習模型並非易事,需具備機器學習、數學及實驗經驗的專家。選擇合適網路架構、調整大量超參數(hyperparameters),以及處理過擬合、梯度消失等問題,都需反覆試驗與深入理解。因此,進入此領域門檻較高,非所有組織皆有足夠人力資源。

>>> 點擊了解更多:什麼是機器學習?

深度學習的限制


深度學習已確立為當前 AI 革命的核心技術。憑藉從大量數據中自我學習與模擬大腦部分運作的能力,深度學習使電腦在認知與資訊處理上取得突破性進展。從協助自駕車安全行駛、輔助醫師診斷疾病,到生成自然流暢的對話,這項技術已滲透數位生活的各個層面。

儘管面臨數據、計算與透明度挑戰,深度學習仍持續進步。隨著計算基礎設施與新技術(如 Transformer 架構、強化學習等)發展,深度學習預計將持續突破,催生更多創新應用,並成為推動未來人工智慧發展的關鍵動力。

External References
This article has been compiled with reference to the following external sources: