甚麼是機器學習?
機器學習(ML)是人工智能(AI)的一個分支,使電腦能夠從數據中學習,並隨時間提升其處理能力,無需詳細編程。換句話說,機器學習讓電腦能夠從經驗中「學習」,逐步提高預測的準確性,類似人類從現實經驗中學習。
甚麼是機器學習?
機器學習(ML,也稱為機器學習) 是 人工智能(AI) 的一個分支,專注於使電腦能夠 模擬人類學習,自動執行任務並通過從數據中積累經驗來 提升性能。簡單來說,根據1950年代專家Arthur Samuel的經典定義,它是 「賦予電腦在未經明確編程下學習能力的研究領域」。這一定義至今仍然有效:我們不需編寫每個具體指令,而是 提供數據讓機器推斷規則,並隨時間逐步改善結果。
賦予電腦在未經明確編程下學習能力的研究領域。
— Arthur Samuel,計算機科學家(1950年代)
如今,機器學習廣泛存在於日常生活中。我們每天使用的許多線上服務——從互聯網搜索引擎、垃圾郵件過濾器、電影/產品推薦系統,到銀行軟件檢測異常交易——都由機器學習算法驅動。
搜索引擎
智能排序和個人化結果
垃圾郵件檢測
自動郵件過濾和安全保障
推薦系統
個人化內容和產品建議
這項技術也出現在許多手機應用中,例如語音識別功能讓虛擬助理能理解你的語音。憑藉其學習和改進能力,機器學習已成為大多數現代AI系統的基礎。事實上,過去5至10年的大多數AI進展都與機器學習密切相關,甚至許多人認為 AI和ML幾乎是同義詞。

機器學習、人工智能與深度學習的關係
人工智能(AI) 是一個涵蓋所有使機器能表現出類似人類「智能」行為技術的廣泛概念。機器學習 是實現AI的一種方法,通過讓機器 從數據中學習,而非逐步明確編程。在 AI生態系統 中,ML扮演著重要角色,許多AI系統本質上是建立在機器學習模型上。
基於規則的系統
- 明確逐步編程
 - 固定規則和邏輯
 - 適應性有限
 
數據驅動學習
- 從數據中學習模式
 - 隨時間改進
 - 適應新情況
 
深度學習 是機器學習的一個特殊子領域。深度學習使用 多層人工神經網絡(深度神經網絡)自動 從原始數據中提取特徵,幾乎不需人工干預。憑藉其多層結構,深度學習算法能處理海量數據(如圖像、音頻、文本),並學習分類或預測所需的重要特徵,無需程序員提前提供。這大大 減少了「教導」機器的工作量,並 利用大規模數據 來訓練模型。
人工智能
機器學習
深度學習
相反,「傳統」機器學習算法(不使用深度學習)通常 高度依賴人工設計的輸入特徵,並需要更結構化的數據處理才能達到良好效果。你可以將AI視為一組廣泛的智能技術,機器學習是AI的子集,而 深度學習是機器學習的子集,專注於深度神經網絡模型。

機器學習的類型
機器學習中有許多不同的方法和算法。基本上,ML根據系統如何 從數據中學習,分為四種 主要類型:
監督式學習
監督式學習 是利用 標籤數據 訓練模型的方法。這表示輸入數據已有已知的預期結果,幫助算法 從具體範例中學習。模型調整內部參數以預測與標籤相符的輸出。例如,若提供算法大量標註為狗或貓的圖片,模型便能從中學習,準確區分狗的圖片與非狗圖片。監督式學習是 當今最常見的機器學習類型,廣泛應用於手寫識別、垃圾郵件分類或房地產價格預測等任務。
圖像分類
識別照片中的物體
郵件過濾
垃圾郵件檢測與分類
非監督式學習
在 非監督式學習 中,輸入數據 沒有標籤。算法 自動尋找數據集中的隱藏模式和結構,無需事先指導。目標是讓機器發現 數據群組或潛在規則,這些可能是人類尚未察覺的。例如,非監督學習程序可以分析網上購物數據,自動將顧客 分群成購買行為相似的群體。
這種分群幫助企業了解不同客戶細分,即使之前沒有具體的「客戶類型」標籤。非監督式學習常用於 訪客數據分析、降維 和 推薦系統。
客戶分群
根據行為模式分組客戶
市場分析
發掘隱藏的市場趨勢
半監督式學習
半監督式學習 結合了標籤和未標籤數據進行訓練。通常只有 少部分數據有標籤,大部分未標籤。半監督算法利用這小部分標籤數據指導對大量未標籤數據的分類和特徵提取。這種方法充分利用大量未標籤數據,無需大量人工標註。
半監督式學習 特別適合標註數據 難以收集或成本高昂 的情況,準確度優於純非監督學習。
強化學習
強化學習 是一種算法通過與環境互動,利用 獎勵/懲罰機制學習 的方法。與監督學習不同,模型 不會獲得輸入-輸出對,而是 嘗試不同動作,並根據這些動作的 成功與否獲得反饋(獎勵或懲罰)。
隨著時間推移,產生良好結果的動作序列會被 「強化」,幫助模型 逐步學習最佳策略 以達成特定 目標。強化學習常用於訓練遊戲AI、控制機器人或教導自駕車。
一個著名例子是IBM Watson系統——它利用強化學習決定何時回答及下注多少,最終於2011年贏得《危險邊緣》問答節目。
— IBM Watson成就
遊戲AI
通過遊戲學習最佳策略
機器人學
自主導航與控制
自主車輛
自駕決策制定

機器學習如何運作
機器學習 基於數據運作。首先,系統需要從多種來源(感測器、交易系統、社交網絡、開放數據庫等)收集 大量且多樣化的數據集。數據質量至關重要:若數據雜訊多、不完整或不具代表性,ML模型可能學習錯誤,產生不準確結果。
數據收集與預處理
首先確定輸入數據並從可靠來源收集。然後對數據進行 清理,去除錯誤,填補缺失值,或對輸入信息進行正規化。這一步耗時但對最終模型準確度影響巨大。
- 識別並收集可靠來源的數據
 - 清理數據並去除錯誤
 - 填補缺失值並正規化輸入
 - 確保數據質量和代表性
 
算法選擇與模型訓練
根據數據類型和目標(分類或預測),選擇合適算法(如線性回歸、決策樹、神經網絡等)。將處理後的訓練數據輸入模型,通過優化損失函數進行 學習。訓練調整模型參數以最小化訓練集上的預測誤差。
- 選擇適合任務的算法
 - 將訓練數據輸入模型
 - 優化損失函數參數
 - 最小化預測誤差
 
評估與部署
訓練完成後,模型在 新 數據(測試集)上測試以評估質量。常用指標包括準確率、精確率、召回率或F1分數,視任務而定。若結果符合要求,模型將部署於實際應用或服務中;否則可能調整數據或算法並重新訓練。
- 在新數據(測試集)上測試模型
 - 測量準確率、精確率、召回率
 - 結果符合要求則部署
 - 必要時調整並重新訓練
 

機器學習的實際應用
機器學習 廣泛應用於現實生活,從日常便利到高科技領域。以下是一些 典型的ML應用範例:
生成式AI
語音識別
聊天機器人與客戶支援
電腦視覺
推薦系統
詐騙檢測

機器學習的優勢與限制
與其他技術一樣,機器學習有其 顯著優勢,但也存在一定 限制。了解這些有助於我們 有效應用ML 並 避免潛在風險。
主要好處
- 能從大量數據中發現模式: ML能 檢測龐大數據集中隱藏的模式和趨勢,這些是人類難以察覺的。這使企業能 從「大數據」中提取洞見,做出更準確決策。
 - 自動化與減少人力依賴: ML系統能在極少人工干預下 學習並改進分析算法。只需提供 輸入數據,模型便能 自動「組裝」和調整 內部參數以優化結果。這允許持續自動化複雜任務(如分類、預測),無需為每個案例手動編程。
 - 隨時間改進與個人化體驗: 與固定性能的傳統軟件不同,機器學習模型 隨著處理更多數據而提升準確度。每次額外訓練,模型都 積累經驗,做出更佳預測。這使ML系統能 為個別用戶定制,例如推薦越來越符合觀眾偏好的內容,並 隨時間提升用戶體驗。
 
主要挑戰
- 依賴數據質量: ML模型需要非常龐大的訓練數據集,且必須 準確、多樣且無偏見。數據質量差會導致結果不佳(「垃圾進,垃圾出」原則)。此外,收集和處理海量數據需要 強大存儲和計算基礎設施,成本高且資源密集。
 - 學習錯誤或偏見風險: 若訓練數據不足或不具代表性,ML模型可能嚴重失效。有時在極小數據集上,算法可能找到數學上 「合理」但實際錯誤 的規則,導致模型產生 偏見或誤導性預測,影響基於結果的決策。因此,特別在輸入數據有限時,必須仔細驗證ML結果的可靠性。
 - 缺乏透明度: 許多複雜ML模型(尤其是深度學習)運作如 「黑盒」,很難 解釋模型為何做出特定預測。例如,擁有數百萬參數的深度神經網絡可能達高準確度,但難以知道 哪些特徵導致決策。這種缺乏可解釋性在需要 結果負責任 的領域(如金融、醫療)帶來挑戰。相反,一些較簡單模型(如決策樹)因決策邏輯可追蹤,較易驗證和解釋——這是「黑盒」神經網絡所欠缺的優勢。
 

結論
總結來說,機器學習 是大數據時代的關鍵技術。它使電腦能夠學習並隨時間提升預測能力,無需詳細逐步編程。因此,ML已廣泛且持續應用於生活和產業,從智能虛擬助理到先進自動化系統。
機器學習是幫助人類在數碼時代充分發揮數據價值的工具,為未來智能技術應用開啟諸多機會。
— INVIAI 洞察