การเรียนรู้แบบเสริมกำลังคืออะไร?
การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning หรือ RL) เป็นสาขาหนึ่งของการเรียนรู้ของเครื่องที่ตัวแทน (agent) เรียนรู้ที่จะตัดสินใจโดยการโต้ตอบกับสภาพแวดล้อม ใน RL เป้าหมายของตัวแทนคือการเรียนรู้กลยุทธ์ (policy) เพื่อเลือกการกระทำที่เพิ่มรางวัลสะสมให้สูงสุดในระยะยาว
การเรียนรู้แบบเสริมกำลัง (RL) เป็นสาขาหนึ่งของการเรียนรู้ของเครื่องที่ ตัวแทน เรียนรู้ที่จะตัดสินใจโดยการโต้ตอบกับ สภาพแวดล้อม ใน RL เป้าหมายของตัวแทนคือการเรียนรู้ นโยบาย (กลยุทธ์) เพื่อเลือกการกระทำที่เพิ่มรางวัลสะสมให้สูงสุดในระยะยาว
แตกต่างจากการเรียนรู้แบบมีผู้สอนที่ต้องการตัวอย่างที่ติดป้ายกำกับ RL ใช้ การตอบกลับแบบลองผิดลองถูก: การกระทำที่ให้ผลลัพธ์บวก (รางวัล) จะได้รับการเสริมกำลัง ขณะที่การกระทำที่ให้ผลลัพธ์ลบ (การลงโทษ) จะถูกหลีกเลี่ยง
RL คือ "แนวทางเชิงคำนวณเพื่อเข้าใจและทำให้อัตโนมัติการเรียนรู้และการตัดสินใจที่มุ่งเป้าหมาย" ซึ่งตัวแทนเรียนรู้จากการโต้ตอบโดยตรงกับสภาพแวดล้อมโดยไม่ต้องการการควบคุมภายนอกหรือแบบจำลองโลกที่สมบูรณ์
— Sutton และ Barto, นักวิจัย Reinforcement Learning
ในทางปฏิบัติ หมายความว่าตัวแทนจะสำรวจพื้นที่สถานะ-การกระทำอย่างต่อเนื่อง สังเกตผลลัพธ์ของการกระทำ และปรับกลยุทธ์เพื่อเพิ่มรางวัลในอนาคต
แนวคิดและองค์ประกอบหลัก
การเรียนรู้แบบเสริมกำลังประกอบด้วยองค์ประกอบหลักหลายอย่าง โดยทั่วไป ตัวแทน (ผู้เรียนหรือหน่วยตัดสินใจ) จะโต้ตอบกับ สภาพแวดล้อม (ระบบภายนอกหรือพื้นที่ปัญหา) โดยการทำ การกระทำ ในช่วงเวลาที่กำหนด
ในแต่ละขั้นตอน ตัวแทนจะสังเกต สถานะ ปัจจุบันของสภาพแวดล้อม ทำการกระทำ และได้รับ รางวัล (สัญญาณตอบกลับเชิงตัวเลข) จากสภาพแวดล้อม จากการโต้ตอบหลายครั้ง ตัวแทนจะพยายามเพิ่มรางวัลรวม (สะสม) ให้สูงสุด
ตัวแทน
สภาพแวดล้อม
การกระทำ
สถานะ
รางวัล
นโยบาย
ฟังก์ชันคุณค่า
แบบจำลอง (ไม่บังคับ)

การทำงานของการเรียนรู้แบบเสริมกำลัง
RL มักถูกนิยามเป็น กระบวนการตัดสินใจแบบมาร์คอฟ (MDP) ในแต่ละช่วงเวลาที่กำหนด ตัวแทนสังเกตสถานะ St และเลือกการกระทำ At จากนั้นสภาพแวดล้อมจะเปลี่ยนไปยังสถานะใหม่ St+1 และให้รางวัล Rt+1 ตามการกระทำที่ทำ
จากหลายตอน ตัวแทนสะสมประสบการณ์ในรูปแบบลำดับสถานะ–การกระทำ–รางวัล โดยวิเคราะห์ว่าการกระทำใดนำไปสู่รางวัลสูงขึ้น ตัวแทนจึงค่อย ๆ ปรับปรุงนโยบายของตน
ตัวอย่างเช่น ตัวแทน RL ที่ควบคุมหุ่นยนต์อาจมักเลือกเส้นทางที่ปลอดภัยที่พิสูจน์แล้ว (การใช้ประโยชน์) แต่บางครั้งก็ลองเส้นทางใหม่ (การสำรวจ) เพื่อค้นหาเส้นทางที่เร็วกว่า การรักษาสมดุลนี้เป็นสิ่งสำคัญในการหานโยบายที่เหมาะสม
RL "เลียนแบบกระบวนการเรียนรู้แบบลองผิดลองถูกที่มนุษย์ใช้" เด็กอาจเรียนรู้ว่าการเก็บของจะได้รับคำชม ในขณะที่การโยนของเล่นจะถูกดุ เช่นเดียวกับตัวแทน RL ที่เรียนรู้ว่าการกระทำใดให้รางวัลโดยได้รับการตอบรับเชิงบวกสำหรับการกระทำที่ดีและเชิงลบสำหรับการกระทำที่ไม่ดี
— เอกสาร AWS Machine Learning
เมื่อเวลาผ่านไป ตัวแทนจะสร้างการประมาณค่าคุณค่าหรือนโยบายที่จับลำดับการกระทำที่ดีที่สุดเพื่อบรรลุเป้าหมายระยะยาว
ในทางปฏิบัติ อัลกอริทึม RL สะสมรางวัลในแต่ละตอนและมุ่งเพิ่ม ผลตอบแทนที่คาดหวัง (ผลรวมของรางวัลในอนาคต) พวกเขาเรียนรู้ที่จะชอบการกระทำที่นำไปสู่รางวัลสูงในอนาคต แม้ว่าการกระทำนั้นอาจไม่ให้รางวัลทันทีสูงสุด ความสามารถในการวางแผนเพื่อผลประโยชน์ระยะยาวนี้ (บางครั้งยอมรับการเสียสละระยะสั้น) ทำให้ RL เหมาะกับงานตัดสินใจที่ซับซ้อนและต่อเนื่อง

ประเภทของอัลกอริทึมการเรียนรู้แบบเสริมกำลัง
มีอัลกอริทึมหลายแบบสำหรับการเรียนรู้แบบเสริมกำลัง โดยทั่วไปแบ่งเป็นสองประเภท: วิธี แบบมีแบบจำลอง และ แบบไม่มีแบบจำลอง
แนวทางวางแผน
ตัวแทนเรียนรู้หรือรู้แบบจำลองพลวัตของสภาพแวดล้อม (วิธีที่สถานะเปลี่ยนและรางวัลถูกกำหนด) จากนั้นวางแผนการกระทำโดยจำลองผลลัพธ์
- มีประสิทธิภาพกับข้อมูลจำกัด
- วางแผนล่วงหน้าได้ดี
- ต้องการแบบจำลองสภาพแวดล้อมที่แม่นยำ
ตัวอย่าง: หุ่นยนต์ที่สร้างแผนที่อาคารเพื่อหาทางลัดเป็นการใช้วิธีแบบมีแบบจำลอง
การเรียนรู้โดยตรง
ตัวแทนไม่มีแบบจำลองชัดเจนของสภาพแวดล้อมและเรียนรู้จากการลองผิดลองถูกในสภาพแวดล้อมจริงหรือจำลอง
- ไม่ต้องการแบบจำลองสภาพแวดล้อม
- ทำงานกับสภาพแวดล้อมซับซ้อนได้
- ต้องการประสบการณ์มากขึ้น
ตัวอย่าง: อัลกอริทึม RL คลาสสิกส่วนใหญ่ (เช่น Q-learning หรือ Temporal-Difference learning) เป็นแบบไม่มีแบบจำลอง
ในแต่ละประเภท อัลกอริทึมจะแตกต่างกันในวิธีแทนและปรับปรุงนโยบายหรือฟังก์ชันคุณค่า เช่น Q-learning (วิธีแบบฟังก์ชันคุณค่า) เรียนรู้การประมาณค่า "Q-value" (ผลตอบแทนที่คาดหวัง) สำหรับคู่สถานะ-การกระทำและเลือกการกระทำที่มีค่าสูงสุด
วิธี policy-gradient จะกำหนดพารามิเตอร์ของนโยบายโดยตรงและปรับพารามิเตอร์ผ่านการไต่ระดับความชันของรางวัลที่คาดหวัง วิธีขั้นสูงหลายแบบ (เช่น Actor-Critic หรือ Trust Region Policy Optimization) รวมการประมาณค่าคุณค่าและการปรับนโยบายเข้าด้วยกัน
ใน deep RL อัลกอริทึมเช่น Deep Q-Networks (DQN) หรือ Deep Policy Gradients ขยายขอบเขต RL ไปสู่ภารกิจจริงที่ซับซ้อน
อัลกอริทึม RL ที่พบบ่อยได้แก่ Q-learning, วิธี Monte Carlo, วิธี policy-gradient และ Temporal-Difference learning และ "Deep RL" หมายถึงการใช้เครือข่ายประสาทลึกในวิธีเหล่านี้
— เอกสาร AWS Machine Learning

การประยุกต์ใช้การเรียนรู้แบบเสริมกำลัง
การเรียนรู้แบบเสริมกำลังถูกนำไปใช้ในหลายสาขาที่การตัดสินใจต่อเนื่องภายใต้ความไม่แน่นอนเป็นสิ่งสำคัญ การประยุกต์หลักได้แก่:
เกมและการจำลอง
RL มีชื่อเสียงจากการชนะเกมและซิมูเลเตอร์ AlphaGo และ AlphaZero ของ DeepMind เรียนรู้เกมโกะและหมากรุกในระดับเหนือมนุษย์โดยใช้ RL
- วิดีโอเกม (Atari, StarCraft)
- เกมกระดาน (โกะ, หมากรุก)
- การจำลองฟิสิกส์
- ซิมูเลเตอร์หุ่นยนต์
หุ่นยนต์และการควบคุม
หุ่นยนต์อิสระและรถยนต์ขับเคลื่อนเองเป็นตัวแทนในสภาพแวดล้อมที่เปลี่ยนแปลง เรียนรู้ผ่านลองผิดลองถูก
- การจับและจัดการวัตถุ
- การนำทางอัตโนมัติ
- รถยนต์ขับเคลื่อนเอง
- ระบบอัตโนมัติในอุตสาหกรรม
ระบบแนะนำ
RL สามารถปรับเนื้อหาหรือโฆษณาให้เหมาะสมตามการโต้ตอบของผู้ใช้ เรียนรู้ที่จะนำเสนอสิ่งที่เกี่ยวข้องที่สุดในระยะยาว
- การปรับเนื้อหาเฉพาะบุคคล
- การเพิ่มประสิทธิภาพโฆษณา
- การแนะนำสินค้า
- การเพิ่มการมีส่วนร่วมของผู้ใช้
การเพิ่มประสิทธิภาพทรัพยากร
RL โดดเด่นในการเพิ่มประสิทธิภาพระบบที่มีเป้าหมายระยะยาวและความท้าทายในการจัดสรรทรัพยากรที่ซับซ้อน
- การเพิ่มประสิทธิภาพการระบายความร้อนศูนย์ข้อมูล
- การจัดเก็บพลังงานในโครงข่ายอัจฉริยะ
- ทรัพยากรคลาวด์คอมพิวติ้ง
- การจัดการห่วงโซ่อุปทาน
การเงินและการซื้อขาย
ตลาดการเงินมีความเปลี่ยนแปลงและต่อเนื่อง ทำให้ RL เหมาะสำหรับกลยุทธ์การซื้อขายและการบริหารพอร์ตโฟลิโอ
- กลยุทธ์การซื้อขายอัลกอริทึม
- การเพิ่มประสิทธิภาพพอร์ตโฟลิโอ
- การบริหารความเสี่ยง
- การสร้างตลาด

การเรียนรู้แบบเสริมกำลังกับการเรียนรู้ของเครื่องแบบอื่น
การเรียนรู้แบบเสริมกำลังเป็นหนึ่งในสามแนวทางหลักของการเรียนรู้ของเครื่อง (ควบคู่กับการเรียนรู้แบบมีผู้สอนและไม่มีผู้สอน) แต่มีจุดเน้นที่แตกต่างกัน การเรียนรู้แบบมีผู้สอนฝึกด้วยคู่ข้อมูลป้อนเข้า-ผลลัพธ์ที่ติดป้ายกำกับ ขณะที่การเรียนรู้แบบไม่มีผู้สอนค้นหารูปแบบในข้อมูลที่ไม่มีป้ายกำกับ
| ลักษณะ | การเรียนรู้แบบมีผู้สอน | การเรียนรู้แบบไม่มีผู้สอน | การเรียนรู้แบบเสริมกำลัง |
|---|---|---|---|
| ประเภทข้อมูล | คู่ข้อมูลป้อนเข้า-ผลลัพธ์ที่ติดป้ายกำกับ | ข้อมูลที่ไม่มีป้ายกำกับ | ลำดับสถานะ-การกระทำ-รางวัล |
| เป้าหมายการเรียนรู้ | ทำนายผลลัพธ์ที่ถูกต้อง | ค้นหารูปแบบที่ซ่อนอยู่ | เพิ่มรางวัลสะสมให้สูงสุด |
| ประเภทการตอบกลับ | คำตอบที่ถูกต้องโดยตรง | ไม่มีการตอบกลับ | สัญญาณรางวัล/การลงโทษ |
| วิธีการเรียนรู้ | เรียนรู้จากตัวอย่าง | ค้นหาโครงสร้าง | การสำรวจแบบลองผิดลองถูก |
ในทางตรงกันข้าม RL ไม่ ต้องการตัวอย่างที่ติดป้ายกำกับของพฤติกรรมที่ถูกต้อง แต่กำหนด เป้าหมาย ผ่านสัญญาณรางวัลและเรียนรู้โดยลองผิดลองถูก ใน RL "ข้อมูลฝึก" (ลำดับสถานะ-การกระทำ-รางวัล) เป็น ลำดับและพึ่งพาอาศัยกัน เพราะแต่ละการกระทำมีผลต่อสถานะในอนาคต
กล่าวง่าย ๆ การเรียนรู้แบบมีผู้สอนบอกโมเดลว่าจะทำนายอะไร ส่วนการเรียนรู้แบบเสริมกำลังสอนตัวแทนว่าจะทำอย่างไร RL เรียนรู้โดย "การเสริมกำลังเชิงบวก" (รางวัล) แทนที่จะถูกแสดงคำตอบที่ถูกต้อง
— ภาพรวมการเรียนรู้ของเครื่อง IBM
สิ่งนี้ทำให้ RL มีพลังสำหรับงานที่เกี่ยวข้องกับการตัดสินใจและการควบคุม อย่างไรก็ตามก็หมายความว่า RL อาจท้าทายกว่า: โดยไม่มีการตอบกลับที่ติดป้าย ตัวแทนต้องค้นหาการกระทำที่ดีด้วยตนเอง ซึ่งมักต้องการการสำรวจสภาพแวดล้อมอย่างมาก

ความท้าทายของการเรียนรู้แบบเสริมกำลัง
แม้จะมีพลัง แต่ RL ก็มีความท้าทายในทางปฏิบัติ:
ความไม่มีประสิทธิภาพของตัวอย่าง
การออกแบบรางวัล
ความมั่นคงและความปลอดภัย
ความสามารถในการตีความ

สรุป
โดยสรุป การเรียนรู้แบบเสริมกำลังเป็น กรอบการเรียนรู้อิสระ ที่ตัวแทนเรียนรู้ที่จะบรรลุเป้าหมายโดยการโต้ตอบกับสภาพแวดล้อมและเพิ่มรางวัลสะสมให้สูงสุด มันผสมผสานแนวคิดจากการควบคุมเชิงเหมาะสม, การเขียนโปรแกรมเชิงไดนามิก และจิตวิทยาพฤติกรรม และเป็นรากฐานของความก้าวหน้าของ AI สมัยใหม่หลายอย่าง
โดยการกำหนดปัญหาเป็นงานตัดสินใจต่อเนื่องที่มีการตอบกลับ RL ช่วยให้เครื่องจักรเรียนรู้พฤติกรรมซับซ้อนด้วยตนเอง เชื่อมช่องว่างระหว่างการเรียนรู้จากข้อมูลและการกระทำที่มุ่งเป้าหมาย