Thành tựu Trí tuệ Nhân tạo
Trí tuệ nhân tạo (AI) đã đạt được những bước tiến đáng kể trong những năm gần đây, biến đổi các ngành từ chăm sóc sức khỏe và tài chính đến nghệ thuật và giải trí. Từ các mô hình ngôn ngữ tạo sinh có khả năng viết văn bản giống con người đến các hệ thống AI làm chủ các trò chơi phức tạp và nghiên cứu khoa học, những thành tựu này thể hiện sự phát triển nhanh chóng của trí thông minh máy móc. Trong bài viết này, chúng tôi khám phá những đột phá AI ấn tượng nhất gần đây, làm nổi bật tác động, ứng dụng tiềm năng và tương lai của đổi mới AI.
Trong nhiều năm (2023–2025), trí tuệ nhân tạo đã tiến bộ vượt bậc trên nhiều lĩnh vực. Các mô hình ngôn ngữ lớn (LLMs) và chatbot, hệ thống đa phương thức, công cụ AI khoa học và robot đều ghi nhận những đột phá.
Các ông lớn công nghệ ra mắt trợ lý AI mới, cộng đồng mã nguồn mở phát hành các mô hình mạnh mẽ, và cả các cơ quan quản lý cũng bắt đầu giải quyết tác động của AI.
Dưới đây là tổng quan về những thành tựu nổi bật nhất, từ các mở rộng GPT-4 và Google Gemini đến giải Nobel của AlphaFold và các khám phá khoa học, nghệ thuật do AI dẫn dắt.
Mô hình Ngôn ngữ Tạo sinh và Chatbot
LLM hiện đại trở nên mạnh mẽ hơn và đa phương thức. GPT-4 Turbo của OpenAI (công bố tháng 11/2023) hiện có thể xử lý 128.000 token trong một lần nhập (khoảng 300 trang văn bản) và chi phí vận hành thấp hơn nhiều so với GPT-4.
GPT-4o đại diện cho bước chuyển mình căn bản sang AI đa phương thức thực sự, có thể xử lý văn bản, hình ảnh và âm thanh trong các cuộc trò chuyện thời gian thực.
— Nhóm Nghiên cứu OpenAI, tháng 5/2024
Tháng 5/2024, OpenAI giới thiệu GPT-4o (Omni), mô hình nâng cấp có khả năng xử lý văn bản, hình ảnh và âm thanh trong thời gian thực – thực chất mang lại cho GPT-4 khả năng "nhìn và nghe" trong hội thoại. ChatGPT hiện có tính năng hình ảnh và giọng nói tích hợp: người dùng có thể tải ảnh lên hoặc nói chuyện với bot, và nó sẽ phản hồi dựa trên đầu vào hình ảnh hoặc âm thanh đó.
GPT-4 Turbo & GPT-4o
GPT-4 Turbo (tháng 11/2023): Giảm chi phí và mở rộng độ dài ngữ cảnh lên 128K token.
GPT-4o (tháng 5/2024): Biến AI thành đa phương thức thực sự, tạo ra văn bản, giọng nói và hình ảnh thay thế nhau với tốc độ gần như con người.
Tiến hóa ChatGPT
Đến cuối 2023, ChatGPT "có thể nhìn, nghe và nói" – hình ảnh và âm thanh có thể được tải lên hoặc nói như các câu lệnh đầu vào.
Tích hợp DALL·E 3 (tháng 10/2023) để tạo hình ảnh qua hội thoại.
Dòng Gemini của Google
Tháng 12/2024, Google DeepMind ra mắt các mô hình Gemini 2.0 đầu tiên ("Flash" và các nguyên mẫu) được thiết kế cho "kỷ nguyên tác nhân" – AI có thể tự động thực hiện các nhiệm vụ đa bước.
- Thử nghiệm với hơn 1 tỷ người dùng
 - Nâng cao khả năng suy luận
 - Khả năng đa phương thức tiên tiến
 
Mô hình Mã nguồn mở & Doanh nghiệp
Meta phát hành LLaMA 3 vào tháng 4/2024 (LLM trọng số mở lên đến 400 tỷ tham số) tuyên bố hiệu suất vượt trội.
- Tiến bộ Claude 3 của Anthropic
 - Tích hợp Microsoft Copilot
 - API trợ lý OpenAI
 
Chúng cũng hỗ trợ các ứng dụng "trợ lý" mới qua API (như "AI Overviews" của Google, API trợ lý của OpenAI...), giúp AI dễ tiếp cận hơn với nhà phát triển và người dùng cuối.

Tiến bộ AI Đa phương thức & Sáng tạo
Khả năng sáng tạo và hiểu biết hình ảnh của AI bùng nổ. Các mô hình chuyển văn bản thành hình ảnh và chuyển văn bản thành video đạt đến tầm cao mới:
DALL·E 3 của OpenAI (tháng 10/2023) tạo ra hình ảnh chân thực từ các câu lệnh và còn được tích hợp với ChatGPT để hướng dẫn viết câu lệnh.
Google giới thiệu Imagen 3 (tháng 10/2024) và Veo 2 (tháng 12/2024) – các công cụ chuyển văn bản thành hình ảnh và video hàng đầu – cải thiện đáng kể chất lượng, chi tiết và tính nhất quán trong nghệ thuật và video AI.
Ngay cả AI âm nhạc cũng được cải tiến với công cụ MusicFX của Google và các nghiên cứu liên quan (ví dụ thí nghiệm MusicLM).
Khả năng Tạo sinh Tiên tiến
- DALL·E 3 và Imagen 3: Có thể theo dõi các câu lệnh tinh tế (bao gồm cả văn bản nhúng trong hình ảnh) với độ chính xác cao
 - Veo 2 của Google: Tạo các đoạn video ngắn từ mô tả văn bản đơn, đánh dấu bước tiến lớn trong tổng hợp video
 - Stable Diffusion và Midjourney: Phát hành các phiên bản mới hơn (v3, v6) với tính chân thực nâng cao trong suốt năm 2024
 
Tích hợp Trí tuệ Apple
Apple ra mắt Apple Intelligence (trong iOS 18 và macOS 15, cuối 2024) – AI tạo sinh tích hợp sẵn trên iPhone/iPad/Mac.
Viết & Giao tiếp
- Viết lại, hiệu đính, tóm tắt trong Mail/Pages
 - Nâng cao khả năng Siri
 - Xử lý ngôn ngữ tự nhiên
 
Công cụ Hình ảnh & Sáng tạo
- Image Playground: Tạo minh họa qua văn bản
 - Genmoji: Emoji tùy chỉnh do AI tạo
 - Clean Up: Loại bỏ vật thể không mong muốn khỏi ảnh
 
Thành tựu Lịch sử Thị trường Nghệ thuật
Một ví dụ nổi bật: tháng 11/2024 Sotheby's bán bức tranh đầu tiên do robot hình người vẽ.
Bán Nghệ thuật AI Phá kỷ lục
Bức chân dung Alan Turing do robot AI Ai-Da vẽ được bán với giá 1,08 triệu USD.
Giao dịch phá kỷ lục này ("A.I. God: Portrait of Alan Turing") nhấn mạnh vai trò ngày càng tăng của AI trong sáng tạo và tác động văn hóa của nó.
Nghệ thuật AI Sơ khai
- Đầu ra tập trung vào sự mới lạ
 - Hình ảnh siêu thực, trừu tượng
 - Ứng dụng thực tiễn hạn chế
 - Chỉ chuyển văn bản thành hình ảnh cơ bản
 
Sáng tạo AI Hiện đại
- Tạo hình ảnh hữu ích (logo, sơ đồ, bản đồ)
 - Chân thực như người
 - Quy trình sáng tạo tích hợp
 - Khả năng đa phương thức
 
Tổng thể, các mô hình tạo sinh đang dân chủ hóa sáng tạo: bất kỳ ai giờ cũng có thể tạo ra nghệ thuật, âm nhạc hoặc video chỉ với vài từ. Trọng tâm ngành đã chuyển từ sự mới lạ đơn thuần (hình ảnh siêu thực) sang tạo hình ảnh hữu ích (logo, sơ đồ, bản đồ) và chân thực như người.
(Tháng 3/2025 OpenAI còn phát hành "4o Image Generation", tích hợp mô hình hình ảnh tốt nhất vào GPT-4o để tạo ra sản phẩm chính xác, chân thực theo hội thoại.)
Những công cụ này nhanh chóng được tích hợp vào ứng dụng, trình duyệt và quy trình sáng tạo.

AI trong Khoa học, Y học và Toán học
Thành tựu AI thúc đẩy khám phá khoa học và tiến bộ nghiên cứu:
AlphaFold 3 – Đột phá Dự đoán Sinh học Phân tử
Tháng 11/2024 Google DeepMind (cùng Isomorphic Labs) giới thiệu AlphaFold 3, mô hình mới dự đoán cấu trúc 3D của tất cả các phân tử sinh học (protein, DNA, RNA, ligand, v.v.) đồng thời, với độ chính xác chưa từng có.
Nhà phát triển ngay lập tức phát hành AlphaFold Server miễn phí để các nhà nghiên cứu toàn cầu có thể dự đoán cấu trúc phân tử. Điều này mở rộng dự đoán chỉ protein của AlphaFold 2 và dự kiến sẽ thay đổi nghiên cứu phát triển thuốc và genomics.
AlphaProteo – Thiết kế Thuốc
Cũng trong 2024, DeepMind công bố AlphaProteo, AI thiết kế các protein liên kết mới – các phân tử liên kết mạnh với protein mục tiêu.
- Thúc đẩy tạo kháng thể
 - Phát triển cảm biến sinh học
 - Tạo tiền chất thuốc
 - Tạo cấu trúc protein cho mục tiêu cụ thể
 
Toán học – AlphaGeometry
DeepMind với AlphaGeometry và AlphaProof chứng minh một đột phá khác.
- 19 giây để giải bài toán Olympic Toán học Quốc tế
 - Hiệu suất cấp huy chương bạc
 - Khả năng toán học trung học nâng cao
 
Đột phá Máy tính Lượng tử – AlphaQubit & Willow
AI cũng cải thiện phần cứng tiên tiến. Năm 2024 Google công bố AlphaQubit, bộ giải mã AI nhận diện lỗi trong máy tính lượng tử (ví dụ chip Sycamore của Google) tốt hơn nhiều phương pháp trước.
Rồi tháng 12/2024 Google ra mắt Willow, chip lượng tử mới dùng sửa lỗi nâng cao, giải bài toán chuẩn trong chưa đầy 5 phút, trong khi siêu máy tính tốt nhất hiện nay cần ~10^24 năm.
Med-Gemini đại diện cho bước nhảy vọt quan trọng trong khả năng AI y tế, đạt độ chính xác 91,1% trên các chuẩn đánh giá y khoa Mỹ – hiệu suất vượt xa các mô hình trước đó.
— Nhóm Nghiên cứu AI Y tế Google, 2024
Trong y học và sức khỏe, các mô hình AI cũng tiến bộ. Ví dụ, Med-Gemini mới của Google (được tinh chỉnh trên dữ liệu y tế) đạt 91,1% trên chuẩn đánh giá y khoa Mỹ (kiểu USMLE), vượt xa các mô hình trước.
Các công cụ AI hỗ trợ chẩn đoán hình ảnh và bệnh lý (ví dụ Derm và Path Foundations) được phát hành để cải thiện phân tích hình ảnh. Tổng thể, AI giờ là đối tác nghiên cứu không thể thiếu – từ bản đồ não người ở cấp độ nano (với hình ảnh EM hỗ trợ AI) đến tăng tốc sàng lọc lao ở châu Phi, theo báo cáo của các nhà nghiên cứu Google.

AI trong Robot và Tự động hóa
Robot được trang bị AI đang học các nhiệm vụ phức tạp trong thế giới thực.
Robot hình người Optimus của Tesla được trình diễn công khai tháng 10/2024 ("Sự kiện We, Robot"). Hàng chục robot Optimus đi bộ, đứng và thậm chí nhảy múa trên sân khấu – dù các báo cáo sau đó cho biết các màn trình diễn ban đầu có phần điều khiển từ xa bởi con người.
Tuy nhiên, sự kiện này làm nổi bật tiến bộ nhanh chóng hướng tới robot đa năng.
Robot ALOHA của DeepMind
Phòng thí nghiệm AI của Google đạt tiến bộ ấn tượng trong robot gia đình. Năm 2024, robot ALOHA (Trợ lý Gia đình Chân tự động Tự chủ) học cách buộc dây giày, treo áo, sửa robot khác, lắp bánh răng và thậm chí dọn bếp chỉ bằng lập kế hoạch và thị giác AI.
Bộ mã nguồn mở "ALOHA Unleashed" cho thấy robot phối hợp hai tay thực hiện nhiệm vụ, lần đầu tiên trong thao tác đa năng.
Robotic Transformers
DeepMind giới thiệu RT-2 (Robotic Transformer 2), mô hình thị giác-ngôn ngữ-hành động có thể học từ cả hình ảnh internet và dữ liệu robot thực tế.
RT-2 cho phép robot hiểu chỉ dẫn như con người bằng cách tận dụng kiến thức web. Nó được trình diễn giúp robot phân loại vật thể theo lệnh văn bản.
Ứng dụng Công nghiệp
Các công ty khác cũng tiến bộ: Boston Dynamics tiếp tục hoàn thiện robot Atlas và Spot (dù không có đột phá nổi bật), và xe tự hành AI cải thiện (bản Beta Full Self-Driving của Tesla được triển khai rộng hơn, dù tự chủ hoàn toàn vẫn chưa giải quyết được).
Trong sản xuất, các công ty AI như Figure AI huy động vốn để xây dựng robot gia đình làm việc nhà.
Giai đoạn Trình diễn
- Trình diễn điều khiển ấn tượng
 - Học nhiệm vụ cụ thể
 - Triển khai thực tế hạn chế
 - Cần giám sát con người
 
Tự chủ Hoàn toàn
- Hợp tác an toàn với con người
 - Khả năng đa năng
 - Hoạt động đáng tin cậy trong thực tế
 - Triển khai quy mô lớn
 
Những nỗ lực này cho thấy robot thực hiện các nhiệm vụ ngày càng khó mà không cần lập trình rõ ràng. Tuy nhiên, robot hình người tự chủ hoàn toàn vẫn còn ở phía trước.
Các trình diễn (Optimus, ALOHA, RT-2) là cột mốc, nhưng các nhà nghiên cứu cảnh báo còn nhiều việc phải làm trước khi robot có thể làm việc an toàn và tin cậy cùng con người trên quy mô lớn.

AI trong Sản phẩm, Công nghiệp và Xã hội
Tác động của AI mở rộng đến sản phẩm hàng ngày và cả chính sách:
Tích hợp AI trong Công nghệ Hàng ngày
Các sản phẩm công nghệ lớn tích hợp các tác nhân AI. Microsoft Copilot (nhúng trong Windows, Office, Bing) và Google Bard/Bard AI trong Tìm kiếm (dựa trên Gemini) mang sức mạnh LLM đến người dùng.
Thiết bị Apple có Apple Intelligence (như trên) và các nhà sản xuất phần cứng như Nvidia bán số lượng GPU AI kỷ lục, cung cấp sức mạnh cho cả đám mây và AI tiêu dùng.
Luật AI EU - Luật AI Toàn diện Đầu tiên
Phản ánh tầm ảnh hưởng của AI, các cơ quan quản lý cũng hành động. Ngày 1 tháng 8 năm 2024, Luật AI EU có hiệu lực, là luật AI toàn diện đầu tiên.
Khung Rủi ro
- AI rủi ro thấp: Quy tắc tối thiểu (lọc thư rác, trò chơi điện tử)
 - Quy tắc minh bạch: Hệ thống AI phải công khai là AI
 - AI rủi ro cao: Giám sát nghiêm ngặt (y tế, công cụ tuyển dụng)
 - AI không chấp nhận được: Cấm (điểm xã hội chính phủ)
 
Tác động Toàn cầu
Bộ quy tắc này (cùng với hướng dẫn sắp tới về mô hình đa năng) là thành tựu lớn trong quản trị AI và có khả năng ảnh hưởng đến tiêu chuẩn toàn cầu.
Đầu tư và Định giá Lịch sử
Ngành AI chứng kiến các vòng gọi vốn và định giá lịch sử:
| Công ty | Thành tựu | Giá trị/Tác động | Ý nghĩa | 
|---|---|---|---|
| OpenAI | Định giá | 157 tỷ USD | Kỷ lục | 
| NVIDIA | Vốn hóa Thị trường | Trên 3,5 nghìn tỷ USD | Lãnh đạo Phần cứng AI | 
| Nhiều Startup | Vòng Gọi Vốn | Hàng tỷ USD | Giai đoạn Tăng trưởng | 
Những con số này nhấn mạnh AI đã trở thành trung tâm của nền kinh tế công nghệ.

Nhìn về Tương lai: Tác động Biến đổi của AI
Tóm lại, AI không còn bị giới hạn trong phòng thí nghiệm hay các bản trình diễn mới lạ – nó đã được tích hợp trong điện thoại, ô tô, nơi làm việc và chính sách công.
Cuộc Cách mạng Kiến thức
Khả năng kiến thức rộng lớn của GPT-4 thể hiện tiềm năng của AI như trợ lý kiến thức toàn diện.
Đột phá Khoa học
Các cuộc cách mạng khoa học của AlphaFold cho thấy sức mạnh AI trong thúc đẩy khám phá và nghiên cứu của con người.
Tích hợp Hàng ngày
AI ngày càng được tích hợp liền mạch vào công cụ và quy trình làm việc hàng ngày của chúng ta.
Những tiến bộ trên – từ kiến thức rộng lớn của GPT-4 đến các cuộc cách mạng khoa học của AlphaFold – thể hiện sự trưởng thành nhanh chóng của AI.
Khi bước sang năm 2025, những thành tựu này báo hiệu các ứng dụng AI mạnh mẽ và thiết thực hơn trong cuộc sống hàng ngày của chúng ta.