Thành tựu Trí tuệ Nhân tạo

Trí tuệ nhân tạo (AI) đã đạt được những bước tiến đáng kể trong những năm gần đây, biến đổi các ngành từ chăm sóc sức khỏe và tài chính đến nghệ thuật và giải trí. Từ các mô hình ngôn ngữ tạo sinh có khả năng viết văn bản giống con người đến các hệ thống AI làm chủ các trò chơi phức tạp và nghiên cứu khoa học, những thành tựu này thể hiện sự phát triển nhanh chóng của trí thông minh máy móc. Trong bài viết này, chúng tôi khám phá những đột phá AI ấn tượng nhất gần đây, làm nổi bật tác động, ứng dụng tiềm năng và tương lai của đổi mới AI.

Trong nhiều năm (2023–2025), trí tuệ nhân tạo đã tiến bộ vượt bậc trên nhiều lĩnh vực. Các mô hình ngôn ngữ lớn (LLMs) và chatbot, hệ thống đa phương thức, công cụ AI khoa học và robot đều ghi nhận những đột phá.

Dòng thời gian Cách mạng AI: Giai đoạn từ 2023-2025 đánh dấu sự tăng tốc đáng kể nhất về khả năng AI trên nhiều lĩnh vực cùng lúc.

Các ông lớn công nghệ ra mắt trợ lý AI mới, cộng đồng mã nguồn mở phát hành các mô hình mạnh mẽ, và cả các cơ quan quản lý cũng bắt đầu giải quyết tác động của AI.

Dưới đây là tổng quan về những thành tựu nổi bật nhất, từ các mở rộng GPT-4 và Google Gemini đến giải Nobel của AlphaFold và các khám phá khoa học, nghệ thuật do AI dẫn dắt.

Mục lục

1. Mô hình Ngôn ngữ Tạo sinh và Chatbot
- 1.1. GPT-4 Turbo & GPT-4o
- 1.2. Tiến hóa ChatGPT
2. Tiến bộ AI Đa phương thức & Sáng tạo
3. AI trong Khoa học, Y học và Toán học
- 3.1. AlphaFold 3 – Đột phá Dự đoán Sinh học Phân tử
4. AI trong Robot và Tự động hóa
5. AI trong Sản phẩm, Công nghiệp và Xã hội
6. Nhìn về Tương lai: Tác động Biến đổi của AI

Mô hình Ngôn ngữ Tạo sinh và Chatbot

LLM hiện đại trở nên mạnh mẽ hơn và đa phương thức. GPT-4 Turbo của OpenAI (công bố tháng 11/2023) hiện có thể xử lý 128.000 token trong một lần nhập (khoảng 300 trang văn bản) và chi phí vận hành thấp hơn nhiều so với GPT-4.

GPT-4o đại diện cho bước chuyển mình căn bản sang AI đa phương thức thực sự, có thể xử lý văn bản, hình ảnh và âm thanh trong các cuộc trò chuyện thời gian thực.
— Nhóm Nghiên cứu OpenAI, tháng 5/2024

Tháng 5/2024, OpenAI giới thiệu GPT-4o (Omni), mô hình nâng cấp có khả năng xử lý văn bản, hình ảnh và âm thanh trong thời gian thực – thực chất mang lại cho GPT-4 khả năng "nhìn và nghe" trong hội thoại. ChatGPT hiện có tính năng hình ảnh và giọng nói tích hợp: người dùng có thể tải ảnh lên hoặc nói chuyện với bot, và nó sẽ phản hồi dựa trên đầu vào hình ảnh hoặc âm thanh đó.

GPT-4 Turbo & GPT-4o

GPT-4 Turbo (tháng 11/2023): Giảm chi phí và mở rộng độ dài ngữ cảnh lên 128K token.

GPT-4o (tháng 5/2024): Biến AI thành đa phương thức thực sự, tạo ra văn bản, giọng nói và hình ảnh thay thế nhau với tốc độ gần như con người.

Tiến hóa ChatGPT

Đến cuối 2023, ChatGPT "có thể nhìn, nghe và nói" – hình ảnh và âm thanh có thể được tải lên hoặc nói như các câu lệnh đầu vào.

Tích hợp DALL·E 3 (tháng 10/2023) để tạo hình ảnh qua hội thoại.

Dòng Gemini của Google

Tháng 12/2024, Google DeepMind ra mắt các mô hình Gemini 2.0 đầu tiên ("Flash" và các nguyên mẫu) được thiết kế cho "kỷ nguyên tác nhân" – AI có thể tự động thực hiện các nhiệm vụ đa bước.

Thử nghiệm với hơn 1 tỷ người dùng
Nâng cao khả năng suy luận
Khả năng đa phương thức tiên tiến

Mô hình Mã nguồn mở & Doanh nghiệp

Meta phát hành LLaMA 3 vào tháng 4/2024 (LLM trọng số mở lên đến 400 tỷ tham số) tuyên bố hiệu suất vượt trội.

Tiến bộ Claude 3 của Anthropic
Tích hợp Microsoft Copilot
API trợ lý OpenAI

Tác động đến Khả năng tiếp cận: Những đổi mới này giúp trợ lý AI duy trì các cuộc hội thoại dài hơn, phong phú hơn và xử lý đa dạng đầu vào, làm AI dễ tiếp cận hơn với nhà phát triển và người dùng cuối qua API và ứng dụng tích hợp.

Chúng cũng hỗ trợ các ứng dụng "trợ lý" mới qua API (như "AI Overviews" của Google, API trợ lý của OpenAI...), giúp AI dễ tiếp cận hơn với nhà phát triển và người dùng cuối.

Mô hình ngôn ngữ tạo sinh tiên tiến và giao diện chatbot

Tiến bộ AI Đa phương thức & Sáng tạo

Khả năng sáng tạo và hiểu biết hình ảnh của AI bùng nổ. Các mô hình chuyển văn bản thành hình ảnh và chuyển văn bản thành video đạt đến tầm cao mới:

DALL·E 3 của OpenAI (tháng 10/2023) tạo ra hình ảnh chân thực từ các câu lệnh và còn được tích hợp với ChatGPT để hướng dẫn viết câu lệnh.

Google giới thiệu Imagen 3 (tháng 10/2024) và Veo 2 (tháng 12/2024) – các công cụ chuyển văn bản thành hình ảnh và video hàng đầu – cải thiện đáng kể chất lượng, chi tiết và tính nhất quán trong nghệ thuật và video AI.

Ngay cả AI âm nhạc cũng được cải tiến với công cụ MusicFX của Google và các nghiên cứu liên quan (ví dụ thí nghiệm MusicLM).

Khả năng Tạo sinh Tiên tiến

DALL·E 3 và Imagen 3: Có thể theo dõi các câu lệnh tinh tế (bao gồm cả văn bản nhúng trong hình ảnh) với độ chính xác cao
Veo 2 của Google: Tạo các đoạn video ngắn từ mô tả văn bản đơn, đánh dấu bước tiến lớn trong tổng hợp video
Stable Diffusion và Midjourney: Phát hành các phiên bản mới hơn (v3, v6) với tính chân thực nâng cao trong suốt năm 2024

Tích hợp Trí tuệ Apple

Apple ra mắt Apple Intelligence (trong iOS 18 và macOS 15, cuối 2024) – AI tạo sinh tích hợp sẵn trên iPhone/iPad/Mac.

Viết & Giao tiếp

Viết lại, hiệu đính, tóm tắt trong Mail/Pages
Nâng cao khả năng Siri
Xử lý ngôn ngữ tự nhiên

Công cụ Hình ảnh & Sáng tạo

Image Playground: Tạo minh họa qua văn bản
Genmoji: Emoji tùy chỉnh do AI tạo
Clean Up: Loại bỏ vật thể không mong muốn khỏi ảnh

Tập trung vào Quyền riêng tư: Cách tiếp cận của Apple nhấn mạnh xử lý trên thiết bị và bảo vệ quyền riêng tư, thiết lập tiêu chuẩn mới cho tích hợp AI tiêu dùng.

Thành tựu Lịch sử Thị trường Nghệ thuật

Một ví dụ nổi bật: tháng 11/2024 Sotheby's bán bức tranh đầu tiên do robot hình người vẽ.

Bán Nghệ thuật AI Phá kỷ lục

Bức chân dung Alan Turing do robot AI Ai-Da vẽ được bán với giá 1,08 triệu USD.

Giao dịch phá kỷ lục này ("A.I. God: Portrait of Alan Turing") nhấn mạnh vai trò ngày càng tăng của AI trong sáng tạo và tác động văn hóa của nó.

Trước 2023

Nghệ thuật AI Sơ khai

Đầu ra tập trung vào sự mới lạ
Hình ảnh siêu thực, trừu tượng
Ứng dụng thực tiễn hạn chế
Chỉ chuyển văn bản thành hình ảnh cơ bản

2023-2025

Sáng tạo AI Hiện đại

Tạo hình ảnh hữu ích (logo, sơ đồ, bản đồ)
Chân thực như người
Quy trình sáng tạo tích hợp
Khả năng đa phương thức

Tổng thể, các mô hình tạo sinh đang dân chủ hóa sáng tạo: bất kỳ ai giờ cũng có thể tạo ra nghệ thuật, âm nhạc hoặc video chỉ với vài từ. Trọng tâm ngành đã chuyển từ sự mới lạ đơn thuần (hình ảnh siêu thực) sang tạo hình ảnh hữu ích (logo, sơ đồ, bản đồ) và chân thực như người.

(Tháng 3/2025 OpenAI còn phát hành "4o Image Generation", tích hợp mô hình hình ảnh tốt nhất vào GPT-4o để tạo ra sản phẩm chính xác, chân thực theo hội thoại.)

Những công cụ này nhanh chóng được tích hợp vào ứng dụng, trình duyệt và quy trình sáng tạo.

Tiến bộ công nghệ AI đa phương thức và sáng tạo

AI trong Khoa học, Y học và Toán học

Thành tựu AI thúc đẩy khám phá khoa học và tiến bộ nghiên cứu:

AlphaFold 3 – Đột phá Dự đoán Sinh học Phân tử

Tháng 11/2024 Google DeepMind (cùng Isomorphic Labs) giới thiệu AlphaFold 3, mô hình mới dự đoán cấu trúc 3D của tất cả các phân tử sinh học (protein, DNA, RNA, ligand, v.v.) đồng thời, với độ chính xác chưa từng có.

Cải thiện độ chính xác tương tác Protein-Thuốc 50%

Nhà phát triển ngay lập tức phát hành AlphaFold Server miễn phí để các nhà nghiên cứu toàn cầu có thể dự đoán cấu trúc phân tử. Điều này mở rộng dự đoán chỉ protein của AlphaFold 2 và dự kiến sẽ thay đổi nghiên cứu phát triển thuốc và genomics.

Giải Nobel Công nhận: Tầm quan trọng của tiến bộ này được nhấn mạnh bằng Giải Nobel Hóa học 2024. Demis Hassabis và John Jumper (DeepMind) cùng David Baker chia sẻ giải thưởng cho phát triển AlphaFold (AI gấp protein). Ủy ban Nobel ghi nhận AlphaFold "mở ra khả năng hoàn toàn mới" trong thiết kế protein.

AlphaProteo – Thiết kế Thuốc

Cũng trong 2024, DeepMind công bố AlphaProteo, AI thiết kế các protein liên kết mới – các phân tử liên kết mạnh với protein mục tiêu.

Thúc đẩy tạo kháng thể
Phát triển cảm biến sinh học
Tạo tiền chất thuốc
Tạo cấu trúc protein cho mục tiêu cụ thể

Toán học – AlphaGeometry

DeepMind với AlphaGeometry và AlphaProof chứng minh một đột phá khác.

19 giây để giải bài toán Olympic Toán học Quốc tế
Hiệu suất cấp huy chương bạc
Khả năng toán học trung học nâng cao

Đột phá Máy tính Lượng tử – AlphaQubit & Willow

AI cũng cải thiện phần cứng tiên tiến. Năm 2024 Google công bố AlphaQubit, bộ giải mã AI nhận diện lỗi trong máy tính lượng tử (ví dụ chip Sycamore của Google) tốt hơn nhiều phương pháp trước.

Rồi tháng 12/2024 Google ra mắt Willow, chip lượng tử mới dùng sửa lỗi nâng cao, giải bài toán chuẩn trong chưa đầy 5 phút, trong khi siêu máy tính tốt nhất hiện nay cần ~10^24 năm.

Giải thưởng: Những tiến bộ này giúp Willow nhận giải "Đột phá Vật lý của Năm 2024", nhấn mạnh vai trò AI trong tiến bộ lượng tử.

Med-Gemini đại diện cho bước nhảy vọt quan trọng trong khả năng AI y tế, đạt độ chính xác 91,1% trên các chuẩn đánh giá y khoa Mỹ – hiệu suất vượt xa các mô hình trước đó.
— Nhóm Nghiên cứu AI Y tế Google, 2024

Trong y học và sức khỏe, các mô hình AI cũng tiến bộ. Ví dụ, Med-Gemini mới của Google (được tinh chỉnh trên dữ liệu y tế) đạt 91,1% trên chuẩn đánh giá y khoa Mỹ (kiểu USMLE), vượt xa các mô hình trước.

Các công cụ AI hỗ trợ chẩn đoán hình ảnh và bệnh lý (ví dụ Derm và Path Foundations) được phát hành để cải thiện phân tích hình ảnh. Tổng thể, AI giờ là đối tác nghiên cứu không thể thiếu – từ bản đồ não người ở cấp độ nano (với hình ảnh EM hỗ trợ AI) đến tăng tốc sàng lọc lao ở châu Phi, theo báo cáo của các nhà nghiên cứu Google.

Ứng dụng AI trong nghiên cứu khoa học, chẩn đoán y tế và giải toán

AI trong Robot và Tự động hóa

Robot được trang bị AI đang học các nhiệm vụ phức tạp trong thế giới thực.

Robot hình người Optimus của Tesla được trình diễn công khai tháng 10/2024 ("Sự kiện We, Robot"). Hàng chục robot Optimus đi bộ, đứng và thậm chí nhảy múa trên sân khấu – dù các báo cáo sau đó cho biết các màn trình diễn ban đầu có phần điều khiển từ xa bởi con người.

Kiểm tra Thực tế: Mặc dù trình diễn Optimus ấn tượng, các báo cáo sau tiết lộ các màn trình diễn ban đầu có phần điều khiển từ xa bởi con người, cho thấy khoảng cách giữa trình diễn và tự chủ hoàn toàn.

Tuy nhiên, sự kiện này làm nổi bật tiến bộ nhanh chóng hướng tới robot đa năng.

Robot ALOHA của DeepMind

Phòng thí nghiệm AI của Google đạt tiến bộ ấn tượng trong robot gia đình. Năm 2024, robot ALOHA (Trợ lý Gia đình Chân tự động Tự chủ) học cách buộc dây giày, treo áo, sửa robot khác, lắp bánh răng và thậm chí dọn bếp chỉ bằng lập kế hoạch và thị giác AI.

Bộ mã nguồn mở "ALOHA Unleashed" cho thấy robot phối hợp hai tay thực hiện nhiệm vụ, lần đầu tiên trong thao tác đa năng.

Robotic Transformers

DeepMind giới thiệu RT-2 (Robotic Transformer 2), mô hình thị giác-ngôn ngữ-hành động có thể học từ cả hình ảnh internet và dữ liệu robot thực tế.

RT-2 cho phép robot hiểu chỉ dẫn như con người bằng cách tận dụng kiến thức web. Nó được trình diễn giúp robot phân loại vật thể theo lệnh văn bản.

Ứng dụng Công nghiệp

Các công ty khác cũng tiến bộ: Boston Dynamics tiếp tục hoàn thiện robot Atlas và Spot (dù không có đột phá nổi bật), và xe tự hành AI cải thiện (bản Beta Full Self-Driving của Tesla được triển khai rộng hơn, dù tự chủ hoàn toàn vẫn chưa giải quyết được).

Trong sản xuất, các công ty AI như Figure AI huy động vốn để xây dựng robot gia đình làm việc nhà.

Tình trạng Hiện tại

Giai đoạn Trình diễn

Trình diễn điều khiển ấn tượng
Học nhiệm vụ cụ thể
Triển khai thực tế hạn chế
Cần giám sát con người

Tầm nhìn Tương lai

Tự chủ Hoàn toàn

Hợp tác an toàn với con người
Khả năng đa năng
Hoạt động đáng tin cậy trong thực tế
Triển khai quy mô lớn

Những nỗ lực này cho thấy robot thực hiện các nhiệm vụ ngày càng khó mà không cần lập trình rõ ràng. Tuy nhiên, robot hình người tự chủ hoàn toàn vẫn còn ở phía trước.

Các trình diễn (Optimus, ALOHA, RT-2) là cột mốc, nhưng các nhà nghiên cứu cảnh báo còn nhiều việc phải làm trước khi robot có thể làm việc an toàn và tin cậy cùng con người trên quy mô lớn.

Hệ thống robot và tự động hóa tiên tiến được trang bị AI

AI trong Sản phẩm, Công nghiệp và Xã hội

Tác động của AI mở rộng đến sản phẩm hàng ngày và cả chính sách:

Tích hợp AI trong Công nghệ Hàng ngày

Các sản phẩm công nghệ lớn tích hợp các tác nhân AI. Microsoft Copilot (nhúng trong Windows, Office, Bing) và Google Bard/Bard AI trong Tìm kiếm (dựa trên Gemini) mang sức mạnh LLM đến người dùng.

Thiết bị Apple có Apple Intelligence (như trên) và các nhà sản xuất phần cứng như Nvidia bán số lượng GPU AI kỷ lục, cung cấp sức mạnh cho cả đám mây và AI tiêu dùng.

Dẫn đầu Thị trường: Nvidia trở thành công ty có giá trị nhất thế giới năm 2024 nhờ bùng nổ AI, thể hiện tác động kinh tế khổng lồ của hạ tầng AI.

Luật AI EU - Luật AI Toàn diện Đầu tiên

Phản ánh tầm ảnh hưởng của AI, các cơ quan quản lý cũng hành động. Ngày 1 tháng 8 năm 2024, Luật AI EU có hiệu lực, là luật AI toàn diện đầu tiên.

Khung Rủi ro

AI rủi ro thấp: Quy tắc tối thiểu (lọc thư rác, trò chơi điện tử)
Quy tắc minh bạch: Hệ thống AI phải công khai là AI
AI rủi ro cao: Giám sát nghiêm ngặt (y tế, công cụ tuyển dụng)
AI không chấp nhận được: Cấm (điểm xã hội chính phủ)

Tác động Toàn cầu

Bộ quy tắc này (cùng với hướng dẫn sắp tới về mô hình đa năng) là thành tựu lớn trong quản trị AI và có khả năng ảnh hưởng đến tiêu chuẩn toàn cầu.

Đầu tư và Định giá Lịch sử

Ngành AI chứng kiến các vòng gọi vốn và định giá lịch sử:

Công ty	Thành tựu	Giá trị/Tác động	Ý nghĩa
OpenAI	Định giá	157 tỷ USD	Kỷ lục
NVIDIA	Vốn hóa Thị trường	Trên 3,5 nghìn tỷ USD	Lãnh đạo Phần cứng AI
Nhiều Startup	Vòng Gọi Vốn	Hàng tỷ USD	Giai đoạn Tăng trưởng

Những con số này nhấn mạnh AI đã trở thành trung tâm của nền kinh tế công nghệ.

AI trong Sản phẩm, Công nghiệp và Xã hội

Tích hợp AI trong sản phẩm tiêu dùng, ứng dụng công nghiệp và khung xã hội

Nhìn về Tương lai: Tác động Biến đổi của AI

Tóm lại, AI không còn bị giới hạn trong phòng thí nghiệm hay các bản trình diễn mới lạ – nó đã được tích hợp trong điện thoại, ô tô, nơi làm việc và chính sách công.

Cuộc Cách mạng Kiến thức

Khả năng kiến thức rộng lớn của GPT-4 thể hiện tiềm năng của AI như trợ lý kiến thức toàn diện.

Đột phá Khoa học

Các cuộc cách mạng khoa học của AlphaFold cho thấy sức mạnh AI trong thúc đẩy khám phá và nghiên cứu của con người.

Tích hợp Hàng ngày

AI ngày càng được tích hợp liền mạch vào công cụ và quy trình làm việc hàng ngày của chúng ta.

Những tiến bộ trên – từ kiến thức rộng lớn của GPT-4 đến các cuộc cách mạng khoa học của AlphaFold – thể hiện sự trưởng thành nhanh chóng của AI.

Triển vọng Tương lai: Khi bước sang năm 2025, những thành tựu này báo hiệu các ứng dụng AI mạnh mẽ và thiết thực hơn trong cuộc sống hàng ngày của chúng ta.

Khi bước sang năm 2025, những thành tựu này báo hiệu các ứng dụng AI mạnh mẽ và thiết thực hơn trong cuộc sống hàng ngày của chúng ta.

Khám phá thêm các bài viết liên quan

So sánh AI với Trí tuệ Con người

Tin tức & Xu hướng AI

09/09/2025

Rosie Ha

175 bài viết

Rosie Ha là tác giả tại Inviai, chuyên chia sẻ kiến thức và giải pháp về trí tuệ nhân tạo. Với kinh nghiệm nghiên cứu, ứng dụng AI vào nhiều lĩnh vực như kinh doanh, sáng tạo nội dung và tự động hóa, Rosie Ha sẽ mang đến các bài viết dễ hiểu, thực tiễn và truyền cảm hứng. Sứ mệnh của Rosie Ha là giúp mọi người khai thác AI hiệu quả để nâng cao năng suất và mở rộng khả năng sáng tạo.

Xem hồ sơ Hồ sơ Tất cả bài viết (175) Bài viết (175)