Trong nhiều năm qua (2023–2025), trí tuệ nhân tạo đã tiến bộ vượt bậc trên nhiều lĩnh vực. Các mô hình ngôn ngữ lớn (LLMs) và chatbot, hệ thống đa phương thức, công cụ AI khoa học và robot đều ghi nhận những bước đột phá.
Các ông lớn công nghệ đã ra mắt trợ lý AI mới, cộng đồng mã nguồn mở phát triển các mô hình mạnh mẽ, và ngay cả các cơ quan quản lý cũng bắt đầu có hành động để giải quyết tác động của AI.
Dưới đây là tổng quan về những thành tựu nổi bật nhất, từ các mở rộng GPT-4 và Google Gemini đến giải Nobel của AlphaFold và các khám phá khoa học, nghệ thuật do AI dẫn dắt.
Mô hình Ngôn ngữ Sinh tạo và Chatbot
Các LLM hiện đại đã trở nên mạnh mẽ và đa phương thức hơn rất nhiều. GPT-4 Turbo của OpenAI (công bố tháng 11 năm 2023) hiện có thể xử lý 128.000 token trong một lần nhập liệu (tương đương khoảng 300 trang văn bản) và chi phí vận hành thấp hơn nhiều so với GPT-4.
Vào tháng 5 năm 2024, OpenAI giới thiệu GPT-4o (Omni), một mô hình nâng cấp có khả năng xử lý văn bản, hình ảnh và âm thanh theo thời gian thực – giúp GPT-4 có khả năng “nhìn và nghe” trong giao tiếp. ChatGPT hiện đã tích hợp tính năng hình ảnh và giọng nói: người dùng có thể tải ảnh lên hoặc nói chuyện với bot, và nó sẽ phản hồi dựa trên dữ liệu hình ảnh hoặc âm thanh đó.
- GPT-4 Turbo và GPT-4o (Omni): GPT-4 Turbo (tháng 11/2023) giảm chi phí và mở rộng độ dài ngữ cảnh lên 128K token. GPT-4o (tháng 5/2024) biến AI thành hệ thống đa phương thức thực thụ, tạo ra văn bản, giọng nói và hình ảnh với tốc độ gần như con người.
- Tiến bộ của ChatGPT: Đến cuối năm 2023, ChatGPT “có thể nhìn, nghe và nói” – người dùng có thể tải lên hình ảnh hoặc nói lời nhắc, và bot sẽ trả lời tương ứng.
Nó cũng tích hợp DALL·E 3 (tháng 10/2023) để tạo hình ảnh từ văn bản với sự hỗ trợ của lời nhắc hội thoại. - Chuỗi Gemini của Google: Vào tháng 12 năm 2024, Google DeepMind ra mắt các mô hình đầu tiên của Gemini 2.0 (“Flash” và các nguyên mẫu) được thiết kế cho “kỷ nguyên tác nhân” – AI có thể tự động thực hiện các nhiệm vụ đa bước.
Google đã bắt đầu thử nghiệm Gemini 2.0 trong Tìm kiếm (AI Overviews) và các sản phẩm khác phục vụ hơn một tỷ người dùng, thể hiện khả năng suy luận và đa phương thức được nâng cấp. - Các mô hình khác: Meta phát hành LLaMA 3 vào tháng 4 năm 2024 (LLM trọng số mở lên đến 400 tỷ tham số) với tuyên bố vượt trội nhiều mô hình trước đó.
Anthropic với Claude 3 và các công cụ copilot của Microsoft cũng dựa trên những tiến bộ này (ví dụ Copilot xây dựng trên công nghệ của OpenAI).
Những đổi mới này giúp trợ lý AI duy trì các cuộc trò chuyện dài hơn, phong phú hơn và xử lý đa dạng các loại đầu vào.
Chúng cũng cung cấp sức mạnh cho các ứng dụng “trợ lý” mới thông qua API (Google “AI Overviews”, OpenAI Assistants API, v.v.), giúp AI dễ tiếp cận hơn với nhà phát triển và người dùng cuối.
Tiến bộ Đa phương thức & Sáng tạo của AI
Khả năng sáng tạo và hiểu biết hình ảnh của AI đã bùng nổ. Mô hình chuyển văn bản thành hình ảnh và chuyển văn bản thành video đã đạt đến tầm cao mới:
OpenAI với DALL·E 3 (tháng 10/2023) tạo ra hình ảnh chân thực từ lời nhắc và còn tích hợp với ChatGPT để hỗ trợ viết lời nhắc có hướng dẫn.
Google giới thiệu Imagen 3 (tháng 10/2024) và Veo 2 (tháng 12/2024) – các công cụ chuyển văn bản thành hình ảnh và video tiên tiến nhất – cải thiện đáng kể chất lượng, chi tiết và tính nhất quán trong nghệ thuật và video do AI tạo ra.
Ngay cả AI âm nhạc cũng được cải tiến với công cụ MusicFX của Google và các nghiên cứu liên quan (ví dụ thí nghiệm MusicLM).
- Mô hình nghệ thuật sinh tạo: DALL·E 3 và Imagen 3 có thể theo sát các lời nhắc tinh tế (bao gồm cả văn bản nhúng trong hình ảnh) với độ chính xác cao.
Veo 2 của Google có thể tạo các đoạn video ngắn từ một mô tả văn bản duy nhất, một bước tiến đáng kể trong tổng hợp video.
Stable Diffusion và Midjourney cũng đã phát hành các phiên bản mới hơn (v3, v6) với tính chân thực cao hơn trong năm nay. - AI trong thiết bị: Apple ra mắt Apple Intelligence (trong iOS 18 và macOS 15, cuối năm 2024) – AI sinh tạo tích hợp sẵn trên iPhone/iPad/Mac.
Nó bổ sung trợ lý viết (viết lại, chỉnh sửa, tóm tắt trong Mail/Pages), Siri thông minh hơn, và các công cụ hình ảnh như Image Playground (tạo minh họa vui qua văn bản) và Genmoji (emoji tùy chỉnh do AI tạo).
Ảnh có thể tìm kiếm bằng ngôn ngữ tự nhiên (“tìm Maya trượt ván”), và AI “Clean Up” loại bỏ các vật thể không mong muốn trong ảnh.
Phương pháp của Apple nhấn mạnh xử lý trên thiết bị và bảo mật riêng tư. - AI trong nghệ thuật: Một ví dụ nổi bật: tháng 11 năm 2024, Sotheby’s bán bức tranh đầu tiên do robot hình người vẽ.
Bức chân dung Alan Turing do robot AI Ai-Da vẽ đã được bán với giá 1,08 triệu USD.
Phiên đấu giá phá kỷ lục này (“A.I. God: Portrait of Alan Turing”) nhấn mạnh vai trò ngày càng lớn của AI trong sáng tạo và tác động văn hóa.
Tổng thể, các mô hình sinh tạo đang dân chủ hóa sáng tạo: bất kỳ ai giờ đây cũng có thể tạo ra nghệ thuật, âm nhạc hoặc video chỉ với vài từ.
Ngành công nghiệp đã chuyển trọng tâm từ sự mới lạ đơn thuần (hình ảnh siêu thực) sang tạo hình ảnh hữu ích (logo, sơ đồ, bản đồ) và tính chân thực gần với con người.
(Vào tháng 3 năm 2025, OpenAI còn phát hành “4o Image Generation”, tích hợp mô hình hình ảnh tốt nhất vào GPT-4o để tạo ra sản phẩm chính xác, chân thực theo hướng dẫn hội thoại.)
Những công cụ này nhanh chóng được tích hợp vào ứng dụng, trình duyệt và quy trình sáng tạo.
AI trong Khoa học, Y học và Toán học
Các thành tựu AI đã thúc đẩy khám phá khoa học và tiến bộ nghiên cứu:
- AlphaFold 3 – phân tử sinh học: Tháng 11 năm 2024, Google DeepMind (hợp tác với Isomorphic Labs) ra mắt AlphaFold 3, mô hình mới dự đoán cấu trúc 3D của tất cả các phân tử sinh học (protein, DNA, RNA, ligand, v.v.) đồng thời, với độ chính xác chưa từng có.
Đối với tương tác protein-thuốc, AlphaFold 3 chính xác hơn khoảng 50% so với các phương pháp truyền thống.
Nhóm phát triển ngay lập tức cung cấp miễn phí AlphaFold Server để các nhà nghiên cứu toàn cầu có thể dự đoán cấu trúc phân tử.
Điều này mở rộng dự đoán chỉ protein của AlphaFold 2 và được kỳ vọng sẽ thay đổi cách khám phá thuốc và nghiên cứu gen. - Giải Nobel – Gấp protein: Tầm quan trọng của bước tiến này được khẳng định qua Giải Nobel Hóa học 2024.
Demis Hassabis và John Jumper (DeepMind) cùng David Baker nhận giải cho việc phát triển AlphaFold (AI gấp protein).
Ủy ban Nobel ghi nhận AlphaFold “mở ra những khả năng hoàn toàn mới” trong thiết kế protein.
(Đây là một trong những thành tựu AI nổi bật nhất cho đến nay.) - AlphaProteo – thiết kế thuốc: Cũng trong năm 2024, DeepMind công bố AlphaProteo, AI thiết kế các protein liên kết mới – các phân tử liên kết mạnh với protein mục tiêu.
AlphaProteo có thể tăng tốc tạo ra kháng thể mới, cảm biến sinh học và các ứng viên thuốc bằng cách sinh ra cấu trúc protein hứa hẹn cho mục tiêu cụ thể. - Toán học – AlphaGeometry: DeepMind với AlphaGeometry và AlphaProof đã ghi nhận một bước đột phá khác.
Vào tháng 7 năm 2024, AlphaGeometry 2 giải một bài toán từ Olympic Toán học Quốc tế trong 19 giây, đạt trình độ huy chương bạc.
Đây là trường hợp hiếm hoi AI giải toán cấp cao trung học. - Máy tính lượng tử – AlphaQubit & Willow: AI cũng cải tiến phần cứng tiên tiến.
Năm 2024, Google công bố AlphaQubit, bộ giải mã AI phát hiện lỗi trong máy tính lượng tử (ví dụ chip Sycamore của Google) tốt hơn nhiều so với phương pháp trước.
Tháng 12 năm 2024, Google ra mắt Willow, chip lượng tử mới sử dụng kỹ thuật sửa lỗi tiên tiến, giải một bài toán chuẩn trong dưới 5 phút, trong khi siêu máy tính tốt nhất hiện nay cần khoảng 10^24 năm.
Thành tựu này giúp Willow nhận giải “Đột phá Vật lý của Năm 2024”, nhấn mạnh vai trò của AI trong tiến bộ lượng tử.
Trong y học và sức khỏe, các mô hình AI cũng có bước tiến. Ví dụ, Med-Gemini mới của Google (được tinh chỉnh trên dữ liệu y tế) đạt 91,1% điểm trong kỳ thi y khoa chuẩn Mỹ (kiểu USMLE), vượt xa các mô hình trước.
Các công cụ AI hỗ trợ chẩn đoán hình ảnh y khoa và bệnh lý (ví dụ Derm và Path Foundations) được phát hành để cải thiện phân tích hình ảnh.
Tổng thể, AI giờ đây là đối tác nghiên cứu không thể thiếu – từ việc lập bản đồ não người ở cấp độ nano (với hình ảnh EM hỗ trợ AI) đến tăng tốc sàng lọc lao ở châu Phi, theo báo cáo của các nhà nghiên cứu Google.
AI trong Robot và Tự động hóa
Robot được trang bị AI đang học các nhiệm vụ phức tạp trong thế giới thực.
Robot hình người Optimus của Tesla được trình diễn công khai vào tháng 10 năm 2024 (sự kiện “We, Robot”). Hàng chục robot Optimus đã đi bộ, đứng và thậm chí nhảy múa trên sân khấu – dù các báo cáo sau đó cho biết các màn trình diễn ban đầu có phần điều khiển từ xa bởi con người.
Dù vậy, sự kiện này làm nổi bật tiến bộ nhanh chóng hướng tới robot đa năng.
- Robot ALOHA của DeepMind: Phòng thí nghiệm AI của Google đã đạt tiến bộ ấn tượng trong robot gia đình.
Năm 2024, robot ALOHA (Trợ lý Gia đình Chân tự động Tự chủ) học được cách buộc dây giày, treo áo, sửa robot khác, lắp bánh răng và thậm chí dọn bếp chỉ bằng lập kế hoạch và thị giác AI.
Bộ mã nguồn mở “ALOHA Unleashed” cho thấy robot phối hợp hai tay để thực hiện nhiệm vụ, lần đầu tiên trong thao tác đa năng. - Robot Transformer: DeepMind giới thiệu RT-2 (Robotic Transformer 2), mô hình thị giác-ngôn ngữ-hành động có thể học từ cả hình ảnh trên internet và dữ liệu robot thực tế.
RT-2 giúp robot hiểu chỉ dẫn như con người bằng cách tận dụng kiến thức web.
Nó được trình diễn giúp robot phân loại vật thể theo lệnh văn bản. - Robot công nghiệp: Các công ty khác cũng tiến bộ: Boston Dynamics tiếp tục hoàn thiện robot Atlas và Spot (dù không có đột phá lớn nào), và xe tự hành AI được cải thiện (bản Beta Full Self-Driving của Tesla được mở rộng, dù tự động hoàn toàn vẫn chưa giải quyết được).
Trong sản xuất, các công ty tập trung AI như Figure AI huy động vốn để phát triển robot gia đình làm việc nhà.
Những nỗ lực này cho thấy robot ngày càng làm được các nhiệm vụ khó hơn mà không cần lập trình rõ ràng. Tuy nhiên, robot hình người hoàn toàn tự chủ vẫn còn ở phía trước.
Các buổi trình diễn (Optimus, ALOHA, RT-2) là những cột mốc, nhưng các nhà nghiên cứu cảnh báo còn nhiều việc phải làm để robot có thể làm việc an toàn và tin cậy cùng con người trên quy mô lớn.
AI trong Sản phẩm, Công nghiệp và Xã hội
Tác động của AI lan rộng đến sản phẩm hàng ngày và cả chính sách:
- Thiết bị tiêu dùng: Các sản phẩm công nghệ lớn tích hợp các tác nhân AI.
Copilot của Microsoft (tích hợp trong Windows, Office, Bing) và Bard/Bard AI của Google trong Tìm kiếm (dựa trên Gemini) mang sức mạnh LLM đến người dùng.
Thiết bị Apple có Apple Intelligence (như trên) và các nhà sản xuất phần cứng như Nvidia bán ra số lượng GPU AI kỷ lục, phục vụ cả đám mây và người dùng cá nhân.
(Nvidia trở thành công ty giá trị nhất thế giới năm 2024 nhờ cơn sốt AI.) - Quy định – Đạo luật AI EU: Phản ánh tầm ảnh hưởng của AI, các cơ quan quản lý cũng hành động.
Ngày 1 tháng 8 năm 2024, Đạo luật AI EU có hiệu lực, là luật AI toàn diện đầu tiên.
Nó thiết lập khung rủi ro: AI rủi ro thấp (lọc thư rác, trò chơi điện tử) có quy định tối thiểu; quy tắc minh bạch yêu cầu hệ thống AI như chatbot phải công khai là AI; AI rủi ro cao (công cụ y tế hoặc tuyển dụng) bị giám sát nghiêm ngặt; và AI không chấp nhận được (ví dụ “điểm xã hội” của cá nhân do chính phủ) bị cấm.
Bộ quy tắc này (cùng với hướng dẫn sắp tới về mô hình đa mục đích) là thành tựu lớn trong quản trị AI và có khả năng ảnh hưởng đến tiêu chuẩn toàn cầu. - Tăng trưởng ngành: Ngành AI chứng kiến vốn đầu tư và định giá lịch sử: OpenAI được định giá khoảng 157 tỷ USD cuối năm 2023, và các công ty như Anthropic, Inflection cùng các startup AI Trung Quốc huy động hàng tỷ đô la.
Nhu cầu phần cứng AI của NVIDIA đẩy vốn hóa thị trường vượt 3,5 nghìn tỷ USD giữa năm 2024.
Những con số này khẳng định AI đã trở thành trung tâm của nền kinh tế công nghệ.
>>> Bạn đã từng thử: So sánh Trí tuệ Nhân tạo với Trí tuệ Con người ?
Tóm lại, AI không còn bị giới hạn trong phòng thí nghiệm hay các bản demo mới lạ – nó đã được tích hợp trong điện thoại, ô tô, nơi làm việc và chính sách công.
Những tiến bộ trên – từ kiến thức rộng lớn của GPT-4 đến các cuộc cách mạng khoa học của AlphaFold – cho thấy AI đang trưởng thành nhanh chóng.
Khi bước sang năm 2025, những thành tựu này báo hiệu các ứng dụng AI mạnh mẽ và thiết thực hơn trong cuộc sống hàng ngày của chúng ta.