Trí tuệ nhân tạo (AI) ngày nay đã trở thành một phần quen thuộc trong cuộc sống hiện đại, xuất hiện trong mọi lĩnh vực từ kinh doanh đến y tế. Tuy nhiên, ít ai ngờ rằng lịch sử phát triển của AI đã bắt đầu từ giữa thế kỷ 20 và trải qua nhiều thăng trầm trước khi đạt được thành tựu bùng nổ như hiện nay.
Bài viết này INVIAI sẽ cung cấp cái nhìn chi tiết về lịch sử hình thành và phát triển của AI, từ những ý tưởng sơ khai ban đầu, qua các giai đoạn “mùa đông AI” đầy khó khăn, cho đến cuộc cách mạng học sâu và làn sóng AI sinh tạo bùng nổ trong thập niên 2020.
Thập niên 1950: Khởi đầu của trí tuệ nhân tạo
Những năm 1950 được xem là khởi điểm chính thức của ngành AI. Năm 1950, nhà toán học Alan Turing đã xuất bản bài báo “Computing Machinery and Intelligence”, trong đó ông đề xuất một phép thử nổi tiếng nhằm đánh giá khả năng tư duy của máy móc – về sau gọi là phép thử Turing. Đây được xem là cột mốc mở ra ý tưởng rằng máy tính có thể “suy nghĩ” như con người, đặt nền móng lý thuyết cho AI.
Đến năm 1956, thuật ngữ “Artificial Intelligence” (trí tuệ nhân tạo) chính thức ra đời. Mùa hè năm đó, nhà khoa học máy tính John McCarthy (Đại học Dartmouth) đã cùng các đồng nghiệp như Marvin Minsky, Nathaniel Rochester (IBM) và Claude Shannon tổ chức một hội thảo lịch sử tại Đại học Dartmouth.
McCarthy đã đề xuất thuật ngữ “trí tuệ nhân tạo” (AI) cho hội thảo này, và sự kiện Dartmouth 1956 thường được xem là sự ra đời của lĩnh vực AI. Tại đây, các nhà khoa học táo bạo tuyên bố “mọi khía cạnh của học tập hay trí thông minh có thể được mô phỏng bằng máy móc”, đặt mục tiêu tham vọng cho ngành mới mẻ này.
Những năm cuối thập niên 1950 chứng kiến nhiều thành tựu đầu tiên về AI. Năm 1951, các chương trình AI sơ khai đã được viết để chạy trên máy tính Ferranti Mark I – đáng chú ý là chương trình chơi cờ dama (checkers) của Christopher Strachey và chương trình chơi cờ vua của Dietrich Prinz, đánh dấu lần đầu tiên máy tính biết chơi trò chơi trí tuệ.
Năm 1955, Arthur Samuel tại IBM phát triển chương trình chơi cờ dama có khả năng tự học từ kinh nghiệm, trở thành hệ thống machine learning (học máy) sơ khai đầu tiên. Cũng trong giai đoạn này, Allen Newell, Herbert Simon và cộng sự đã viết chương trình Logic Theorist (1956) – có thể tự động chứng minh các định lý toán học, chứng tỏ máy móc có thể thực hiện lý luận logic.
Bên cạnh thuật toán, công cụ và ngôn ngữ lập trình chuyên dụng cho AI cũng ra đời trong thập niên 1950. Năm 1958, John McCarthy phát minh ngôn ngữ Lisp – ngôn ngữ lập trình được thiết kế riêng cho AI, nhanh chóng trở nên phổ biến trong cộng đồng phát triển AI. Cùng năm đó, nhà tâm lý học Frank Rosenblatt giới thiệu Perceptron – mô hình mạng nơ-ron nhân tạo đầu tiên có khả năng học từ dữ liệu. Perceptron được xem là nền tảng sơ khai cho các mạng neural hiện đại.
Năm 1959, Arthur Samuel lần đầu tiên sử dụng thuật ngữ “machine learning” (học máy) trong một bài báo mang tính bước ngoặt, mô tả cách máy tính có thể được lập trình để học và tự cải thiện khả năng chơi cờ vượt qua cả người lập trình. Những phát triển này cho thấy sự lạc quan mạnh mẽ: các nhà tiên phong tin rằng chỉ trong vài thập niên, máy móc có thể đạt trí thông minh như con người.
Thập niên 1960: Những bước tiến đầu tiên
Bước sang thập niên 1960, AI tiếp tục phát triển với nhiều dự án và phát minh đáng chú ý. Các phòng thí nghiệm AI được thành lập tại nhiều trường đại học danh tiếng (MIT, Stanford, Carnegie Mellon...), thu hút sự quan tâm và tài trợ nghiên cứu. Máy tính lúc này dần mạnh hơn, cho phép thử nghiệm những ý tưởng AI phức tạp hơn so với thập niên trước.
Một thành tựu nổi bật là sự ra đời của chương trình chatbot đầu tiên. Năm 1966, Joseph Weizenbaum tại MIT tạo ra ELIZA, một chương trình mô phỏng đối thoại với người dùng theo phong cách của một bác sĩ tâm lý. ELIZA được lập trình rất đơn giản (dựa trên việc nhận diện từ khóa và phản hồi mẫu), nhưng đáng ngạc nhiên là nhiều người đã tưởng nhầm ELIZA thực sự “hiểu” và có cảm xúc. Thành công của ELIZA không chỉ mở đường cho các chatbot hiện đại mà còn đặt ra câu hỏi về xu hướng con người dễ gán cảm xúc cho máy móc.
Song song đó, robot thông minh đầu tiên cũng xuất hiện. Từ năm 1966–1972, Viện Nghiên cứu Stanford (SRI) phát triển Shakey – robot di động đầu tiên có khả năng tự nhận thức và lập kế hoạch hành động thay vì chỉ làm theo từng lệnh đơn lẻ. Robot Shakey được trang bị cảm biến, camera để tự di chuyển trong môi trường và có thể phân tích nhiệm vụ thành các bước cơ bản như tự tìm đường đi, đẩy vật cản, leo lên dốc…. Đây là lần đầu tiên một hệ thống tích hợp đầy đủ thị giác máy tính, xử lý ngôn ngữ tự nhiên và lập kế hoạch trong robot, đặt nền móng cho lĩnh vực robotics AI sau này.
American Association of Artificial Intelligence (AAAI) cũng được thành lập trong giai đoạn này (tiền thân là hội nghị IJCAI 1969 và tổ chức AAAI từ 1980) nhằm quy tụ các nhà nghiên cứu AI, cho thấy cộng đồng AI ngày càng lớn mạnh.
Bên cạnh đó, thập niên 1960 cũng ghi nhận sự phát triển của hệ chuyên gia và các thuật toán nền tảng. Năm 1965, Edward Feigenbaum cùng các đồng nghiệp phát triển DENDRAL – được xem là hệ chuyên gia đầu tiên trên thế giới. DENDRAL được thiết kế để hỗ trợ các nhà hóa học phân tích cấu trúc phân tử từ dữ liệu thí nghiệm, bằng cách mô phỏng kiến thức và tư duy của chuyên gia hóa học. Thành công của DENDRAL cho thấy máy tính có thể hỗ trợ giải quyết những vấn đề chuyên môn phức tạp, đặt nền móng cho các hệ chuyên gia bùng nổ trong thập niên 1980.
Ngoài ra, ngôn ngữ lập trình Prolog (chuyên cho trí tuệ nhân tạo logic) được phát triển năm 1972 tại Đại học Marseille, mở ra hướng tiếp cận AI dựa trên logic và luật quan hệ. Một cột mốc quan trọng khác là năm 1969, Marvin Minsky và Seymour Papert xuất bản cuốn “Perceptrons”. Cuốn sách này chỉ ra các giới hạn toán học của mô hình perceptron một lớp (không thể giải quyết bài toán XOR đơn giản), khiến lĩnh vực mạng nơ-ron bị hoài nghi nặng nề.
Nhiều nhà tài trợ mất niềm tin vào khả năng học của mạng nơ-ron, và nghiên cứu mạng nơ-ron dần thoái trào cuối thập kỷ 1960. Đây là dấu hiệu đầu tiên của sự “nguội lạnh” trong hưng phấn AI sau hơn một thập kỷ lạc quan.
Thập niên 1970: Thử thách và “mùa đông AI” đầu tiên
Bước sang thập niên 1970, lĩnh vực AI phải đối mặt với thách thức hiện thực: Nhiều kỳ vọng lớn từ thập niên trước chưa đạt được do hạn chế về sức mạnh tính toán, dữ liệu và hiểu biết khoa học. Kết quả là niềm tin và nguồn tài trợ cho AI bắt đầu sụt giảm mạnh mẽ vào giữa những năm 1970 – giai đoạn này về sau được gọi là “mùa đông AI” đầu tiên.
Năm 1973, Sir James Lighthill đổ thêm dầu vào lửa khi công bố một báo cáo mang tên “Artificial Intelligence: A General Survey” đánh giá tiêu cực về tiến bộ của nghiên cứu AI. Báo cáo Lighthill kết luận rằng các nhà nghiên cứu AI đã “hứa hẹn quá nhiều nhưng làm được quá ít”, đặc biệt chỉ trích việc máy tính chưa thể hiểu ngôn ngữ hay thị giác như kỳ vọng.
Bản báo cáo này khiến Chính phủ Anh cắt giảm hầu hết ngân sách dành cho AI. Tại Mỹ, các cơ quan tài trợ như DARPA cũng chuyển hướng đầu tư sang những dự án khác thực tiễn hơn. Hệ quả là từ giữa thập niên 1970 đến đầu 1980, ngành AI gần như đóng băng, ít công trình đột phá và thiếu kinh phí nghiêm trọng. Đây chính là mùa đông AI – thuật ngữ được đặt ra năm 1984 để chỉ giai đoạn “đóng băng” kéo dài của nghiên cứu AI.
Tuy khó khăn bao trùm, thập niên 1970 vẫn có một số điểm sáng trong nghiên cứu AI. Các hệ chuyên gia tiếp tục được phát triển trong môi trường học thuật, tiêu biểu là MYCIN (1974) – hệ chuyên gia tư vấn y khoa do Ted Shortliffe xây dựng tại Stanford, giúp chẩn đoán bệnh nhiễm trùng máu. MYCIN sử dụng tập luật suy luận để đưa ra khuyến nghị điều trị và đạt độ chính xác khá cao, chứng minh giá trị thực tiễn của hệ chuyên gia trong những lĩnh vực hẹp.
Bên cạnh đó, ngôn ngữ Prolog (ra mắt 1972) bắt đầu được ứng dụng trong các bài toán xử lý ngôn ngữ và giải quyết bài toán logic, trở thành công cụ quan trọng cho AI dựa trên logic. Trong lĩnh vực robot, năm 1979 nhóm nghiên cứu tại Stanford đã phát triển thành công xe tự hành Stanford Cart – chiếc xe robot đầu tiên tự di chuyển qua phòng đầy chướng ngại vật mà không cần người điều khiển từ xa. Thành tựu này tuy nhỏ bé nhưng đặt nền móng cho các nghiên cứu xe tự lái về sau.
Tổng thể, cuối thập niên 1970, nghiên cứu AI rơi vào trạng thái trầm lắng. Nhiều nhà khoa học AI phải chuyển hướng sang các ngành liên quan như học máy thống kê, robot và thị giác máy tính để tiếp tục công việc.
AI không còn là “ngôi sao sáng” như thập kỷ trước, mà trở thành lĩnh vực hẹp với rất ít tiến bộ nổi bật. Giai đoạn này nhắc nhở giới nghiên cứu rằng trí thông minh nhân tạo phức tạp hơn dự đoán rất nhiều, đòi hỏi những cách tiếp cận mới căn cơ hơn thay vì chỉ dựa trên mô phỏng suy luận như trước.
Thập niên 1980: Hệ chuyên gia – Sự trỗi dậy và suy thoái
Đến đầu thập niên 1980, AI một lần nữa bước vào giai đoạn hồi sinh – đôi khi gọi là “AI renaissance”. Sự thúc đẩy này đến từ thành công thương mại của các hệ chuyên gia và quan tâm đầu tư trở lại của chính phủ lẫn doanh nghiệp. Máy tính trở nên mạnh hơn, và cộng đồng tin rằng có thể hiện thực hóa dần những ý tưởng AI trong phạm vi hẹp.
Một động lực lớn là các hệ chuyên gia thương mại. Năm 1981, hãng Digital Equipment Corporation triển khai XCON (Expert Configuration) – một hệ chuyên gia giúp cấu hình các hệ thống máy tính, tiết kiệm cho công ty hàng chục triệu đô la. Thành công của XCON thúc đẩy làn sóng phát triển expert system trong doanh nghiệp để hỗ trợ ra quyết định. Nhiều công ty công nghệ đã đầu tư tạo ra “vỏ” hệ chuyên gia (expert system shell) để doanh nghiệp có thể tùy biến xây dựng hệ thống của riêng mình.
Ngôn ngữ Lisp cũng bước ra khỏi phòng thí nghiệm khi xuất hiện các máy Lisp (Lisp machine) – phần cứng chuyên dụng tối ưu cho việc chạy chương trình AI. Vào đầu thập niên 1980, hàng loạt công ty khởi nghiệp về máy Lisp ra đời (Symbolics, Lisp Machines Inc.), tạo nên cơn sốt đầu tư và được xem là “kỷ nguyên máy Lisp” cho AI.
Các chính phủ lớn cũng rót vốn mạnh mẽ cho AI vào thời kỳ này. Năm 1982, Nhật Bản khởi động Dự án Máy tính Thế hệ thứ 5 với ngân sách 850 triệu USD, nhằm phát triển máy tính thông minh sử dụng logic và Prolog. Tương tự, Mỹ (DARPA) cũng tăng cường tài trợ cho nghiên cứu AI trong bối cảnh cạnh tranh công nghệ với Nhật. Những dự án được rót vốn thời này tập trung vào hệ chuyên gia, xử lý ngôn ngữ tự nhiên và cơ sở tri thức, với kỳ vọng tạo ra các máy tính thông minh vượt trội.
Giữa làn sóng lạc quan mới, lĩnh vực mạng nơ-ron nhân tạo cũng âm thầm hồi sinh. Năm 1986, nhà nghiên cứu Geoffrey Hinton cùng các cộng sự công bố thuật toán Backpropagation (truyền ngược) – một phương pháp hiệu quả để huấn luyện mạng nơ-ron nhiều lớp, giải quyết chính hạn chế mà cuốn Perceptrons (1969) nêu ra.
Thực ra nguyên lý lan truyền ngược đã được phác thảo từ năm 1970, nhưng đến giữa thập kỷ 80 mới được khai thác triệt để nhờ sức mạnh máy tính tăng lên. Thuật toán backpropagation nhanh chóng khơi dậy làn sóng nghiên cứu mạng nơ-ron lần thứ hai. Lúc này, niềm tin rằng mạng nơ-ron sâu có thể học mô hình phức tạp bắt đầu nhen nhóm, báo hiệu tiền đề cho học sâu (deep learning) sau này.
Các nhà nghiên cứu trẻ như Yann LeCun (Pháp), Yoshua Bengio (Canada) cũng tham gia vào phong trào mạng nơ-ron giai đoạn này, phát triển các mô hình nhận dạng chữ viết tay thành công vào cuối thập kỷ.
Tuy nhiên, hưng thịnh thứ hai của AI kéo dài không lâu. Cuối thập niên 1980, ngành AI lại rơi vào khủng hoảng do kết quả không đáp ứng được kỳ vọng. Các hệ chuyên gia mặc dù hữu ích trong một số ứng dụng hẹp, nhưng bộc lộ nhược điểm: chúng cứng nhắc, khó mở rộng và cần cập nhật tri thức liên tục thủ công.
Nhiều dự án hệ chuyên gia lớn thất bại, thị trường máy Lisp cũng sụp đổ do cạnh tranh từ máy tính cá nhân rẻ hơn. Năm 1987, ngành công nghiệp máy Lisp gần như phá sản hoàn toàn. Vốn đầu tư AI lần thứ hai bị cắt giảm mạnh vào cuối thập niên 1980, dẫn đến một “mùa đông AI” lần hai. Thuật ngữ “AI winter” vốn được đặt ra năm 1984 cũng ứng nghiệm khi nhiều công ty AI đóng cửa vào năm 1987–1988. Một lần nữa, ngành AI bước vào chu kỳ thoái trào, khiến các nhà nghiên cứu phải tự điều chỉnh kỳ vọng và chiến lược.
Tóm lại, thập niên 1980 ghi dấu một chu kỳ bùng nổ và suy thoái của AI. Hệ chuyên gia giúp AI xâm nhập thực tế công nghiệp lần đầu, nhưng cũng cho thấy giới hạn của cách tiếp cận dựa trên luật cố định. Mặc dù vậy, giai đoạn này đã kịp sản sinh nhiều ý tưởng và công cụ quý báu: từ thuật toán học nơ-ron đến những cơ sở tri thức đầu tiên. Những bài học đắt giá về việc tránh thổi phồng quá mức cũng được rút ra, làm tiền đề cho hướng đi thận trọng hơn trong thập niên kế tiếp.
Thập niên 1990: AI trở lại thực tiễn
Sau mùa đông AI cuối những năm 1980, niềm tin vào AI dần hồi phục trở lại trong thập niên 1990 nhờ một loạt tiến bộ mang tính thực tiễn. Thay vì tập trung vào AI mạnh (trí thông minh nhân tạo tổng quát) đầy tham vọng, giới nghiên cứu tập trung vào AI yếu – tức áp dụng các kỹ thuật AI vào những bài toán cụ thể, nơi chúng bắt đầu cho kết quả ấn tượng. Nhiều lĩnh vực con tách ra từ AI ở giai đoạn trước (như nhận dạng giọng nói, thị giác máy, thuật toán tìm kiếm, hệ cơ sở tri thức...) nay phát triển mạnh mẽ độc lập và được ứng dụng rộng rãi.
Một dấu mốc quan trọng mở đầu cho những thành công thực tiễn là vào tháng 5 năm 1997, máy tính Deep Blue của IBM đã đánh bại nhà vô địch cờ vua thế giới Garry Kasparov trong một trận đấu chính thức. Đây là lần đầu tiên một hệ thống AI chiến thắng nhà vô địch thế giới ở một trò chơi trí tuệ phức tạp, gây chấn động dư luận.
Chiến thắng của Deep Blue – dựa trên thuật toán tìm kiếm brute-force kết hợp với cơ sở dữ liệu khai cuộc – cho thấy sức mạnh tính toán khổng lồ và kỹ thuật chuyên biệt có thể giúp máy vượt con người trong những nhiệm vụ xác định. Sự kiện này đánh dấu sự trở lại ngoạn mục của AI trên truyền thông, khơi dậy hứng thú nghiên cứu sau nhiều năm nguội lạnh.
Không chỉ trong cờ vua, AI thập niên 1990 đạt tiến bộ trên nhiều mặt trận khác. Trong lĩnh vực trò chơi, năm 1994 chương trình Chinook đã giải quyết hoàn toàn trò chơi cờ draughts (cờ đam) ở mức vô địch, khiến nhà vô địch thế giới phải thừa nhận không thể thắng máy tính.
Trong nhận dạng tiếng nói, các hệ thống thương mại như Dragon Dictate (1990) bắt đầu xuất hiện, và đến cuối thập kỷ, phần mềm nhận dạng giọng nói đã được sử dụng rộng rãi trên máy tính cá nhân. Nhận dạng chữ viết tay cũng được tích hợp trên các thiết bị PDA (trợ lý số cá nhân) với độ chính xác ngày càng cao.
Các ứng dụng thị giác máy (machine vision) bắt đầu được triển khai trong công nghiệp, từ kiểm tra linh kiện đến hệ thống an ninh. Ngay cả dịch máy – lĩnh vực từng khiến AI nản lòng ở thập niên 60 – cũng có tiến bộ đáng kể với hệ thống SYSTRAN hỗ trợ dịch tự động nhiều ngôn ngữ cho Liên minh Châu Âu.
Một hướng quan trọng khác là học máy thống kê và mạng nơ-ron được áp dụng vào khai thác dữ liệu quy mô lớn. Cuối thập niên 1990 chứng kiến sự bùng nổ của Internet, kéo theo lượng dữ liệu số khổng lồ. Các kỹ thuật khai phá dữ liệu (data mining) và thuật toán học máy như cây quyết định, mạng nơ-ron, mô hình Markov ẩn… được dùng để phân tích dữ liệu web, tối ưu công cụ tìm kiếm và cá nhân hóa nội dung.
Thuật ngữ “khoa học dữ liệu” chưa phổ biến, nhưng thực tế AI đã len lỏi vào các hệ thống phần mềm nhằm cải thiện hiệu năng dựa trên học hỏi từ dữ liệu người dùng (ví dụ: bộ lọc thư rác email, gợi ý sản phẩm trong thương mại điện tử). Những thành công nhỏ nhưng thiết thực này giúp AI tích lũy uy tín trở lại trong mắt doanh nghiệp và xã hội.
Có thể nói, thập niên 1990 là giai đoạn AI “âm thầm” nhưng vững chắc tiến vào đời sống. Thay vì những tuyên bố to tát về trí tuệ như người, các nhà phát triển tập trung giải quyết từng bài toán chuyên biệt. Kết quả, AI hiện diện trong nhiều sản phẩm công nghệ cuối thế kỷ 20 mà người dùng đôi khi không nhận ra – từ game, phần mềm cho đến thiết bị điện tử. Giai đoạn này cũng chuẩn bị nền móng quan trọng về dữ liệu và thuật toán, giúp AI sẵn sàng bùng nổ khi thời cơ đến vào thập niên sau.
Thập niên 2000: Học máy và kỷ nguyên dữ liệu lớn
Bước vào thế kỷ 21, AI chuyển mình mạnh mẽ nhờ Internet và kỷ nguyên dữ liệu lớn. Những năm 2000 chứng kiến sự bùng nổ của máy tính cá nhân, mạng Internet và thiết bị cảm biến, tạo ra khối lượng dữ liệu khổng lồ. Học máy (machine learning) – đặc biệt là các phương pháp học có giám sát – trở thành công cụ chủ lực để khai thác “mỏ dầu” dữ liệu này.
Khẩu hiệu “data is the new oil” (dữ liệu là dầu mỏ mới) trở nên thịnh hành, bởi càng nhiều dữ liệu, thuật toán AI học càng chính xác. Các công ty công nghệ lớn bắt đầu xây dựng hệ thống thu thập và học từ dữ liệu người dùng để cải thiện sản phẩm: Google với công cụ tìm kiếm thông minh hơn, Amazon với gợi ý mua hàng theo hành vi, Netflix với thuật toán đề xuất phim. AI dần trở thành “bộ não” thầm lặng phía sau các nền tảng số.
Năm 2006 đánh dấu một sự kiện quan trọng: Fei-Fei Li, giáo sư tại Đại học Stanford, khởi xướng dự án ImageNet – một cơ sở dữ liệu khổng lồ gồm hơn 14 triệu hình ảnh được gán nhãn chi tiết. Được giới thiệu vào năm 2009, ImageNet lập tức trở thành bộ dữ liệu tiêu chuẩn để huấn luyện và đánh giá thuật toán thị giác máy tính, đặc biệt là nhận dạng vật thể trong ảnh.
ImageNet được ví như “liều doping” thúc đẩy nghiên cứu deep learning sau này, khi cung cấp đủ dữ liệu cho các mô hình học sâu phức tạp. Cuộc thi ImageNet Challenge hàng năm từ 2010 trở đi đã trở thành sàn đấu quan trọng, nơi các nhóm nghiên cứu so tài phát triển thuật toán nhận dạng ảnh tốt nhất. Chính từ sân chơi này, một bước ngoặt lịch sử của AI sẽ diễn ra vào năm 2012 (xem phần thập niên 2010).
Cũng trong thập niên 2000, AI lần lượt chinh phục thêm nhiều cột mốc ứng dụng nổi bật:
- Năm 2005, chiếc xe tự hành Stanford (biệt danh “Stanley”) đã chiến thắng DARPA Grand Challenge – cuộc thi xe tự lái sa mạc dài 212 km. Stanley hoàn thành quãng đường trong 6 giờ 53 phút, mở ra kỷ nguyên mới cho xe tự hành và nhận được sự quan tâm đầu tư lớn từ Google, Uber những năm sau.
- Trợ lý ảo trên điện thoại xuất hiện: năm 2008, ứng dụng Google Voice Search cho phép tìm kiếm bằng giọng nói trên iPhone; và đỉnh điểm là Apple Siri (ra mắt 2011) – trợ lý ảo điều khiển bằng giọng nói tích hợp trong iPhone. Siri sử dụng công nghệ nhận dạng tiếng nói, hiểu ngôn ngữ tự nhiên và kết nối dịch vụ web để trả lời người dùng, đánh dấu AI lần đầu tiếp cận đại chúng trên quy mô lớn.
- Năm 2011, siêu máy tính IBM Watson đánh bại hai nhà vô địch trò chơi đố chữ Jeopardy! trên truyền hình Mỹ. Watson có khả năng hiểu câu hỏi tiếng Anh phức tạp và truy xuất lượng dữ liệu khổng lồ để tìm câu trả lời, thể hiện sức mạnh của AI trong xử lý ngôn ngữ tự nhiên và tìm kiếm thông tin. Chiến thắng này chứng minh máy tính có thể “hiểu biết” và phản ứng thông minh trong một lĩnh vực kiến thức rộng.
- Mạng xã hội và web: Facebook giới thiệu tính năng nhận diện khuôn mặt tự động gắn thẻ ảnh (khoảng 2010), sử dụng thuật toán học máy trên dữ liệu ảnh người dùng. YouTube và Google sử dụng AI để lọc nội dung và gợi ý video. Các kỹ thuật máy học thầm lặng vận hành trong nền tảng, giúp tối ưu trải nghiệm người dùng mà đôi khi họ không hề biết.
Có thể nói, động lực chính của AI thập niên 2000 nằm ở dữ liệu và ứng dụng. Các thuật toán học máy truyền thống như hồi quy, SVM, cây quyết định… được triển khai trên quy mô lớn, đem lại hiệu quả thực tế.
AI từ chỗ là đề tài nghiên cứu đã chuyển dịch mạnh mẽ vào công nghiệp: “AI cho doanh nghiệp” trở thành chủ đề nóng, với hàng loạt công ty cung cấp giải pháp AI trong quản lý, tài chính, marketing… Năm 2006, thuật ngữ “trí tuệ nhân tạo doanh nghiệp” (enterprise AI) xuất hiện, nhấn mạnh việc áp dụng AI để tăng hiệu quả kinh doanh và ra quyết định.
Cuối thập niên 2000 cũng chứng kiến sự manh nha của cuộc cách mạng học sâu. Các nghiên cứu về mạng nơ-ron nhiều lớp tiếp tục đơm hoa kết trái. Năm 2009, nhóm của Andrew Ng tại Đại học Stanford công bố sử dụng GPU (bộ xử lý đồ họa) để huấn luyện mạng nơ-ron nhanh gấp 70 lần CPU thông thường.
Sức mạnh tính toán song song của GPU vô tình rất phù hợp cho tính toán ma trận của mạng nơ-ron, mở đường cho việc đào tạo các mô hình deep learning lớn trong thập niên 2010. Những viên gạch cuối cùng – dữ liệu lớn, phần cứng mạnh, thuật toán cải tiến – đã sẵn sàng, chỉ chờ thời cơ để bùng nổ thành cuộc cách mạng AI mới.
Thập niên 2010: Cách mạng học sâu (Deep Learning)
Nếu phải chọn một giai đoạn mà AI thực sự “cất cánh”, thì đó chính là thập niên 2010. Với nền móng dữ liệu và phần cứng từ thập kỷ trước, trí tuệ nhân tạo bước vào kỷ nguyên học sâu (deep learning) – các mô hình mạng nơ-ron nhiều tầng đạt được những thành tựu vượt bậc, phá vỡ mọi kỷ lục trong hàng loạt nhiệm vụ AI khác nhau. Giấc mơ về máy móc “học được như não người” phần nào trở nên hiện thực qua các thuật toán deep learning.
Bước ngoặt lịch sử diễn ra vào năm 2012, khi nhóm của Geoffrey Hinton và các học trò (Alex Krizhevsky, Ilya Sutskever) tham gia cuộc thi ImageNet Challenge. Mô hình của họ – thường được gọi là AlexNet – là một mạng nơ-ron tích chập 8 lớp được huấn luyện trên GPU. Kết quả, AlexNet đạt độ chính xác vượt trội, giảm một nửa tỷ lệ lỗi nhận dạng ảnh so với đội xếp thứ hai.
Chiến thắng áp đảo này gây sửng sốt cho cộng đồng thị giác máy tính và đánh dấu khởi đầu cho “cơn sốt deep learning” trong AI. Trong vài năm tiếp theo, hầu hết phương pháp nhận dạng ảnh truyền thống bị thay thế bởi các mô hình deep learning.
Thành công của AlexNet khẳng định rằng với đủ dữ liệu (ImageNet) và tính toán (GPU), mạng nơ-ron sâu có thể vượt xa các kỹ thuật AI khác. Hinton và các cộng sự nhanh chóng được Google mời về, còn deep learning trở thành từ khóa nóng nhất trong nghiên cứu AI từ đây.
Deep learning không chỉ cách mạng hóa thị giác máy tính mà còn lan sang xử lý giọng nói, ngôn ngữ và nhiều lĩnh vực khác. Năm 2012, Google Brain (dự án của Andrew Ng và Jeff Dean) tạo tiếng vang khi công bố một mạng nơ-ron sâu tự học xem video YouTube và phát hiện ra khái niệm “mèo” mà không cần gắn nhãn trước.
Cũng trong khoảng 2011–2014, các trợ lý ảo như Siri, Google Now (2012) và Microsoft Cortana (2014) lần lượt ra đời, tận dụng những tiến bộ trong nhận dạng tiếng nói và hiểu ngôn ngữ tự nhiên. Chẳng hạn, hệ thống nhận dạng tiếng nói của Microsoft đạt độ chính xác ngang con người vào năm 2017, phần lớn nhờ sử dụng mạng nơ-ron sâu để mô hình âm thanh. Trong dịch thuật, năm 2016 Google Translate chuyển sang kiến trúc dịch máy bằng mạng neural (NMT), cải thiện rõ rệt chất lượng dịch so với mô hình thống kê cũ.
Một sự kiện quan trọng khác là chiến thắng của AI trong trò chơi cờ vây – một cột mốc từng được cho là rất xa vời. Tháng 3 năm 2016, chương trình AlphaGo của DeepMind (thuộc Google) đánh bại kỳ thủ cờ vây số một thế giới Lee Sedol với tỷ số 4-1. Cờ vây phức tạp hơn cờ vua rất nhiều, số khả năng nước đi nhiều đến mức không thể brute-force. AlphaGo kết hợp deep learning và thuật toán Monte Carlo Tree Search, học cách chơi thông qua hàng triệu ván cờ của con người và tự chơi với chính mình.
Chiến thắng này được so sánh ngang tầm với trận đấu Deep Blue-Kasparov 1997, khẳng định AI đã có thể vượt trội con người ở những lĩnh vực đòi hỏi trực giác và kinh nghiệm. Sau AlphaGo, DeepMind tiếp tục phát triển AlphaGo Zero (2017) hoàn toàn tự học chơi cờ vây từ luật, không cần dữ liệu con người, vẫn đánh bại phiên bản cũ 100-0. Điều này cho thấy tiềm năng của học tăng cường (reinforcement learning) kết hợp deep learning trong việc đạt hiệu năng siêu phàm.
Cũng trong năm 2017, một phát minh mang tính đột phá ra đời trong lĩnh vực xử lý ngôn ngữ: kiến trúc Transformer. Các nhà nghiên cứu Google công bố mô hình Transformer trong bài báo “Attention Is All You Need”, đề xuất cơ chế self-attention cho phép mô hình học quan hệ giữa các từ trong câu mà không cần tuần tự chuỗi.
Transformer giúp huấn luyện các mô hình ngôn ngữ lớn (LLM) hiệu quả hơn rất nhiều so với kiến trúc tuần tự trước đó (RNN/LSTM). Kể từ đây, hàng loạt mô hình ngôn ngữ cải tiến dựa trên Transformer ra đời: BERT (Google, 2018) dùng để hiểu ngữ cảnh, và đặc biệt GPT (Generative Pre-trained Transformer) của OpenAI lần đầu giới thiệu năm 2018.
Những mô hình này đạt kết quả vượt trội trong các tác vụ ngôn ngữ từ phân loại, trả lời câu hỏi đến sinh văn bản. Transformer đặt nền móng cho cuộc đua mô hình ngôn ngữ khổng lồ trong thập niên 2020.
Cuối thập niên 2010 còn có sự xuất hiện của AI sinh tạo (generative AI) – các mô hình AI có khả năng tự tạo ra nội dung mới. Năm 2014, Ian Goodfellow và đồng nghiệp phát minh ra mô hình GAN (Generative Adversarial Network), gồm hai mạng nơ-ron đối nghịch nhau để tạo ra dữ liệu giả trông giống dữ liệu thật.
GAN nhanh chóng nổi tiếng với khả năng tạo ảnh chân dung người giả rất chân thực (deepfake). Song song, mô hình autoencoder biến thể (VAE) và mạng chuyển kiểu (style transfer) cũng được phát triển, cho phép biến hóa hình ảnh, video theo phong cách mới.
Đến 2019, OpenAI giới thiệu GPT-2 – mô hình sinh văn bản 1.5 tỷ tham số gây chú ý vì có thể tạo ra đoạn văn dài lưu loát gần giống con người. Rõ ràng, AI giờ đây không chỉ phân loại hay dự đoán, mà còn có thể sáng tạo nội dung một cách thuyết phục.
AI trong thập niên 2010 đã có những bước tiến nhảy vọt vượt ngoài mong đợi. Nhiều nhiệm vụ mà trước đây được coi là “bất khả thi” cho máy tính thì nay, AI đã làm được ở hoặc vượt mức con người: nhận diện hình ảnh, nhận dạng giọng nói, dịch thuật, chơi các trò chơi phức tạp...
Quan trọng hơn, AI bắt đầu len lỏi vào đời sống thường ngày: từ camera smartphone tự động nhận diện khuôn mặt, trợ lý ảo trong loa thông minh (Alexa, Google Home), đến các đề xuất nội dung trên mạng xã hội đều do AI đảm nhiệm. Đây thực sự là giai đoạn AI bùng nổ, khiến nhiều người ví von rằng “AI là điện năng mới” – một công nghệ nền tảng làm thay đổi mọi ngành nghề.
Thập niên 2020: Bùng nổ AI sinh tạo và xu hướng mới
Chỉ trong vài năm đầu thập niên 2020, AI đã bùng nổ với tốc độ chưa từng có, chủ yếu nhờ sự trỗi dậy của AI sinh tạo (Generative AI) và các mô hình ngôn ngữ lớn (LLM). Những hệ thống này giúp AI tiếp cận trực tiếp đến hàng trăm triệu người dùng, tạo ra một làn sóng ứng dụng sáng tạo cũng như dấy lên nhiều thảo luận xã hội sâu rộng về tác động của AI.
Tháng 6 năm 2020, OpenAI giới thiệu GPT-3 – mô hình ngôn ngữ khổng lồ với 175 tỷ tham số, lớn gấp 10 lần mô hình lớn nhất trước đó. GPT-3 gây kinh ngạc khi có thể viết đoạn văn, trả lời câu hỏi, làm thơ, viết mã lập trình... gần như con người, mặc dù vẫn mắc lỗi thực tế. Sức mạnh của GPT-3 cho thấy quy mô mô hình kết hợp với lượng dữ liệu huấn luyện khổng lồ có thể mang lại khả năng sinh ngôn ngữ mượt mà chưa từng có. Các ứng dụng dựa trên GPT-3 nhanh chóng ra đời, từ viết nội dung marketing, trợ lý email cho đến hỗ trợ lập trình.
Đến tháng 11 năm 2022, AI thật sự bước ra ánh sáng công chúng với sự ra mắt của ChatGPT – một chatbot tương tác do OpenAI phát triển, dựa trên mô hình GPT-3.5. Chỉ trong 5 ngày, ChatGPT đạt 1 triệu người dùng, và trong khoảng 2 tháng đã vượt 100 triệu người dùng, trở thành ứng dụng tiêu dùng phát triển nhanh nhất lịch sử.
ChatGPT có khả năng trả lời lưu loát hàng loạt câu hỏi, từ soạn thảo văn bản, giải toán, tư vấn… khiến người dùng kinh ngạc về độ “thông minh” và linh hoạt của nó. Sự phổ biến của ChatGPT đánh dấu AI lần đầu tiên được sử dụng đại trà như một công cụ sáng tạo nội dung, đồng thời khởi đầu cho cuộc đua AI giữa các “ông lớn” công nghệ.
Ngay đầu 2023, Microsoft tích hợp GPT-4 (mô hình kế tiếp của OpenAI) vào công cụ tìm kiếm Bing, trong khi Google ra mắt chatbot Bard sử dụng mô hình LaMDA của riêng mình. Cuộc cạnh tranh này giúp công nghệ AI sinh tạo ngày càng tiếp cận rộng rãi hơn và được cải tiến nhanh chóng.
Bên cạnh văn bản, AI sinh tạo trong lĩnh vực hình ảnh, âm thanh cũng phát triển vượt bậc. Năm 2022, các mô hình text-to-image như DALL-E 2 (OpenAI), Midjourney và Stable Diffusion cho phép người dùng nhập mô tả văn bản và nhận lại hình ảnh do AI vẽ nên. Chất lượng hình ảnh sống động và sáng tạo đến mức khó tin, mở ra kỷ nguyên mới cho sáng tạo nội dung số.
Tuy nhiên, nó cũng đặt ra thách thức về bản quyền và đạo đức, khi AI học từ tranh ảnh của nghệ sĩ và tạo ra sản phẩm tương tự. Trong âm thanh, các mô hình text-to-speech thế hệ mới có thể chuyển văn bản thành giọng nói giống hệt người thật, thậm chí nhái giọng người nổi tiếng, gây lo ngại về deepfake giọng nói.
Năm 2023, lần đầu tiên các vụ kiện tụng về bản quyền dữ liệu huấn luyện AI diễn ra – ví dụ công ty Getty Images kiện Stability AI (nhà phát triển Stable Diffusion) vì đã sử dụng hàng triệu hình ảnh có bản quyền để huấn luyện mô hình mà không xin phép. Điều này cho thấy mặt trái của sự bùng nổ AI: các vấn đề pháp lý, đạo đức và xã hội bắt đầu nổi lên, đòi hỏi sự quan tâm nghiêm túc.
Giữa cơn sốt AI, năm 2023 chứng kiến cộng đồng chuyên gia bày tỏ lo ngại về rủi ro của AI mạnh. Hơn 1.000 nhân vật trong ngành công nghệ (gồm Elon Musk, Steve Wozniak, các nhà nghiên cứu AI…) ký tên vào một bức thư ngỏ kêu gọi tạm dừng 6 tháng việc huấn luyện các mô hình AI lớn hơn GPT-4, do lo ngại việc phát triển quá nhanh có thể nằm ngoài tầm kiểm soát.
Cùng năm, những người tiên phong như Geoffrey Hinton (một “bố già” của deep learning) cũng lên tiếng cảnh báo về nguy cơ AI vượt khỏi sự quản lý của con người. Ủy ban châu Âu đã nhanh chóng hoàn thiện Đạo luật AI (EU AI Act) – bộ quy định toàn diện đầu tiên về trí tuệ nhân tạo trên thế giới, dự kiến áp dụng từ 2024. Luật này cấm các hệ thống AI được coi là “rủi ro không thể chấp nhận” (như giám sát hàng loạt, chấm điểm xã hội) và yêu cầu minh bạch đối với mô hình AI tổng quát.
Tại Mỹ, nhiều bang cũng ban hành luật giới hạn sử dụng AI trong các lĩnh vực nhạy cảm (tuyển dụng, tài chính, vận động bầu cử, v.v.). Rõ ràng, thế giới đang gấp rút định hình khung pháp lý và đạo đức cho AI, một phần tất yếu khi công nghệ đã phát triển đến mức ảnh hưởng sâu rộng.
Nhìn chung, thập niên 2020 đang chứng kiến AI bùng nổ cả về kỹ thuật lẫn phổ biến. Những công cụ AI thế hệ mới như ChatGPT, DALL-E, Midjourney… đã trở nên quen thuộc, giúp hàng triệu người sáng tạo, làm việc hiệu quả hơn theo những cách chưa từng có.
Đồng thời, cuộc chạy đua đầu tư vào AI diễn ra sôi nổi: theo dự báo, chi tiêu cho AI tạo sinh của các doanh nghiệp sẽ vượt 1 nghìn tỷ USD trong những năm tới. AI cũng thâm nhập ngày càng sâu vào các ngành: y tế (hỗ trợ chẩn đoán hình ảnh, tìm kiếm thuốc mới), tài chính (phân tích rủi ro, phát hiện gian lận), giáo dục (trợ giảng ảo, nội dung học tập cá nhân hóa), giao thông (xe tự lái cấp độ cao), quốc phòng (ra quyết định chiến thuật), v.v.
Có thể nói, AI giờ đây giống như điện hay Internet – một hạ tầng công nghệ mà mọi doanh nghiệp và chính phủ đều muốn khai thác. Nhiều chuyên gia lạc quan rằng AI sẽ tiếp tục đem lại những bước nhảy vọt về năng suất và chất lượng cuộc sống nếu được phát triển và quản lý đúng hướng.
Từ những năm 1950 đến nay, lịch sử phát triển của AI đã đi qua một chặng đường đáng kinh ngạc – đầy tham vọng, thất vọng, rồi lại thăng hoa. Từ hội thảo Dartmouth 1956 nhỏ bé đặt nền móng cho ngành, AI đã hai lần rơi vào “mùa đông” vì kỳ vọng quá mức, nhưng sau mỗi lần lại trỗi dậy mạnh mẽ hơn nhờ những đột phá khoa học và công nghệ. Đặc biệt trong khoảng 15 năm trở lại đây, AI đã tiến bộ vượt bậc, thực sự bước từ phòng thí nghiệm ra thế giới thực và tạo ra ảnh hưởng sâu rộng.
Ở thời điểm hiện tại, AI hiện diện trong hầu hết mọi lĩnh vực và ngày càng thông minh, đa năng hơn. Tuy vậy, mục tiêu AI mạnh (trí tuệ nhân tạo tổng quát) – một cỗ máy có trí thông minh linh hoạt như con người – vẫn còn ở phía trước.
Những mô hình AI hiện nay dù ấn tượng nhưng vẫn chỉ giỏi trong phạm vi nhiệm vụ được huấn luyện, đôi khi mắc lỗi ngớ ngẩn (như việc ChatGPT có thể “ảo giác” thông tin sai với sự tự tin cao). Thách thức về an toàn và đạo đức cũng đặt ra yêu cầu cấp bách: làm sao để AI phát triển có kiểm soát, minh bạch và vì lợi ích chung của nhân loại.
Chặng đường tiếp theo của AI hứa hẹn sẽ cực kỳ thú vị. Với đà tiến hiện nay, chúng ta có thể thấy AI thâm nhập sâu hơn nữa vào cuộc sống: từ những bác sĩ AI hỗ trợ con người chăm sóc sức khỏe, luật sư AI tra cứu văn bản pháp luật, đến người bạn AI đồng hành trong học tập và tâm sự.
Công nghệ như điện toán não bộ (neuromorphic computing) đang được nghiên cứu để bắt chước kiến trúc não người, có thể tạo ra thế hệ AI mới hiệu quả và gần với trí thông minh tự nhiên hơn. Dù viễn cảnh AI vượt trí tuệ con người còn gây tranh cãi, nhưng rõ ràng AI sẽ tiếp tục tiến hóa và định hình tương lai nhân loại theo cách sâu sắc.
Nhìn lại lịch sử hình thành và phát triển của AI, chúng ta thấy một câu chuyện về sự kiên trì và sáng tạo không ngừng của con người. Từ chiếc máy tính sơ khai chỉ biết tính toán, con người đã dạy cho máy biết chơi cờ, lái xe, nhận dạng thế giới và thậm chí sáng tác nghệ thuật. Trí tuệ nhân tạo đã, đang và sẽ tiếp tục là minh chứng cho khả năng vượt giới hạn của chính chúng ta.
Điều quan trọng là chúng ta học được từ bài học lịch sử – biết đặt kỳ vọng đúng chỗ, phát triển AI một cách có trách nhiệm – để đảm bảo rằng AI mang lại lợi ích tối đa cho nhân loại trong những chặng đường kế tiếp.