در سال‌های اخیر (۲۰۲۳–۲۰۲۵)، هوش مصنوعی در زمینه‌های مختلف جهش‌های بزرگی داشته است. مدل‌های زبانی بزرگ (LLM) و چت‌بات‌ها، سیستم‌های چندرسانه‌ای، ابزارهای علمی هوش مصنوعی و رباتیک همگی شاهد پیشرفت‌های چشمگیری بودند.

شرکت‌های بزرگ فناوری دستیارهای هوش مصنوعی جدیدی عرضه کردند، جوامع متن‌باز مدل‌های قدرتمندی ارائه دادند و حتی نهادهای نظارتی نیز به بررسی تأثیرات هوش مصنوعی پرداختند.

در ادامه، برجسته‌ترین دستاوردها را مرور می‌کنیم؛ از توسعه‌های GPT-4 و Gemini گوگل گرفته تا جایزه نوبل AlphaFold و کشفیات علمی و هنری مبتنی بر هوش مصنوعی.

مدل‌های زبانی مولد و چت‌بات‌ها

مدل‌های زبانی بزرگ مدرن به‌طور قابل توجهی توانمندتر و چندرسانه‌ای شده‌اند. GPT-4 Turbo شرکت OpenAI (اعلام شده در نوامبر ۲۰۲۳) اکنون قادر است ۱۲۸,۰۰۰ توکن را در یک درخواست پردازش کند (معادل حدود ۳۰۰ صفحه متن) و هزینه اجرای آن بسیار کمتر از GPT-4 است.

در می ۲۰۲۴، OpenAI مدل ارتقاء یافته GPT-4o (Omni) را معرفی کرد که به‌صورت بلادرنگ متن، تصویر و صدا را پردازش می‌کند – به‌عبارتی به GPT-4 قابلیت «بینایی و شنوایی» مکالمه‌ای داده است. خود ChatGPT اکنون دارای قابلیت‌های تصویر و صدا است: کاربران می‌توانند عکس بارگذاری کنند یا با ربات صحبت کنند و پاسخ بر اساس ورودی‌های بصری یا صوتی دریافت کنند.

  • GPT-4 Turbo و GPT-4o (Omni): GPT-4 Turbo (نوامبر ۲۰۲۳) هزینه‌ها را کاهش داده و طول متن قابل پردازش را به ۱۲۸ هزار توکن افزایش داد. GPT-4o (می ۲۰۲۴) هوش مصنوعی را واقعاً چندرسانه‌ای کرد و متن، صدا و تصویر را با سرعتی نزدیک به انسان تولید می‌کند.
  • پیشرفت‌های ChatGPT: تا اواخر ۲۰۲۳، ChatGPT «می‌تواند ببیند، بشنود و صحبت کند» – تصاویر و صداها می‌توانند به‌عنوان ورودی بارگذاری یا گفته شوند و ربات بر اساس آن پاسخ می‌دهد.
    همچنین DALL·E 3 (اکتبر ۲۰۲۳) را ادغام کرده تا بتواند با کمک دستورهای مکالمه‌ای تصاویر تولید کند.
  • سری Gemini گوگل: در دسامبر ۲۰۲۴، Google DeepMind اولین مدل‌های Gemini 2.0 («Flash» و نمونه‌های اولیه) را برای «عصر عامل‌محور» عرضه کرد – هوش مصنوعی که می‌تواند به‌طور خودکار وظایف چندمرحله‌ای را انجام دهد.
    گوگل در حال حاضر Gemini 2.0 را در جستجو (AI Overviews) و محصولات دیگر برای بیش از یک میلیارد کاربر آزمایش می‌کند که نشان‌دهنده توانایی‌های ارتقاء یافته استدلال و چندرسانه‌ای آن است.
  • مدل‌های دیگر: متا در آوریل ۲۰۲۴ مدل LLaMA 3 را منتشر کرد (مدل‌های زبانی بزرگ متن‌باز تا ۴۰۰ میلیارد پارامتر) که ادعا می‌شود از بسیاری مدل‌های قبلی بهتر است.
    Anthropic مدل Claude 3 و ابزارهای همیار مایکروسافت نیز بر اساس این پیشرفت‌ها ساخته شده‌اند (مثلاً Copilot بر پایه فناوری OpenAI است).

این نوآوری‌ها به دستیارهای هوش مصنوعی اجازه می‌دهد مکالمات طولانی‌تر و غنی‌تر داشته باشند و ورودی‌های متنوعی را مدیریت کنند.

همچنین این فناوری‌ها برنامه‌های «دستیار» جدیدی را از طریق APIها (مانند «AI Overviews» گوگل، API دستیارهای OpenAI و غیره) ممکن ساخته‌اند و هوش مصنوعی را برای توسعه‌دهندگان و کاربران نهایی قابل دسترس‌تر کرده‌اند.

مدل‌های زبانی مولد و چت‌بات‌ها

پیشرفت‌های چندرسانه‌ای و خلاقانه هوش مصنوعی

خلاقیت و درک بصری هوش مصنوعی به‌شدت رشد کرده است. مدل‌های متن به تصویر و متن به ویدئو به سطوح جدیدی رسیده‌اند:

OpenAI مدل DALL·E 3 (اکتبر ۲۰۲۳) را عرضه کرد که تصاویر فوتورئالیستی از دستورات متنی تولید می‌کند و حتی با ChatGPT برای نوشتن دستورهای هدایت‌شده ادغام شده است.

گوگل مدل‌های Imagen 3 (اکتبر ۲۰۲۴) و Veo 2 (دسامبر ۲۰۲۴) را معرفی کرد – موتورهای پیشرفته متن به تصویر و متن به ویدئو – که کیفیت، جزئیات و انسجام هنر و ویدئوهای تولید شده توسط هوش مصنوعی را به‌طور چشمگیری بهبود بخشیده‌اند.

حتی هوش مصنوعی موسیقی نیز با ابزارهای MusicFX گوگل و تحقیقات مرتبط (مانند آزمایش‌های MusicLM) پیشرفت کرده است.

  • مدل‌های هنر مولد: DALL·E 3 و Imagen 3 می‌توانند دستورهای ظریف (از جمله متن‌های جاسازی شده در تصاویر) را با دقت بالا دنبال کنند.
    Veo 2 گوگل قادر است کلیپ‌های کوتاه ویدئویی را تنها از یک توصیف متنی تولید کند که گامی مهم در سنتز ویدئو است.
    Stable Diffusion و Midjourney نیز نسخه‌های جدیدتری (v3، v6) با واقع‌گرایی بهتر در سال جاری منتشر کرده‌اند.
  • هوش مصنوعی در دستگاه‌ها: اپل در iOS 18 و macOS 15 (اواخر ۲۰۲۴) قابلیت Apple Intelligence را معرفی کرد – هوش مصنوعی مولد داخلی در آیفون، آیپد و مک.
    این قابلیت شامل دستیارهای نوشتاری (بازنویسی، ویرایش، خلاصه‌سازی در Mail/Pages)، سیری هوشمندتر و ابزارهای تصویری مانند Image Playground (ایجاد تصاویر سرگرم‌کننده از متن) و Genmoji (ایموجی‌های سفارشی تولید شده توسط هوش مصنوعی) است.
    جستجوی طبیعی در عکس‌ها («مایا را هنگام اسکیت‌سواری پیدا کن») و قابلیت «پاک‌سازی» هوش مصنوعی برای حذف اشیاء ناخواسته از تصاویر نیز اضافه شده‌اند.
    رویکرد اپل بر پردازش در دستگاه و حفظ حریم خصوصی تأکید دارد.
  • هوش مصنوعی در هنر: نمونه برجسته‌ای در نوامبر ۲۰۲۴، فروش اولین نقاشی توسط ربات انسان‌نمایی در ساتبی بود.
    پرتره آلن تورینگ که توسط ربات هوش مصنوعی Ai-Da کشیده شده بود، به قیمت ۱.۰۸ میلیون دلار آمریکا فروخته شد.
    این فروش رکوردشکن («خدای هوش مصنوعی: پرتره آلن تورینگ») نقش رو به رشد هوش مصنوعی در خلاقیت و تأثیر فرهنگی آن را برجسته می‌کند.

در کل، مدل‌های مولد خلاقیت را دموکراتیک کرده‌اند: اکنون هر کسی می‌تواند با چند کلمه هنر، موسیقی یا ویدئو تولید کند.
تمرکز صنعت از نوآوری صرف (تصاویر سورئال) به تولید تصویر کاربردی (لوگو، نمودار، نقشه) و واقع‌گرایی شبیه انسان تغییر یافته است.

(در مارس ۲۰۲۵، OpenAI حتی «تولید تصویر 4o» را منتشر کرد که بهترین مدل تصویر خود را در GPT-4o ادغام کرده و خروجی‌های دقیق و فوتورئالیستی را با هدایت مکالمه ارائه می‌دهد.)

این ابزارها به سرعت در برنامه‌ها، مرورگرها و جریان‌های کاری خلاقانه جای گرفته‌اند.

پیشرفت‌های چندرسانه‌ای و خلاقانه هوش مصنوعی

هوش مصنوعی در علوم، پزشکی و ریاضیات

دستاوردهای هوش مصنوعی موجب پیشرفت‌های علمی و تحقیقاتی شده‌اند:

  • AlphaFold 3 – بیومولکول‌ها: در نوامبر ۲۰۲۴، Google DeepMind (با همکاری Isomorphic Labs) مدل جدید AlphaFold 3 را معرفی کرد که ساختارهای سه‌بعدی تمام بیومولکول‌ها (پروتئین‌ها، DNA، RNA، لیگاندها و غیره) را به‌طور همزمان با دقت بی‌سابقه پیش‌بینی می‌کند.
    در تعاملات پروتئین-دارو، AlphaFold 3 حدود ۵۰٪ دقیق‌تر از روش‌های سنتی است.
    سازندگان آن بلافاصله یک سرور AlphaFold رایگان منتشر کردند تا پژوهشگران سراسر جهان بتوانند ساختارهای مولکولی را پیش‌بینی کنند.
    این مدل توسعه‌ای بر پیش‌بینی‌های فقط پروتئینی AlphaFold 2 است و انتظار می‌رود کشف دارو و تحقیقات ژنومیک را متحول کند.
  • جایزه نوبل – تا شدن پروتئین: اهمیت این پیشرفت با جایزه نوبل شیمی ۲۰۲۴ تأیید شد.
    دمیس هسابیس و جان جامپر (DeepMind) به همراه دیوید بیکر برای توسعه AlphaFold (هوش مصنوعی تا شدن پروتئین) جایزه را دریافت کردند.
    کمیته نوبل اشاره کرد AlphaFold «امکانات کاملاً جدیدی» در طراحی پروتئین باز کرده است.
    (این یکی از برجسته‌ترین دستاوردهای هوش مصنوعی تاکنون است.)
  • AlphaProteo – طراحی دارو: همچنین در ۲۰۲۴، DeepMind مدل AlphaProteo را معرفی کرد که طراحی اتصال‌دهنده‌های پروتئینی نوآورانه را انجام می‌دهد – مولکول‌هایی که با قدرت بالا به پروتئین‌های هدف متصل می‌شوند.
    AlphaProteo می‌تواند با تولید ساختارهای پروتئینی امیدوارکننده برای اهداف مشخص، سرعت ایجاد آنتی‌بادی‌ها، حسگرهای زیستی و داروهای جدید را افزایش دهد.
  • ریاضیات – AlphaGeometry: مدل‌های AlphaGeometry و AlphaProof از DeepMind نیز پیشرفت مهمی داشتند.
    در ژوئیه ۲۰۲۴، AlphaGeometry 2 مسئله‌ای از المپیاد بین‌المللی ریاضی را در ۱۹ ثانیه حل کرد و به سطح مدال نقره رسید.
    این نمونه نادری از حل مسائل پیشرفته ریاضی دبیرستان توسط هوش مصنوعی است.
  • محاسبات کوانتومی – AlphaQubit و Willow: هوش مصنوعی همچنین در سخت‌افزار پیشرفته پیشرفت کرده است.
    در ۲۰۲۴، گوگل AlphaQubit را معرفی کرد، یک رمزگشای مبتنی بر هوش مصنوعی که خطاهای کامپیوترهای کوانتومی (مانند چیپ‌های Sycamore گوگل) را بسیار بهتر از روش‌های قبلی شناسایی می‌کند.
    سپس در دسامبر ۲۰۲۴، گوگل Willow را معرفی کرد، یک چیپ کوانتومی جدید که با استفاده از تصحیح خطای پیشرفته، کاری را در کمتر از ۵ دقیقه انجام داد که بهترین ابرکامپیوترهای امروز حدود ۱۰^۲۴ سال طول می‌کشید.
    این موفقیت‌ها باعث شد Willow جایزه «پیشرفت فیزیکی سال ۲۰۲۴» را دریافت کند و نقش هوش مصنوعی در پیشرفت کوانتومی را برجسته سازد.

در حوزه پزشکی و سلامت نیز مدل‌های هوش مصنوعی پیشرفت‌های قابل توجهی داشته‌اند. به‌عنوان مثال، مدل جدید Med-Gemini گوگل (با تنظیم دقیق روی داده‌های پزشکی) در آزمون معیار پزشکی آمریکا (شبیه USMLE) نمره ۹۱.۱٪ کسب کرد و مدل‌های قبلی را با اختلاف زیادی پشت سر گذاشت.

ابزارهای مبتنی بر هوش مصنوعی برای رادیولوژی و آسیب‌شناسی (مانند Derm و Path Foundations) برای بهبود تحلیل تصاویر عرضه شده‌اند.
در مجموع، هوش مصنوعی اکنون شریک تحقیقاتی ضروری است – از نقشه‌برداری مغز انسان در مقیاس نانو (با تصویربرداری EM کمک‌گرفته از هوش مصنوعی) تا تسریع غربالگری سل در آفریقا، همان‌طور که پژوهشگران گوگل گزارش داده‌اند.

هوش مصنوعی در علوم، پزشکی و ریاضیات

هوش مصنوعی در رباتیک و اتوماسیون

ربات‌های مجهز به هوش مصنوعی در حال یادگیری انجام وظایف پیچیده دنیای واقعی هستند.

ربات‌های انسان‌نمای Optimus شرکت تسلا در اکتبر ۲۰۲۴ به‌صورت عمومی نمایش داده شدند (رویداد «ما، ربات»). چندین ده واحد Optimus روی صحنه راه رفتند، ایستادند و حتی رقصیدند – اگرچه گزارش‌های بعدی اشاره کردند که نمایش‌های اولیه تا حدی توسط انسان‌ها کنترل از راه دور شده بود.

با این حال، این رویداد پیشرفت سریع به سمت ربات‌های چندمنظوره را نشان داد.

  • ربات‌های ALOHA از DeepMind: آزمایشگاه هوش مصنوعی گوگل در زمینه ربات‌های خانگی پیشرفت چشمگیری داشت.
    در ۲۰۲۴، ربات ALOHA (دستیار خانگی خودران با پا) یاد گرفت بند کفش ببندد، پیراهن آویزان کند، ربات دیگری را تعمیر کند، چرخ‌دنده‌ها را جا بزند و حتی آشپزخانه را تمیز کند تنها با استفاده از برنامه‌ریزی و بینایی هوش مصنوعی.
    منابع باز «ALOHA Unleashed» نشان دادند ربات‌ها می‌توانند با هماهنگی دو بازو وظایف را انجام دهند که برای اولین بار در دستکاری چندمنظوره عمومی است.
  • ربات‌های ترنسفورمر: DeepMind مدل RT-2 (Robotic Transformer 2) را معرفی کرد، مدلی مبتنی بر بینایی، زبان و عمل که می‌تواند از تصاویر اینترنت و داده‌های واقعی ربات‌ها یاد بگیرد.
    RT-2 به ربات‌ها اجازه می‌دهد دستورات را مانند انسان تفسیر کنند با بهره‌گیری از دانش وب.
    این مدل در کمک به ربات برای مرتب‌کردن اشیاء با دنبال‌کردن دستورات متنی نمایش داده شد.
  • ربات‌های صنعتی: شرکت‌های دیگر نیز پیشرفت کردند: Boston Dynamics به بهبود ربات‌های Atlas و Spot ادامه داد (اگرچه هیچ پیشرفت برجسته‌ای اعلام نشد) و خودروهای خودران مبتنی بر هوش مصنوعی پیشرفت کردند (نسخه بتای رانندگی خودکار کامل تسلا گسترده‌تر شد، اگرچه خودران کامل هنوز حل نشده است).
    در صنعت، شرکت‌های متمرکز بر هوش مصنوعی مانند Figure AI سرمایه‌گذاری‌هایی برای ساخت ربات‌های خانگی انجام کارهای روزمره جذب کردند.

این تلاش‌ها نشان می‌دهد ربات‌ها به تدریج وظایف دشوارتر را بدون برنامه‌نویسی صریح انجام می‌دهند. با این حال، ربات‌های انسان‌نمای کاملاً خودران هنوز در افق آینده قرار دارند.

نمایش‌ها (Optimus، ALOHA، RT-2) نقاط عطفی هستند، اما پژوهشگران هشدار می‌دهند که هنوز کارهای زیادی باقی است تا ربات‌ها بتوانند به‌طور ایمن و قابل اعتماد در کنار انسان‌ها در مقیاس وسیع کار کنند.

هوش مصنوعی در رباتیک و اتوماسیون

هوش مصنوعی در محصولات، صنعت و جامعه

تأثیر هوش مصنوعی به محصولات روزمره و حتی سیاست‌گذاری نیز گسترش یافته است:

  • دستگاه‌های مصرفی: محصولات فناوری بزرگ، عامل‌های هوش مصنوعی را در خود جای داده‌اند.
    Copilot مایکروسافت (در ویندوز، آفیس، بینگ) و Bard/Bard AI گوگل در جستجو (با پشتیبانی Gemini) قدرت مدل‌های زبانی بزرگ را به کاربران رسانده‌اند.
    دستگاه‌های اپل نیز Apple Intelligence را دریافت کردند (همان‌طور که پیش‌تر ذکر شد) و سازندگان سخت‌افزار مانند Nvidia تعداد بی‌سابقه‌ای کارت گرافیک هوش مصنوعی فروختند که هم در فضای ابری و هم در مصرف‌کننده کاربرد دارد.
    (Nvidia در سال ۲۰۲۴ به ارزشمندترین شرکت جهان در پی رونق هوش مصنوعی تبدیل شد.)
  • قانون‌گذاری – قانون هوش مصنوعی اتحادیه اروپا: با توجه به گستردگی هوش مصنوعی، نهادهای نظارتی نیز وارد عمل شدند.
    در اول اوت ۲۰۲۴، قانون هوش مصنوعی اتحادیه اروپا به اجرا درآمد، اولین قانون جامع در این حوزه.
    این قانون چارچوبی مبتنی بر ریسک ایجاد می‌کند: هوش مصنوعی کم‌ریسک (فیلترهای هرزنامه، بازی‌های ویدئویی) قوانین حداقلی دارد؛ قوانین شفافیت الزام می‌کنند سیستم‌هایی مانند چت‌بات‌ها اعلام کنند که هوش مصنوعی هستند؛ هوش مصنوعی پرریسک (ابزارهای پزشکی یا استخدام) تحت نظارت سختگیرانه قرار می‌گیرد؛ و هوش مصنوعی غیرقابل قبول (مانند «امتیازدهی اجتماعی» افراد توسط دولت‌ها) ممنوع است.
    این مجموعه قوانین (همراه با دستورالعمل‌های آینده درباره مدل‌های چندمنظوره) دستاورد بزرگی در حاکمیت هوش مصنوعی است و احتمالاً استانداردهای جهانی را تحت تأثیر قرار خواهد داد.
  • رشد صنعت: خود بخش هوش مصنوعی شاهد سرمایه‌گذاری‌ها و ارزش‌گذاری‌های تاریخی بود: OpenAI در اواخر ۲۰۲۳ به ارزش ۱۵۷ میلیارد دلار رسید و شرکت‌هایی مانند Anthropic، Inflection و استارتاپ‌های چینی هوش مصنوعی دورهای چند میلیارد دلاری جذب کردند.
    تقاضای سخت‌افزار هوش مصنوعی Nvidia ارزش بازار آن را تا میانه ۲۰۲۴ به بیش از ۳.۵ تریلیون دلار رساند.
    این ارقام نشان می‌دهد هوش مصنوعی به مرکز اقتصاد فناوری تبدیل شده است.

>>> آیا تا به حال تلاش کرده‌اید: مقایسه هوش مصنوعی با هوش انسانی ؟

هوش مصنوعی در محصولات، صنعت و جامعه


خلاصه اینکه، هوش مصنوعی دیگر محدود به آزمایشگاه‌ها یا نمایش‌های نوآورانه نیست – بلکه در تلفن‌ها، خودروها، محیط‌های کاری و سیاست‌های عمومی جای گرفته است.

پیشرفت‌های فوق – از دانش گسترده GPT-4 تا انقلاب‌های علمی AlphaFold – بلوغ سریع هوش مصنوعی را نشان می‌دهند.

با ورود به سال ۲۰۲۵، این دستاوردها نویدبخش کاربردهای قدرتمندتر و عملی‌تر هوش مصنوعی در زندگی روزمره ما هستند.