در سالهای اخیر (۲۰۲۳–۲۰۲۵)، هوش مصنوعی در زمینههای مختلف جهشهای بزرگی داشته است. مدلهای زبانی بزرگ (LLM) و چتباتها، سیستمهای چندرسانهای، ابزارهای علمی هوش مصنوعی و رباتیک همگی شاهد پیشرفتهای چشمگیری بودند.
شرکتهای بزرگ فناوری دستیارهای هوش مصنوعی جدیدی عرضه کردند، جوامع متنباز مدلهای قدرتمندی ارائه دادند و حتی نهادهای نظارتی نیز به بررسی تأثیرات هوش مصنوعی پرداختند.
در ادامه، برجستهترین دستاوردها را مرور میکنیم؛ از توسعههای GPT-4 و Gemini گوگل گرفته تا جایزه نوبل AlphaFold و کشفیات علمی و هنری مبتنی بر هوش مصنوعی.
مدلهای زبانی مولد و چتباتها
مدلهای زبانی بزرگ مدرن بهطور قابل توجهی توانمندتر و چندرسانهای شدهاند. GPT-4 Turbo شرکت OpenAI (اعلام شده در نوامبر ۲۰۲۳) اکنون قادر است ۱۲۸,۰۰۰ توکن را در یک درخواست پردازش کند (معادل حدود ۳۰۰ صفحه متن) و هزینه اجرای آن بسیار کمتر از GPT-4 است.
در می ۲۰۲۴، OpenAI مدل ارتقاء یافته GPT-4o (Omni) را معرفی کرد که بهصورت بلادرنگ متن، تصویر و صدا را پردازش میکند – بهعبارتی به GPT-4 قابلیت «بینایی و شنوایی» مکالمهای داده است. خود ChatGPT اکنون دارای قابلیتهای تصویر و صدا است: کاربران میتوانند عکس بارگذاری کنند یا با ربات صحبت کنند و پاسخ بر اساس ورودیهای بصری یا صوتی دریافت کنند.
- GPT-4 Turbo و GPT-4o (Omni): GPT-4 Turbo (نوامبر ۲۰۲۳) هزینهها را کاهش داده و طول متن قابل پردازش را به ۱۲۸ هزار توکن افزایش داد. GPT-4o (می ۲۰۲۴) هوش مصنوعی را واقعاً چندرسانهای کرد و متن، صدا و تصویر را با سرعتی نزدیک به انسان تولید میکند.
- پیشرفتهای ChatGPT: تا اواخر ۲۰۲۳، ChatGPT «میتواند ببیند، بشنود و صحبت کند» – تصاویر و صداها میتوانند بهعنوان ورودی بارگذاری یا گفته شوند و ربات بر اساس آن پاسخ میدهد.
همچنین DALL·E 3 (اکتبر ۲۰۲۳) را ادغام کرده تا بتواند با کمک دستورهای مکالمهای تصاویر تولید کند. - سری Gemini گوگل: در دسامبر ۲۰۲۴، Google DeepMind اولین مدلهای Gemini 2.0 («Flash» و نمونههای اولیه) را برای «عصر عاملمحور» عرضه کرد – هوش مصنوعی که میتواند بهطور خودکار وظایف چندمرحلهای را انجام دهد.
گوگل در حال حاضر Gemini 2.0 را در جستجو (AI Overviews) و محصولات دیگر برای بیش از یک میلیارد کاربر آزمایش میکند که نشاندهنده تواناییهای ارتقاء یافته استدلال و چندرسانهای آن است. - مدلهای دیگر: متا در آوریل ۲۰۲۴ مدل LLaMA 3 را منتشر کرد (مدلهای زبانی بزرگ متنباز تا ۴۰۰ میلیارد پارامتر) که ادعا میشود از بسیاری مدلهای قبلی بهتر است.
Anthropic مدل Claude 3 و ابزارهای همیار مایکروسافت نیز بر اساس این پیشرفتها ساخته شدهاند (مثلاً Copilot بر پایه فناوری OpenAI است).
این نوآوریها به دستیارهای هوش مصنوعی اجازه میدهد مکالمات طولانیتر و غنیتر داشته باشند و ورودیهای متنوعی را مدیریت کنند.
همچنین این فناوریها برنامههای «دستیار» جدیدی را از طریق APIها (مانند «AI Overviews» گوگل، API دستیارهای OpenAI و غیره) ممکن ساختهاند و هوش مصنوعی را برای توسعهدهندگان و کاربران نهایی قابل دسترستر کردهاند.
پیشرفتهای چندرسانهای و خلاقانه هوش مصنوعی
خلاقیت و درک بصری هوش مصنوعی بهشدت رشد کرده است. مدلهای متن به تصویر و متن به ویدئو به سطوح جدیدی رسیدهاند:
OpenAI مدل DALL·E 3 (اکتبر ۲۰۲۳) را عرضه کرد که تصاویر فوتورئالیستی از دستورات متنی تولید میکند و حتی با ChatGPT برای نوشتن دستورهای هدایتشده ادغام شده است.
گوگل مدلهای Imagen 3 (اکتبر ۲۰۲۴) و Veo 2 (دسامبر ۲۰۲۴) را معرفی کرد – موتورهای پیشرفته متن به تصویر و متن به ویدئو – که کیفیت، جزئیات و انسجام هنر و ویدئوهای تولید شده توسط هوش مصنوعی را بهطور چشمگیری بهبود بخشیدهاند.
حتی هوش مصنوعی موسیقی نیز با ابزارهای MusicFX گوگل و تحقیقات مرتبط (مانند آزمایشهای MusicLM) پیشرفت کرده است.
- مدلهای هنر مولد: DALL·E 3 و Imagen 3 میتوانند دستورهای ظریف (از جمله متنهای جاسازی شده در تصاویر) را با دقت بالا دنبال کنند.
Veo 2 گوگل قادر است کلیپهای کوتاه ویدئویی را تنها از یک توصیف متنی تولید کند که گامی مهم در سنتز ویدئو است.
Stable Diffusion و Midjourney نیز نسخههای جدیدتری (v3، v6) با واقعگرایی بهتر در سال جاری منتشر کردهاند. - هوش مصنوعی در دستگاهها: اپل در iOS 18 و macOS 15 (اواخر ۲۰۲۴) قابلیت Apple Intelligence را معرفی کرد – هوش مصنوعی مولد داخلی در آیفون، آیپد و مک.
این قابلیت شامل دستیارهای نوشتاری (بازنویسی، ویرایش، خلاصهسازی در Mail/Pages)، سیری هوشمندتر و ابزارهای تصویری مانند Image Playground (ایجاد تصاویر سرگرمکننده از متن) و Genmoji (ایموجیهای سفارشی تولید شده توسط هوش مصنوعی) است.
جستجوی طبیعی در عکسها («مایا را هنگام اسکیتسواری پیدا کن») و قابلیت «پاکسازی» هوش مصنوعی برای حذف اشیاء ناخواسته از تصاویر نیز اضافه شدهاند.
رویکرد اپل بر پردازش در دستگاه و حفظ حریم خصوصی تأکید دارد. - هوش مصنوعی در هنر: نمونه برجستهای در نوامبر ۲۰۲۴، فروش اولین نقاشی توسط ربات انساننمایی در ساتبی بود.
پرتره آلن تورینگ که توسط ربات هوش مصنوعی Ai-Da کشیده شده بود، به قیمت ۱.۰۸ میلیون دلار آمریکا فروخته شد.
این فروش رکوردشکن («خدای هوش مصنوعی: پرتره آلن تورینگ») نقش رو به رشد هوش مصنوعی در خلاقیت و تأثیر فرهنگی آن را برجسته میکند.
در کل، مدلهای مولد خلاقیت را دموکراتیک کردهاند: اکنون هر کسی میتواند با چند کلمه هنر، موسیقی یا ویدئو تولید کند.
تمرکز صنعت از نوآوری صرف (تصاویر سورئال) به تولید تصویر کاربردی (لوگو، نمودار، نقشه) و واقعگرایی شبیه انسان تغییر یافته است.
(در مارس ۲۰۲۵، OpenAI حتی «تولید تصویر 4o» را منتشر کرد که بهترین مدل تصویر خود را در GPT-4o ادغام کرده و خروجیهای دقیق و فوتورئالیستی را با هدایت مکالمه ارائه میدهد.)
این ابزارها به سرعت در برنامهها، مرورگرها و جریانهای کاری خلاقانه جای گرفتهاند.
هوش مصنوعی در علوم، پزشکی و ریاضیات
دستاوردهای هوش مصنوعی موجب پیشرفتهای علمی و تحقیقاتی شدهاند:
- AlphaFold 3 – بیومولکولها: در نوامبر ۲۰۲۴، Google DeepMind (با همکاری Isomorphic Labs) مدل جدید AlphaFold 3 را معرفی کرد که ساختارهای سهبعدی تمام بیومولکولها (پروتئینها، DNA، RNA، لیگاندها و غیره) را بهطور همزمان با دقت بیسابقه پیشبینی میکند.
در تعاملات پروتئین-دارو، AlphaFold 3 حدود ۵۰٪ دقیقتر از روشهای سنتی است.
سازندگان آن بلافاصله یک سرور AlphaFold رایگان منتشر کردند تا پژوهشگران سراسر جهان بتوانند ساختارهای مولکولی را پیشبینی کنند.
این مدل توسعهای بر پیشبینیهای فقط پروتئینی AlphaFold 2 است و انتظار میرود کشف دارو و تحقیقات ژنومیک را متحول کند. - جایزه نوبل – تا شدن پروتئین: اهمیت این پیشرفت با جایزه نوبل شیمی ۲۰۲۴ تأیید شد.
دمیس هسابیس و جان جامپر (DeepMind) به همراه دیوید بیکر برای توسعه AlphaFold (هوش مصنوعی تا شدن پروتئین) جایزه را دریافت کردند.
کمیته نوبل اشاره کرد AlphaFold «امکانات کاملاً جدیدی» در طراحی پروتئین باز کرده است.
(این یکی از برجستهترین دستاوردهای هوش مصنوعی تاکنون است.) - AlphaProteo – طراحی دارو: همچنین در ۲۰۲۴، DeepMind مدل AlphaProteo را معرفی کرد که طراحی اتصالدهندههای پروتئینی نوآورانه را انجام میدهد – مولکولهایی که با قدرت بالا به پروتئینهای هدف متصل میشوند.
AlphaProteo میتواند با تولید ساختارهای پروتئینی امیدوارکننده برای اهداف مشخص، سرعت ایجاد آنتیبادیها، حسگرهای زیستی و داروهای جدید را افزایش دهد. - ریاضیات – AlphaGeometry: مدلهای AlphaGeometry و AlphaProof از DeepMind نیز پیشرفت مهمی داشتند.
در ژوئیه ۲۰۲۴، AlphaGeometry 2 مسئلهای از المپیاد بینالمللی ریاضی را در ۱۹ ثانیه حل کرد و به سطح مدال نقره رسید.
این نمونه نادری از حل مسائل پیشرفته ریاضی دبیرستان توسط هوش مصنوعی است. - محاسبات کوانتومی – AlphaQubit و Willow: هوش مصنوعی همچنین در سختافزار پیشرفته پیشرفت کرده است.
در ۲۰۲۴، گوگل AlphaQubit را معرفی کرد، یک رمزگشای مبتنی بر هوش مصنوعی که خطاهای کامپیوترهای کوانتومی (مانند چیپهای Sycamore گوگل) را بسیار بهتر از روشهای قبلی شناسایی میکند.
سپس در دسامبر ۲۰۲۴، گوگل Willow را معرفی کرد، یک چیپ کوانتومی جدید که با استفاده از تصحیح خطای پیشرفته، کاری را در کمتر از ۵ دقیقه انجام داد که بهترین ابرکامپیوترهای امروز حدود ۱۰^۲۴ سال طول میکشید.
این موفقیتها باعث شد Willow جایزه «پیشرفت فیزیکی سال ۲۰۲۴» را دریافت کند و نقش هوش مصنوعی در پیشرفت کوانتومی را برجسته سازد.
در حوزه پزشکی و سلامت نیز مدلهای هوش مصنوعی پیشرفتهای قابل توجهی داشتهاند. بهعنوان مثال، مدل جدید Med-Gemini گوگل (با تنظیم دقیق روی دادههای پزشکی) در آزمون معیار پزشکی آمریکا (شبیه USMLE) نمره ۹۱.۱٪ کسب کرد و مدلهای قبلی را با اختلاف زیادی پشت سر گذاشت.
ابزارهای مبتنی بر هوش مصنوعی برای رادیولوژی و آسیبشناسی (مانند Derm و Path Foundations) برای بهبود تحلیل تصاویر عرضه شدهاند.
در مجموع، هوش مصنوعی اکنون شریک تحقیقاتی ضروری است – از نقشهبرداری مغز انسان در مقیاس نانو (با تصویربرداری EM کمکگرفته از هوش مصنوعی) تا تسریع غربالگری سل در آفریقا، همانطور که پژوهشگران گوگل گزارش دادهاند.
هوش مصنوعی در رباتیک و اتوماسیون
رباتهای مجهز به هوش مصنوعی در حال یادگیری انجام وظایف پیچیده دنیای واقعی هستند.
رباتهای انساننمای Optimus شرکت تسلا در اکتبر ۲۰۲۴ بهصورت عمومی نمایش داده شدند (رویداد «ما، ربات»). چندین ده واحد Optimus روی صحنه راه رفتند، ایستادند و حتی رقصیدند – اگرچه گزارشهای بعدی اشاره کردند که نمایشهای اولیه تا حدی توسط انسانها کنترل از راه دور شده بود.
با این حال، این رویداد پیشرفت سریع به سمت رباتهای چندمنظوره را نشان داد.
- رباتهای ALOHA از DeepMind: آزمایشگاه هوش مصنوعی گوگل در زمینه رباتهای خانگی پیشرفت چشمگیری داشت.
در ۲۰۲۴، ربات ALOHA (دستیار خانگی خودران با پا) یاد گرفت بند کفش ببندد، پیراهن آویزان کند، ربات دیگری را تعمیر کند، چرخدندهها را جا بزند و حتی آشپزخانه را تمیز کند تنها با استفاده از برنامهریزی و بینایی هوش مصنوعی.
منابع باز «ALOHA Unleashed» نشان دادند رباتها میتوانند با هماهنگی دو بازو وظایف را انجام دهند که برای اولین بار در دستکاری چندمنظوره عمومی است. - رباتهای ترنسفورمر: DeepMind مدل RT-2 (Robotic Transformer 2) را معرفی کرد، مدلی مبتنی بر بینایی، زبان و عمل که میتواند از تصاویر اینترنت و دادههای واقعی رباتها یاد بگیرد.
RT-2 به رباتها اجازه میدهد دستورات را مانند انسان تفسیر کنند با بهرهگیری از دانش وب.
این مدل در کمک به ربات برای مرتبکردن اشیاء با دنبالکردن دستورات متنی نمایش داده شد. - رباتهای صنعتی: شرکتهای دیگر نیز پیشرفت کردند: Boston Dynamics به بهبود رباتهای Atlas و Spot ادامه داد (اگرچه هیچ پیشرفت برجستهای اعلام نشد) و خودروهای خودران مبتنی بر هوش مصنوعی پیشرفت کردند (نسخه بتای رانندگی خودکار کامل تسلا گستردهتر شد، اگرچه خودران کامل هنوز حل نشده است).
در صنعت، شرکتهای متمرکز بر هوش مصنوعی مانند Figure AI سرمایهگذاریهایی برای ساخت رباتهای خانگی انجام کارهای روزمره جذب کردند.
این تلاشها نشان میدهد رباتها به تدریج وظایف دشوارتر را بدون برنامهنویسی صریح انجام میدهند. با این حال، رباتهای انساننمای کاملاً خودران هنوز در افق آینده قرار دارند.
نمایشها (Optimus، ALOHA، RT-2) نقاط عطفی هستند، اما پژوهشگران هشدار میدهند که هنوز کارهای زیادی باقی است تا رباتها بتوانند بهطور ایمن و قابل اعتماد در کنار انسانها در مقیاس وسیع کار کنند.
هوش مصنوعی در محصولات، صنعت و جامعه
تأثیر هوش مصنوعی به محصولات روزمره و حتی سیاستگذاری نیز گسترش یافته است:
- دستگاههای مصرفی: محصولات فناوری بزرگ، عاملهای هوش مصنوعی را در خود جای دادهاند.
Copilot مایکروسافت (در ویندوز، آفیس، بینگ) و Bard/Bard AI گوگل در جستجو (با پشتیبانی Gemini) قدرت مدلهای زبانی بزرگ را به کاربران رساندهاند.
دستگاههای اپل نیز Apple Intelligence را دریافت کردند (همانطور که پیشتر ذکر شد) و سازندگان سختافزار مانند Nvidia تعداد بیسابقهای کارت گرافیک هوش مصنوعی فروختند که هم در فضای ابری و هم در مصرفکننده کاربرد دارد.
(Nvidia در سال ۲۰۲۴ به ارزشمندترین شرکت جهان در پی رونق هوش مصنوعی تبدیل شد.) - قانونگذاری – قانون هوش مصنوعی اتحادیه اروپا: با توجه به گستردگی هوش مصنوعی، نهادهای نظارتی نیز وارد عمل شدند.
در اول اوت ۲۰۲۴، قانون هوش مصنوعی اتحادیه اروپا به اجرا درآمد، اولین قانون جامع در این حوزه.
این قانون چارچوبی مبتنی بر ریسک ایجاد میکند: هوش مصنوعی کمریسک (فیلترهای هرزنامه، بازیهای ویدئویی) قوانین حداقلی دارد؛ قوانین شفافیت الزام میکنند سیستمهایی مانند چتباتها اعلام کنند که هوش مصنوعی هستند؛ هوش مصنوعی پرریسک (ابزارهای پزشکی یا استخدام) تحت نظارت سختگیرانه قرار میگیرد؛ و هوش مصنوعی غیرقابل قبول (مانند «امتیازدهی اجتماعی» افراد توسط دولتها) ممنوع است.
این مجموعه قوانین (همراه با دستورالعملهای آینده درباره مدلهای چندمنظوره) دستاورد بزرگی در حاکمیت هوش مصنوعی است و احتمالاً استانداردهای جهانی را تحت تأثیر قرار خواهد داد. - رشد صنعت: خود بخش هوش مصنوعی شاهد سرمایهگذاریها و ارزشگذاریهای تاریخی بود: OpenAI در اواخر ۲۰۲۳ به ارزش ۱۵۷ میلیارد دلار رسید و شرکتهایی مانند Anthropic، Inflection و استارتاپهای چینی هوش مصنوعی دورهای چند میلیارد دلاری جذب کردند.
تقاضای سختافزار هوش مصنوعی Nvidia ارزش بازار آن را تا میانه ۲۰۲۴ به بیش از ۳.۵ تریلیون دلار رساند.
این ارقام نشان میدهد هوش مصنوعی به مرکز اقتصاد فناوری تبدیل شده است.
>>> آیا تا به حال تلاش کردهاید: مقایسه هوش مصنوعی با هوش انسانی ؟
خلاصه اینکه، هوش مصنوعی دیگر محدود به آزمایشگاهها یا نمایشهای نوآورانه نیست – بلکه در تلفنها، خودروها، محیطهای کاری و سیاستهای عمومی جای گرفته است.
پیشرفتهای فوق – از دانش گسترده GPT-4 تا انقلابهای علمی AlphaFold – بلوغ سریع هوش مصنوعی را نشان میدهند.
با ورود به سال ۲۰۲۵، این دستاوردها نویدبخش کاربردهای قدرتمندتر و عملیتر هوش مصنوعی در زندگی روزمره ما هستند.