نوشتن دستور برای خلق تصاویر خیره‌کننده تولیدشده توسط هوش مصنوعی

تکنیک‌های عملی برای نوشتن دستورهایی که تصاویر بصری خیره‌کننده تولید می‌کنند را کشف کنید. این راهنما ساختار دستور، نکات خلاقانه و بهترین تولیدکننده‌های تصویر مبتنی بر هوش مصنوعی را برای تمام کاربران توضیح می‌دهد.

نسل‌های مدرن تولیدکنندهٔ تصویرِ هوش مصنوعی می‌توانند تصاویری با وفاداری بالا از توصیف‌های متنی ایجاد کنند. این سیستم‌ها روی میلیون‌ها جفت تصویر و کپشن آموزش دیده‌اند و یاد می‌گیرند چگونه دستورهای توصیفی را به آثار هنری متناظر نگاشت کنند. OpenAI اشاره می‌کند که «هرچه دقیق‌تر باشید، تصویر مرتبط‌تری دریافت خواهید کرد.» این بدان معناست که یک دستور خوب فرموله‌شده کلید به‌دست‌آوردن تصاویر زنده و پرجزئیات است.

ساختار دستور: سوژه + توصیف + سبک

یک دستور عالی معمولاً سه عنصر اصلی را ترکیب می‌کند: سوژه (اسم اصلی)، یک توصیف (عمل، مکان، جزئیات) و یک سبک (زیبایی‌شناسی یا رسانه). عناصر اصلی را ابتدا قرار دهید – هوش مصنوعی معمولاً به کلمات ابتدایی توجه بیشتری می‌کند.

سوژه

مشخص کنید چه شخص یا چیزی در تصویر حضور دارد (برای مثال «گلدن رتریور»، «فضاپیما»). از اسامی عینی استفاده کنید و از انتزاعات مبهم بپرهیزید.

توصیف

عمل و زمینه را اضافه کنید—چه اتفاقی می‌افتد، کجا و چگونه. برای ایجاد عمق، محیط و حال‌وهوای صحنه را درج کنید.

سبک/زیبایی‌شناسی

رسانهٔ بصری را مشخص کنید (عکس، نقاشی روغنی، امپرسیونیست) و کادربندی را تعیین کنید (نمای نزدیک، نورپردازی سینمایی) تا دقت افزایش یابد.
مثال: «بت‌موبیل گیر کرده در ترافیک لس‌آنجلس، نقاشی امپرسیونیست، نمای باز» – در اینجا «بت‌موبیل» سوژه است، «ترافیک لس‌آنجلس» صحنه و «نقاشی امپرسیونیست» سبک.

این روش ساختاری تضمین می‌کند که هوش مصنوعی تمرکز شما را دقیقاً بداند. برای مثال، «عکس حرفه‌ای از راکون مشغول خواندن کتاب در یک کتابخانه، نمای نزدیک» صحنه‌ای پیچیده و واقعی می‌دهد، در حالی که تنها «راکون که می‌خواند» کلی و نامشخص است.

افزودن جزئیات زنده و توصیفی

از صفت‌ها و زمینه برای غنی‌تر کردن صحنه استفاده کنید. رنگ‌ها، بافت‌ها و حالات را توصیف کنید. به‌جای «قصر»، بگویید «قصر قرون وسطایی مه‌آلود با دیوارهای پوشیده از پیچک در طلوع آفتاب». Typeface.ai اشاره می‌کند که «هرچه در توصیف تصویر دقیق‌تر باشید، دریافت جزئیات منحصربه‌فرد آسان‌تر است.»

  • در صحنه چه اتفاقی می‌افتد؟
  • ظاهر بصری آن چگونه است؟
  • حال‌وهوای کلی یا اتمسفر چیست؟
  • چه جزئیات نورپردازی، آب‌وهوا یا اتمسفر اهمیت دارند؟

پس‌زمینه را هم برجسته کنید – جزئیات نور (درخشش هنگام غروب، نورهای نئونی)، آب‌وهوا (مه‌آلود، بارانی) و اتمسفر عمق می‌بخشند. برای مثال، «فنچ زرد روی شاخهٔ شکوفهٔ گیلاس، پس‌زمینهٔ بهار، نور نرم» بسیار توصیف‌پذیرتر از تنها «فنچ» است.

افزودن جزئیات زنده و توصیفی
جزئیات زنده و توصیف‌ها تصویر تولیدشده توسط هوش مصنوعی را تقویت می‌کنند

نوشتن دستورهای طبیعی و توصیفی

دستورهای روایت‌محور و به‌شکل جمله معمولاً از لیست‌های کلمه‌ای کوتاه مؤثرترند. تصور کنید صحنه را برای یک دوست توصیف می‌کنید. LetsEnhance متوجه شده که نوشتن به زبان ساده «تصاویر هوش مصنوعی بسیار evocative و با جزئیات بیشتر نسبت به فهرست‌های کلمه‌ای ساده تولید می‌کند».

فهرست کلمات کلیدی

کمتر مؤثر

«روباه، جنگل، پاییز، مه‌آلود، نور آفتاب، 8k، بهترین کیفیت»

خروجی قابل استفاده اما کلی و عمومی.

روایت طبیعی

بیشتر مؤثر

«یک روباه قرمز کنجکاو در جنگل مه‌آلود پاییزی در سپیده‌دم کاوش می‌کند. نور طلایی آفتاب از بین برگ‌های رنگی فیلتر شده و سایه‌های نقطه‌ای روی زمین جنگل می‌اندازد.»

تصاویر بسیار پیچیده‌تر و پرجزئیات تولید می‌کند.

بهترین روش: از جملات کامل یا پاراگراف‌های کوتاه استفاده کنید و جزئیات حسی (رنگ‌ها، نورپردازی، احساسات) را اضافه کنید. این رویکرد از درک زبان مدل برای تولید تصاویر بهتر بهره می‌گیرد.
نوشتن دستورهای طبیعی و توصیفی
دستورهای به زبان طبیعی نتایجی غنی‌تر و دقیق‌تر تولید می‌کنند

آزمایش با طول دستور و تکرار

مدل‌های مختلف AI ترجیحات متفاوتی دارند. Midjourney V6 تا 350 کلمه را پشتیبانی می‌کند اما اغلب «بهترین خروجی‌ها از عبارات ساده و موجز حاصل می‌شوند». در مقابل، سیستم‌های مبتنی بر GPT (مثل ChatGPT/GPT-4o) می‌توانند از دستورهای طولانی‌تر و داستان‌گونه بهره ببرند.

نکته حرفه‌ای: همیشه تست تغییرات را انجام دهید: با یک دستور مختصر شروع کنید، سپس صفت‌ها یا جزئیات را به‌تدریج اضافه کنید تا ببینید تصویر چگونه تغییر می‌کند. با تغییر یک عنصر در هر بار – رنگ، زاویهٔ دوربین، یا حالت سوژه – تصویر را به‌تدریج پالایش کنید.

LetsEnhance اشاره می‌کند که «ChatGPT (GPT-4o) با پاراگراف‌ها و ویرایش‌های چندمرحله‌ای بهتر کار می‌کند؛ Midjourney V7 عبارات کوتاه و پرسیگنال را به‌همراه تصاویر مرجع ترجیح می‌دهد». برای بهینه‌سازی روش خود، نقاط قوت ابزار انتخابی‌تان را تحقیق کنید.

آزمایش با طول دستور و تکرار
پالایش تکراری اثربخشی دستور را بهبود می‌بخشد

عناصر پیشرفتهٔ دستور

صحنه‌های پیچیده را به اجزا تقسیم کنید: عمل، محیط، نورپردازی، حالت و ترکیب‌بندی. مشخص کردن هر عنصر کمک می‌کند تا هوش مصنوعی همهٔ آن‌ها را وارد کند.

عمل

سوژه چه کاری انجام می‌دهد؟

محیط

این صحنه کجا رخ می‌دهد؟

نورپردازی

چگونه نورپردازی شده است؟

حالت

حال‌وهوای احساسی چیست؟

ترکیب‌بندی

چگونه قاب‌بندی شده است؟

مثال: برای تصویرسازی یک ببر، آن را تعریف کنید («یک ببر بنگال باشکوه با خز نارنجی زنده»)، محیطش («در جنگل بارانی سرسبز»), نورپردازی («نور نقطه‌ای که از بین برگ‌ها می‌تابد»), حالت («تنش‌زا و متمرکز») و قاب‌بندی («در گوشهٔ پایین-چپ قاب قرار گرفته»). با بیان صریح این موارد مطمئن می‌شوید که هوش مصنوعی تمام دید شما را دنبال می‌کند.

عناصر پیشرفتهٔ دستور
تقسیم‌بندی دستور به اجزا تضمین می‌کند هوش مصنوعی همه‌جانبه درک کند

مشخص کردن آنچه نباید شامل شود

بیشتر مدل‌های هوش مصنوعی هر آنچه توصیف کنید تولید می‌کنند، اما شما می‌توانید عناصر ناخواسته را ممنوع کنید. از منفی‌نویسی‌ها به‌صورت محدود استفاده کنید: مواردی را نام ببرید که نمی‌خواهید، مانند «بدون متن، بدون واترمارک، بدون اندام اضافی».

نکتهٔ مهم: ابتدا روی آنچه می‌خواهید تمرکز کنید؛ دستورهای مثبت معمولاً بهتر عمل می‌کنند. سپس در صورت لزوم منفی‌ها را اضافه کنید تا خطاها یا جزئیات نامربوط حذف شوند.

بسیاری از سامانه‌ها از پرچم «no ____» پشتیبانی می‌کنند (Midjourney از --no استفاده می‌کند، Stable Diffusion اغلب از فیلد جداگانه‌ای بهره می‌برد) تا اشیاء را فیلتر کنند. برای مثال، ممکن است از "--no blurry, --no watermark" برای حذف آن عناصر استفاده کنید.

مشخص کردن آنچه نباید شامل شود
دستورهای منفی به فیلتر کردن عناصر ناخواسته کمک می‌کنند

برترین تولیدکننده‌های تصویر با هوش مصنوعی

ابزارهای مختلف نقاط قوت متفاوتی دارند. در اینجا چند گزینهٔ پیشرو آمده است:

ChatGPT (GPT-4o)

جدیدترین مدل OpenAI شامل یک تولیدکنندهٔ تصویر پیشرفته است. این مدل «در بازتولید دقیق متن عالی است» و حتی دستورهای پیچیده را با دقت دنبال می‌کند. شما می‌توانید به‌صورت تعاملی تصاویر را در چت پالایش کنید و از دانش جهانی GPT-4o برای حفظ انسجام (مثلاً متن واقع‌گرایانه روی تابلوها) بهره ببرید.

DALL·E 3

دسترسی‌پذیر از طریق ChatGPT و API، DALL·E صحنه‌هایی بسیار پرجزئیات و واقع‌گرایانه خلق می‌کند. از دستورهای بسیار مشخص بهره می‌برد، تا حدود ~1000 کاراکتر (≈250 کلمه) را می‌پذیرد و نسبت‌های تصویر متعددی ارائه می‌دهد. توجه داشته باشید که محدودیت‌های محتوایی (مثلاً شبیه‌سازی افراد واقعی) دارد اما وقتی خوب پرامپت‌دهی شود «تصاویر منحصربه‌فرد و واقع‌گرایانه» تولید می‌کند.

Midjourney

یک ابزار محبوب جامعه‌محور که به‌خاطر تصاویر هنری و خیال‌سازانه‌اش مشهور است. این سرویس در Discord (و وب) اجرا می‌شود و به کلمات کلیدی زنده پاسخ بهتری می‌دهد. از عبارات کوتاه و توصیفی استفاده کنید (مثلاً «آب‌رنگ زنده از شهر در گرگ‌و‌مـهتاب»). از پرچم‌هایی مانند --ar (نسبت تصویر)، --stylize (خلاقیت) و --no (حذف‌ها) پشتیبانی می‌کند. اشتراک لازم است.

Stable Diffusion

مدلی متن‌باز شناخته‌شده برای فوتورئالیسم. می‌توان آن را به‌صورت محلی یا از طریق رابط‌های وب مانند DreamStudio اجرا کرد. از دستورهای متنی و تصویری، توصیف‌های بسیار طولانی و دستورهای منفی پشتیبانی می‌کند. می‌توانید مدل‌ها را فاین‌تیون کنید یا نسخه‌های مختلف (SDXL, SD3) را برای سبک‌های متفاوت امتحان کنید. ابزارها و چک‌پوینت‌های جامعه‌ای زیادی به‌صورت آزاد در دسترس است.

Adobe Firefly

ابزار هنری Adobe که در Photoshop و اپ‌های Adobe ادغام شده است. بر ورود متن ساده متمرکز است (بیش از 100 زبان) و خروجی‌های با وضوح بالا (به‌طور پیش‌فرض 2048×2048) ارائه می‌دهد. پیشنهادهای خلاقانه می‌دهد و از پرس‌وجوهای کلی پشتیبانی خوبی دارد. از دستورهای منفی پشتیبانی کامل ندارد اما با Generative Fill/Expand ترکیب‌بندی‌ها را تنظیم می‌کند. طرح رایگان شامل واترمارک Adobe است.

سایر ابزارهای قابل‌توجه

Imagen/Gemini گوگل، Ideogram (بهینه‌شده برای گرافیک متنی)، Leonardo AI، BlueWillow، StarryAI، Runway و Canva AI هر یک در حوزهٔ خود مزایا دارند. Ideogram در وضوح متن بهترین است؛ Runway تولید ویدیو را ارائه می‌دهد. برای انتخاب مناسب‌ترین ابزار متناسب با سبک خود، مقایسه‌های جاری را بررسی کنید.
ویژگی جایزه: بسیاری از ابزارها افزایش وضوح (upscaling) را ارائه می‌دهند تا هنر تولیدشده را شارپ‌تر کنند. سرویس‌هایی مانند Let's Enhance می‌توانند تولید شما را به رزولوشن 4K یا قابل چاپ افزایش دهند بدون اینکه بلوری شوند.

نکات کلیدی

خلق تصاویر خیره‌کنندهٔ هوش مصنوعی ترکیبی از هنر و مهندسی دستور است:

1

ساختار دستور خود را مشخص کنید

سوژه + توصیف + سبک

2

افزودن جزئیات زنده

رنگ‌ها، بافت‌ها، حالات، نورپردازی

3

از زبان طبیعی استفاده کنید

جملات کامل بهتر از فهرست کلمات هستند

4

تکرار و پالایش

یک عنصر را در هر بار تغییر دهید

5

ابزار مناسب را انتخاب کنید

تولیدکننده را بر اساس سبک خود انتخاب کنید

به یاد داشته باشید، تمرین باعث پیشرفت است. هرچه بیشتر با دستورها و ابزارها آزمایش کنید، بهتر خواهید آموخت چگونه هوش مصنوعی را هدایت کنید. یک دستور خوب را با یک تولیدکنندهٔ قدرتمند ترکیب کنید تا هر ایده‌ای را به تصویری نفس‌گیر تبدیل کنید.

External References
This article has been compiled with reference to the following external sources:
175 articles
رزی ها نویسنده‌ای در Inviai است که تخصصش در به اشتراک‌گذاری دانش و راهکارهای هوش مصنوعی می‌باشد. با تجربه‌ای گسترده در پژوهش و کاربرد هوش مصنوعی در حوزه‌های مختلفی مانند کسب‌وکار، تولید محتوا و اتوماسیون، رزی ها مقالاتی ساده، کاربردی و الهام‌بخش ارائه می‌دهد. مأموریت رزی ها کمک به افراد برای بهره‌برداری مؤثر از هوش مصنوعی به منظور افزایش بهره‌وری و گسترش ظرفیت‌های خلاقیت است.
Comments 0
Leave a Comment

No comments yet. Be the first to comment!

Search