شرکت آلمانی Black Forest Labs اخیراً سیستم تولید و ویرایش تصویر جدید خود، FLUX.2 را معرفی کرده است. این سیستم با چهار مدل مختلف طراحی شده تا پشتیبانی کاملی از فرآیندهای خلاقانه در سطح تولید داشته باشد. FLUX.2 ویژگیهای جدیدی مانند شرطبندی چند مراجع، خروجیهای با کیفیتتر و رندرینگ متنی بهبودیافته را ارائه میدهد و در عین حال اکوسیستم متن باز خود را با نقاط پایانی تجاری و وزنههای مدل (Model Weights) قابل دسترس گسترش میدهد.
در حالی که Black Forest Labs قبلاً با مدلهای تصویر به زبان متن متنباز خانواده FLUX شناخته شده بود، انتشار امروز شامل یک جزء کاملاً متن باز است: VAE Flux.2، که تحت مجوز Apache 2.0 در دسترس قرار دارد. این VAE برای شرکتها اهمیت و کاربرد زیادی دارد؛ زیرا ماژدی است که تصاویر را به فضای پنهان (latent space) فشرده میکند و آنها را با حفظ کیفیت بالا بازسازی میکند. FLUX.2 از این VAE برای تعریف نمایش پنهان استفاده میکند که در تمام مدلهای مختلف وجود دارد، که منجر به بازسازیهای با کیفیتتر، آموزش کارآمدتر و ویرایش 4 مگاپیکسلی میشود.
دسترسی آزادانه به این VAE امکان میدهد تا سازمانها فضای پنهان یکسان را برای سیستمهای داخلی و ارائهدهندگان خارجی به کار گیرند، در حالی که از وابستگی به فروشنده جلوگیری میکنند. همچنین، استانداردسازی روی یک فضای پنهان شفاف، مزایای عملی فراتر از سازمانهای رسانه محور را فراهم میکند. شرکتها میتوانند از یک VAE متن باز به عنوان پایهای مستحکم و مشترک برای چندین مدل تولید تصویر استفاده کنند.
این سیستم با تأکید بر قابلیت اطمینع، کنترلپذیری و ادغام در گردش کار خلاق موجود، به جای نمایشهای موردی (demo) تکبار، FLUX.2 را به عنوان یک تکامل از خانواده FLUX.1 معرفی میکند. این مدل همچنین بهبودهای قابل توجهی در پایبندی به دستورالعملها، بهویژه در قسمتهای چندگانه و کاهش خطاها مرتبط با نورپردازی، منطق فضایی و دانش جهان داشته است.
Black Forest Labs رویکرد انتشار متنباز (open-core) را دنبال میکند. این شرکت نسخههای میزبانی شده و بهینهشده از FLUX.2 را برای استقرار تجاری ارائه میدهد، در حالی که مدلهای وزنهدار بازرسیپذیر نیز منتشر میکند تا محققان و توسعهدهندگان مستقل بتوانند آنها را بهصورت محلی اجرا کنند.
**مدلهای موجود در Flux.2:**
* **Flux.2 [Dev]:** بالاترین سطح عملکرد، برای برنامههایی که به حداقل تأخیر و حداکثر کیفیت بصری نیاز دارند.
* **Flux.2 [Edit]:** امکان تنظیم مقادیر مانند تعداد مراحل نمونهبرداری و مقیاس راهنما را فراهم میکند تا تعادل بین سرعت، دقت متن و جزئیات را بهبود بخشد.
* **Flux.2 [Base]:** مدل 32 میلیارد پارامتری که تولید تصویر به زبان متن و ویرایش تصویر را در یک مدل واحد ادغام میکند.
* **Flux.2 [Tiny]** مدل کوچکشده با عملکرد بهبودیافته نسبت به مدلهای مشابه آموزش داده شده از ابتدا، تحت مجوز Apache 2.0 منتشر شده است.
* **Flux.2 VAE** بهروزرسانی VAE که فضای پنهان را برای تمام مدلهای Flux.2 فراهم میکند و تعادل بهینهای بین کیفیت بازسازی، قابلیت یادگیری و نرخ فشردهسازی ایجاد میکند.Black Forest Labs
دو مجموعه ارزیابی منتشر کرده است که عملکرد FLUX.2 را در مقایسه با سایر مدلهای تولید تصویر متن باز و میزبانیشده نشان میدهد.
این مطلب از منابع بینالمللی ترجمه و بازنویسی شده است.