۴۰۰ هزار تصویر برای تحول در ویرایش متنی؛ اپل وارد میدان هوش مصنوعی شد
اپل دیتاست Pico-Banana-400K را با ۴۰۰ هزار تصویر برای آموزش مدلهای هوش مصنوعی ویرایش تصویر منتشر کرد.

تیم تحقیقاتی اپل از دیتاست جدیدی با نام Pico-Banana-400K رونمایی کرد که شامل ۴۰۰ هزار تصویر گزینششده است و هدف آن ارتقاء مدلهای هوشمصنوعی در زمینه ویرایش تصویر براساس دستورهای متنی است. این مجموعه بهصورت رایگان برای استفاده تحقیقاتی در GitHub منتشر شده و میتواند پایهای قدرتمند برای آموزش نسل جدید مدلهای ویرایش تصویر باشد.
ساختار دیتاست؛ از ویرایشهای ساده تا تبدیل به شخصیتهای پیکسار
دیتاست Pico-Banana-400K شامل ۳۵ نوع ویرایش مختلف در ۸ دستهبندی است؛ از تغییر رنگ و نور گرفته تا تبدیل چهره انسان به شخصیتهای کارتونی مانند پیکسار یا لگو. این تصاویر با استفاده از سیستم کنترل کیفیت هوش مصنوعی اپل بررسی شدهاند و مدل جمنای 2.5 پرو گوگل نیز برای ارزیابی کیفیت فنی و تطابق با دستورها بهکار رفته است.
اجزای تخصصی دیتاست؛ آموزش پایه، مقایسه و ویرایش چندمرحلهای
این مجموعه شامل سه بخش تخصصی است:
- ۲۵۸ هزار نمونه تکویرایش برای آموزش پایه
- ۵۶ هزار جفت ترجیحی برای مقایسه و تشخیص ویرایش موفق و ناموفق
- ۷۲ هزار دنباله چندمرحلهای برای نمایش روند تکامل تصویر در ویرایشهای متوالی
اپل این دیتاست را با استفاده از مدل ویرایش تصویر Gemini 2.5 Flash Image گوگل (با نام مستعار Nano-Banana) تولید کرده است.
چالشها و هدف نهایی؛ دقت پایین در ویرایشهای پیچیده
طبق یافتههای اپل، مدلهای فعلی در تغییرات سبک کلی عملکرد خوبی دارند (تا ۹۳٪ موفقیت)، اما در وظایف دقیق مانند جابهجایی اشیاء یا ویرایش متن با موفقیت کمتر از ۶۰٪ مواجه هستند. هدف اپل از انتشار Pico-Banana-400K، ایجاد پایهای قابل اعتماد برای آموزش و ارزیابی مدلهای آینده ویرایش تصویر با دستور متنی است.
لینکهای بیشتر:





