فناوری

۴۰۰ هزار تصویر برای تحول در ویرایش متنی؛ اپل وارد میدان هوش مصنوعی شد

اپل دیتاست Pico-Banana-400K را با ۴۰۰ هزار تصویر برای آموزش مدل‌های هوش مصنوعی ویرایش تصویر منتشر کرد.

تیم تحقیقاتی اپل از دیتاست جدیدی با نام Pico-Banana-400K رونمایی کرد که شامل ۴۰۰ هزار تصویر گزینش‌شده است و هدف آن ارتقاء مدل‌های هوش‌مصنوعی در زمینه ویرایش تصویر براساس دستورهای متنی است. این مجموعه به‌صورت رایگان برای استفاده تحقیقاتی در GitHub منتشر شده و می‌تواند پایه‌ای قدرتمند برای آموزش نسل جدید مدل‌های ویرایش تصویر باشد.

ساختار دیتاست؛ از ویرایش‌های ساده تا تبدیل به شخصیت‌های پیکسار

دیتاست Pico-Banana-400K شامل ۳۵ نوع ویرایش مختلف در ۸ دسته‌بندی است؛ از تغییر رنگ و نور گرفته تا تبدیل چهره انسان به شخصیت‌های کارتونی مانند پیکسار یا لگو. این تصاویر با استفاده از سیستم کنترل کیفیت هوش مصنوعی اپل بررسی شده‌اند و مدل جمنای 2.5 پرو گوگل نیز برای ارزیابی کیفیت فنی و تطابق با دستورها به‌کار رفته است.

اجزای تخصصی دیتاست؛ آموزش پایه، مقایسه و ویرایش چندمرحله‌ای

این مجموعه شامل سه بخش تخصصی است:

  • ۲۵۸ هزار نمونه تک‌ویرایش برای آموزش پایه
  • ۵۶ هزار جفت ترجیحی برای مقایسه و تشخیص ویرایش موفق و ناموفق
  • ۷۲ هزار دنباله چندمرحله‌ای برای نمایش روند تکامل تصویر در ویرایش‌های متوالی

اپل این دیتاست را با استفاده از مدل ویرایش تصویر Gemini 2.5 Flash Image گوگل (با نام مستعار Nano-Banana) تولید کرده است.

چالش‌ها و هدف نهایی؛ دقت پایین در ویرایش‌های پیچیده

طبق یافته‌های اپل، مدل‌های فعلی در تغییرات سبک کلی عملکرد خوبی دارند (تا ۹۳٪ موفقیت)، اما در وظایف دقیق مانند جابه‌جایی اشیاء یا ویرایش متن با موفقیت کمتر از ۶۰٪ مواجه هستند. هدف اپل از انتشار Pico-Banana-400K، ایجاد پایه‌ای قابل اعتماد برای آموزش و ارزیابی مدل‌های آینده ویرایش تصویر با دستور متنی است.

لینک‌های بیشتر:

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا