في الأسبوع الماضي ، مهندس البرمجيات السويسري ماتياس بولمان اكتشف من نموذج تركيب الصورة الشهير بث ثابت يمكن أن يضغط الصور النقطية الحالية ذات القطع الأثرية المرئية أقل من JPEG أو WebP بمعدلات ضغط عالية ، على الرغم من وجود محاذير مهمة.
الانتشار المستقر هو أ نموذج تركيب الصورة بالذكاء الاصطناعي التي عادةً ما تنشئ صورًا بناءً على أوصاف النص (تسمى “المطالبات”). تعلم نموذج الذكاء الاصطناعي هذه القدرة من خلال دراسة ملايين الصور المأخوذة من الإنترنت. أثناء عملية التدريب ، يقوم النموذج بعمل ارتباطات إحصائية بين الصور والكلمات المرتبطة بها ، مما يؤدي إلى إنشاء تمثيل أصغر بكثير للمعلومات الأساسية حول كل صورة وتخزينها كـ “أوزان” ، وهي قيم رياضية تمثل ما يعرفه نموذج صور الذكاء الاصطناعي ، إذا جاز التعبير.
عندما يحلل الانتشار المستقر و “يضغط” الصور كأوزان ، فإنهم يقيمون في ما يسميه الباحثون “الفضاء الكامن” ، وهي طريقة للقول إنها موجودة كنوع من الإمكانات الضبابية التي يمكن إدراكها في الصور بمجرد فك تشفيرها. . مع Stable Diffusion 1.4 ، يبلغ حجم الملف حوالي 4 جيجابايت ، لكنه يمثل معرفة بمئات الملايين من الصور.
في حين أن معظم الناس يستخدمون Stable Diffusion مع مطالبات النص ، قام Bühlmann بقص مشفر النص وبدلاً من ذلك أجبر صوره من خلال عملية تشفير الصور Stable Diffusion ، والتي تأخذ دقة منخفضة للصورة 512 × 512 وتحولها إلى دقة أعلى 64 × 64 صورة كامنة. تمثيل الفضاء. في هذه المرحلة ، توجد الصورة بحجم بيانات أصغر بكثير من الصورة الأصلية ، ولكن لا يزال من الممكن زيادة حجمها (فك تشفيرها) إلى صورة 512 × 512 مع نتائج جيدة بشكل معقول.
عند إجراء الاختبارات ، وجد Bühlmann أن الصور المضغوطة باستخدام Stable Diffusion تبدو أفضل بشكل شخصي عند معدلات ضغط أعلى (حجم ملف أصغر) من JPEG أو WebP. في أحد الأمثلة ، يُظهر صورة لمتجر حلوى مضغوطة إلى 5.68 كيلوبايت مع JPEG ، و 5.71 كيلوبايت مع WebP ، و 4.98 كيلوبايت مع Stable Diffusion. يبدو أن صورة البث المستقرة تحتوي على تفاصيل أكثر دقة وعوامل ضغط أقل وضوحًا من تلك المضغوطة في التنسيقات الأخرى.
ومع ذلك ، فإن طريقة Bühlmann حاليًا لها قيود كبيرة: فهي ليست جيدة مع الوجوه أو النص ، وفي بعض الحالات يمكنها في الواقع أن تهلوس السمات التفصيلية للصورة التي تم فك تشفيرها والتي لم تكن موجودة في الصورة المصدر. (ربما لا تريد أن يبتكر ضاغط الصور تفاصيل في صورة غير موجودة.) أيضًا ، يتطلب فك التشفير ملف وزن بث ثابت 4 جيجابايت ووقت فك تشفير إضافي.
على الرغم من أن هذا الاستخدام لـ Stable Diffusion غير تقليدي وهو اختراق ممتع أكثر من كونه حلاً عمليًا ، إلا أنه قد يشير إلى استخدام مستقبلي جديد لنماذج تركيب الصور. يمكن أن يكون رمز بولمان الموجودة على Google Colab ، وستجدون المزيد من التفاصيل الفنية حول تجربته في عمله نشر على نحو AI.