يُظهر نموذج النص ثلاثي الأبعاد الجديد من Nvidia مدى سرعة تقدم الذكاء الاصطناعي التوليدي

نفيديا على قدم وساق. بعد الكشف عن شريحة Blackwell الفائقة الخاصة بها، والمصممة لتدريب نماذج الذكاء الاصطناعي الأكثر قوة مثل GPT وClaude وGemini، أطلقت أداة الذكاء الاصطناعي لتحويل النص إلى ثلاثي الأبعاد (راجع دليلنا لأفضل بطاقات الرسوميات للحصول على خيارات عامة).

أنهت شركة بطاقات الرسوميات العملاقة أسبوع GTC من خلال تقديم LATTE3D، وهو نموذج الذكاء الاصطناعي المولد للنص ثلاثي الأبعاد والذي وصفه بأنه “طابعة ثلاثية الأبعاد افتراضية”. يمكنه تحويل المطالبات النصية إلى تمثيلات ثلاثية الأبعاد للأشياء والحيوانات في ثانية واحدة.

تدعي Nvidia أن الأشكال ثلاثية الأبعاد التي تم إنشاؤها بواسطة LATTE3D يمكن “استخدامها بسهولة في البيئات الافتراضية لتطوير ألعاب الفيديو أو الحملات الإعلانية أو مشاريع التصميم أو أماكن التدريب الافتراضية للروبوتات”. لقد رأينا أدوات تحويل النص إلى ثلاثية الأبعاد من قبل، وتشير التوصيات عبر الإنترنت إلى أن البعض غير معجب جدًا بجودة نتائج LATTE3D. لكن النموذج الجديد يمثل خطوة كبيرة إلى الأمام، خاصة من حيث السرعة.

تدعي Nvidia أنها تنتج أشكالًا ثلاثية الأبعاد على الفور تقريبًا عند تشغيل الاستدلال على وحدة معالجة رسومات واحدة، مثل NVIDIA RTX A6000 المستخدم في العرض البحثي. وهذا يعني أن منشئ المحتوى الذي يبدأ تصميمًا من الصفر أو يتصفح مكتبة من الأصول ثلاثية الأبعاد يمكنه استخدام LATTE3D لإنشاء كائنات تفصيلية بمجرد وصول الأفكار إليه.

ينشئ القالب خيارات متعددة للأشكال ثلاثية الأبعاد بناءً على كل مطالبة نصية. يمكن تحسين الكائنات المطلوبة للحصول على جودة أعلى ثم تصديرها إلى برامج الرسومات أو الأنظمة الأساسية مثل نفيديا أومنيفرسالسماح وصف المرحلة العالمية (OpenUSD)سير العمل والتطبيقات ثلاثية الأبعاد القائمة على التطبيقات.

وقالت سانجا فيدلر، نائبة رئيس أبحاث الذكاء الاصطناعي: “قبل عام، كانت نماذج الذكاء الاصطناعي تستغرق ساعة واحدة لإنشاء صور ثلاثية الأبعاد بهذه الجودة – والحالة الحالية للتقنية تستغرق الآن حوالي 10 إلى 12 ثانية”. إنتاج نتائج أسرع بكثير، مما يجعل إنشاء نص ثلاثي الأبعاد في الوقت الفعلي تقريبًا في متناول المبدعين في جميع الصناعات.

صور الكلاب التي تم إنشاؤها بواسطة نموذج Nvidia LATTE3D AI

الكلاب ثلاثية الأبعاد التي تم إنشاؤها بواسطة نموذج Nvidia LATTE3D AI (رصيد الصورة: نفيديا)

تم تطوير LATTE3D بواسطة فريق Nvidia AI Lab ومقره في تورونتو وتم تدريبه باستخدام المطالبات النصية التي تم إنشاؤها باستخدام ChatGPT لتحسين قدرة النموذج على التعامل مع الجمل المختلفة التي قد يقترحها المستخدم لوصف كائن ثلاثي الأبعاد معين. في حين قام الباحثون بتدريب LATTE3D على مجموعتين محددتين من البيانات، الحيوانات والأشياء اليومية، يمكن استخدام نفس البنية لتدريب الذكاء الاصطناعي على أنواع أخرى من البيانات. هذا مشروع بحثي فقط وغير متاح للعامة.

كتب منشئ الذكاء الاصطناعي بيلاوال سيدو X: “هذه القفزة هائلة. كان DreamFusion حوالي عام 2022 بطيئًا ومنخفض الجودة، ولكنه بدأ هذه الثورة التوليدية ثلاثية الأبعاد. وقد سعت الجهود مثل ATT3D (تركيب الكائنات المطفأة من النص إلى ثلاثي الأبعاد) إلى تحقيق السرعة بدلاً من الجودة. الآن، مع LATTE3D، أصبحت الجودة عالية والعمليات في أقل من ثانية! وهذا يعني أنه يمكنك تكرار عالم ثلاثي الأبعاد وملؤه بسرعة باستخدام نص أو صورة ثلاثية الأبعاد.

إلى جانب الفيديو، تعد الأبعاد الثلاثية هي الحدود التالية لتوليد صور الذكاء الاصطناعي. أعلنت Adobe هذا الأسبوع أيضًا عن دمج أدواتها الأولى المستندة إلى Firefly AI في Substance 3D.

Akeem Ala

“Social media addict. Zombie fanatic. Travel fanatic. Music geek. Bacon expert.”