MLow: برنامج ترميز الصوت ذو معدل البت المنخفض الخاص بـ Meta

في Meta، ندعم التواصل في الوقت الفعلي (RTC) لمليارات الأشخاص من خلال تطبيقاتنا، بما في ذلك WhatsApp وInstagram وMessenger.
نحن نعمل على إتاحة الوصول إلى RTC من خلال توفير تجربة عالية الجودة للجميع، حتى أولئك الذين ليس لديهم أسرع الاتصالات أو أحدث الهواتف.
نظرًا لأن المزيد من الأشخاص يعتمدون على منتجاتنا لإجراء المكالمات على مر السنين، فإننا نعمل على طرق جديدة لضمان جودة صوت ثابتة لجميع المكالمات.
لقد أنشأنا برنامج الترميز Meta Low Bitrate (MLow): أداة جديدة تعمل على تحسين جودة الصوت، خاصة لأولئك الذين يستخدمون اتصالات بطيئة السرعة.

الشكل 1: تؤدي زيادة التعقيد أو معدل البت بشكل عام إلى تحسين الجودة، لكن برامج الترميز الجيدة تحقق جودة أعلى مع موازنة الاثنين الآخرين.

تستخدم منتجات RTC العديد من العناصر الأساسية لتقديم تجربة كاملة، وأحد المكونات الأساسية هو برامج ترميز الصوت/الفيديو. تساعد برامج الترميز هذه على ضغط بيانات الصوت/الفيديو التي تم التقاطها بحيث يمكن إرسالها بكفاءة عبر الإنترنت إلى المستلم، وبالتالي الاحتفاظ بالتجربة في الوقت الفعلي. على سبيل المثال، يبلغ حجم الصوت الخام الملتقط لمكالمة نموذجية 768 كيلوبت في الثانية (أحادي، عينة 48 كيلوهرتز، عمق 16 بت)، والتي تستطيع برامج الترميز الحديثة ضغطها حتى 25-30 كيلوبت في الثانية. غالبًا ما يأتي هذا الضغط على حساب جودة معينة (فقدان المعلومات)، لكن برامج الترميز الجيدة يمكنها إيجاد توازن بين ثلاثي الجودة ومعدل البت والتعقيد من خلال استغلال المعرفة العميقة بطبيعة الإشارة الصوتية وكذلك باستخدام علم النفس الصوتي. .

يعد إنشاء برنامج ترميز جيد أمرًا صعبًا للغاية، ولهذا السبب لا نرى ظهور برامج ترميز جديدة كثيرًا. آخر برنامج ترميز مفتوح المصدر جيد ومعروف على نطاق واسع هو Opus، الذي تم إصداره في عام 2012، والذي أصبح برنامج الترميز المفضل لمجموعة واسعة من التطبيقات على الإنترنت. لقد استخدمت Meta شركة Opus لتلبية جميع احتياجات PSTN الخاصة بها، وقد خدمتنا جيدًا حتى الآن، حيث ساعدت في تقديم مكالمات عالية الجودة لمليارات المستخدمين حول العالم.

دافعنا لبناء برنامج ترميز جديد

نظرًا للاستخدام المكثف لـ RTC في منتجات Meta، يمكننا أن نرى كيفية أداء برنامج الترميز في مجموعة من سيناريوهات الشبكة وكيف يؤثر على تجربة المستخدم النهائي. وعلى وجه الخصوص، لاحظنا أن جزءًا كبيرًا من المكالمات به اتصالات شبكة ضعيفة أثناء المكالمة أو أثناء جزء منها. بشكل عام، تكتشف وحدة تقدير عرض النطاق الترددي (BWE) جودة الشبكة، ومع انخفاض جودة الشبكة، نحتاج إلى تقليل معدل بت التشغيل لبرنامج الترميز لتجنب ازدحام الشبكة والحفاظ على سلاسة الصوت، مما يؤثر على توازن الثلاثي المشار إليه أعلاه . ومما يزيد الأمور تعقيدًا، أن إجراء مكالمة فيديو على الرغم من ضعف جودة الشبكة لا يترك مساحة كبيرة للصوت ويقلل معدل البت الصوتي بشكل أكبر. أدنى نقطة تشغيل لـ Opus هي 6 كيلوبت في الثانية، حيث تعمل في وضع النطاق الضيق (0 – 4 كيلو هرتز) ولا تلتقط بشكل صحيح جميع الترددات الصوتية التي تنتجها الأصوات البشرية وبالتالي لا يبدو واضحًا أو طبيعيًا. فيما يلي مثال لصوت Opus بسرعة 6 كيلوبت في الثانية والملف المرجعي المقابل للمقارنة.

إشارة مرجعية خام:

Opus @ 6 كيلوبت في الثانية NarrowBand (NB):

على مدى العامين الماضيين، شهدنا تطوير برامج ترميز صوتية جديدة تعتمد على التعلم الآلي (ML) والتي توفر صوتًا عالي الجودة بمعدلات بت منخفضة جدًا. في أكتوبر 2022، تم إصدار ميتا الترميز، والذي يحقق جودة صوت واضحة بشكل لا يصدق بمعدلات بت منخفضة جدًا. على الرغم من أن برامج الترميز المستندة إلى AI/ML قادرة على تحقيق جودة عالية بمعدلات بت منخفضة، إلا أن هذا غالبًا ما يأتي على حساب تكلفة حسابية عالية. ولذلك، فإن الهواتف المحمولة المتطورة (باهظة الثمن) فقط هي القادرة على تشغيل برامج الترميز هذه بشكل موثوق، بينما يستمر المستخدمون الذين يستخدمون الأجهزة المنخفضة في مواجهة مشكلات جودة الصوت في ظل ظروف معدل البت المنخفض. وبالتالي، فإن التأثير الصافي لبرامج الترميز الجديدة هذه والمكلفة حسابيًا يقتصر في الواقع على جزء صغير من المستخدمين.

لا يزال عدد كبير من مستخدمينا يستخدمون الأجهزة المنخفضة الجودة. على سبيل المثال، يتم إجراء أكثر من 20% من مكالماتنا على أجهزة ARMv7، ويتم إجراء عشرات الملايين من مكالمات WhatsApp اليومية على أجهزة يزيد عمرها عن 10 سنوات. نظرًا لخيارات برامج الترميز المتوفرة بسهولة والتزامنا بضمان تمتع جميع المستخدمين، بغض النظر عن الجهاز الذي يستخدمونه، بتجربة اتصال عالية الجودة، فمن الواضح أننا نحتاج إلى برنامج ترميز بمتطلبات حسابية منخفضة للغاية ولا يزال يوفر صوتًا عالي الجودة بمعدلات البت المنخفضة هذه.

برنامج الترميز MLow

لقد بدأنا في تطوير برنامج ترميز جديد في نهاية عام 2021. وبعد ما يقرب من عامين من التطوير والاختبار النشط، نحن فخورون بالإعلان السيد.إيتا ضعيف برنامج ترميز الصوت بمعدل البت، المعروف أيضًا باسم MLow، والذي يحقق ضعف جودة Opus (POLQA MOS 1.89 مقابل 3.9 بسرعة 6 كيلوبت في الثانية WB). والأهم من ذلك أننا قادرون على تحقيق هذه الجودة العالية مع الحفاظ على التعقيد الحسابي لـ MLow. 10 في المئة أقل من ذلك من أوبوس.

يوضح الشكل 2 أدناه مخطط متوسط نقاط الرأي (MOS) على مقياس من 1 إلى 5 ويقارن درجات POLQA بين Opus وMLow بمعدلات بت مختلفة. كما يظهر الرسم البياني، يتمتع MLow بميزة كبيرة على Opus عند أقل معدلات البت، حيث يشبع الجودة بشكل أسرع من Opus.

الشكل 2: نتيجة POLQA تقارن Opus (WB) بـ MLow بمعدلات بت مختلفة على مجموعة بيانات ملف كبيرة.

لقد قمنا بالفعل بإطلاق MLow بالكامل لجميع مكالمات Instagram وMessenger ونقوم بنشره بنشاط على WhatsApp. لقد شهدنا بالفعل تحسنًا مذهلاً في تفاعل المستخدم مع جودة صوت أفضل.

وهنا بعض المقاطع الصوتية للاستماع إليها. نقترح عليك استخدام سماعة الرأس المفضلة لديك لتقدير الاختلافات الواضحة في جودة الصوت.

أوبوس 6 كيلو بايت في الثانية ملحوظة	Mlow 6 كيلوبت في الثانية WB	مرجع

إن القدرة على تشفير الصوت عالي الجودة بمعدلات بت أقل تفتح أيضًا إستراتيجيات تصحيح الأخطاء الأمامية (FEC) الأكثر فعالية. مقارنةً بـ Opus، مع MLow يمكننا تحمل تكلفة حزم FEC بمعدلات بت أقل بكثير، مما يساعد بشكل كبير على تحسين جودة الصوت في سيناريوهات فقدان الحزمة.

فيما يلي عينتان صوتيتان بسرعة 14 كيلوبت في الثانية مع فقدان كبير للحزم بنسبة 30% على جانب جهاز الاستقبال.

التأليف:

لاحظ أنه عند معدلات البت هذه، لا يكون Opus قادرًا على تشفير FEC داخل النطاق. يحتاج إلى ما لا يقل عن 19 كيلوبت في الثانية لتشفير أي FEC داخل النطاق مع فقدان الحزمة بنسبة 10%، وهو ما يضر باستعادة الصوت.

Mمكونات داخلية ضعيفة

يعتمد MLow على مفاهيم برنامج الترميز CELP (التنبؤ الخطي المثير للكود) الكلاسيكي مع التقدم في توليد الإثارة وتكميم المعلمات وأنظمة الترميز. الشكل 3 عبارة عن صورة مرئية عالية المستوى لطريقة العمل الداخلية لبرنامج الترميز. على اليسار لدينا إشارة إدخال (صوت PCM خام) تغذي جهاز التشفير، والذي يقوم بعد ذلك بتقسيم الإشارة إلى نطاقات تردد منخفضة وعالية. بعد ذلك، يتم تشفير كل نطاق بشكل منفصل أثناء استخدام المعلومات المشتركة لتحقيق ضغط أفضل. تمر جميع المخرجات عبر جهاز تشفير النطاق لمزيد من الضغط وإنشاء حمولة مشفرة. يقوم جهاز فك التشفير بالعكس تمامًا عندما يستقبل الحمولة لإنشاء إشارات صوتية للإخراج.

الشكل 3: بنية التشفير ووحدة فك التشفير MLow عالية المستوى.

من خلال تحسينات النطاق المقسم هذه، نحن قادرون على تشفير النطاق العالي باستخدام عدد قليل جدًا من البتات، مما يسمح لـ MLow بتقديم SuperWideBand (أخذ عينات 32 كيلو هرتز) باستخدام معدل بت أقل بكثير.

و بعد؟

قام MLow بتحسين جودة الصوت بشكل كبير على الأجهزة المنخفضة الجودة مع ضمان تشفير المكالمات من طرف إلى طرف. نحن متحمسون حقًا لما أنجزناه في العامين الماضيين فقط: بدءًا من تطوير برنامج ترميز جديد وحتى توصيله بنجاح إلى مليارات المستخدمين حول العالم. نواصل العمل على تحسين استعادة الصوت في الشبكات ذات فقدان الحزم العالية عن طريق ضخ المزيد من الصوت الزائد، وهو ما يتيح لنا MLow القيام به بكفاءة. نحن متحمسون لمشاركة المزيد بينما نواصل العمل لتسهيل إجراء مكالمات صوتية عالية الجودة لجميع مستخدمينا.

Akeem Ala

“Social media addict. Zombie fanatic. Travel fanatic. Music geek. Bacon expert.”