التحرك على سيري. هذا الذكاء الاصطناعي لا يسمعك فحسب، بل يشعر بالطريقة التي تتحدث بها
طرحت Inworld AI نموذجًا صوتيًا جديدًا للذكاء الاصطناعي مصممًا لجعل المحادثات مع الآلات تبدو أكثر إنسانية من خلال فهم ليس فقط ما يقوله المستخدمون ولكن أيضًا كيف يقولون ذلك.
أحدث نظام للشركة الناشئة في ماونتن فيو، Realtime TTS-2، يقوم بتحليل الإشارات الصوتية مثل النغمة والإيقاع وطبقة الصوت لاستنتاج الحالة العاطفية للمتحدث في الوقت الفعلي. ثم يقوم بعد ذلك بضبط صوته وإيصاله ديناميكيًا لإنشاء تفاعلات أكثر طبيعية وواعية عاطفيًا (يرمز TTS إلى تحويل النص إلى كلام، وهو نوع من نماذج الذكاء الاصطناعي المستندة إلى الصوت).
نظرًا لأن النماذج الصوتية للذكاء الاصطناعي أصبحت أكثر واقعية، فقد يؤدي ذلك إلى زيادة الاستخدام والمشاركة. في حين أن النماذج المستندة إلى النصوص، وترميز الذكاء الاصطناعي، وتوليد الصور حققت نجاحًا كبيرًا حتى الآن، فمن المحتمل أن يكون التحدث مع النماذج وروبوتات الدردشة طريقة أكثر طبيعية لاستخدام هذه التكنولوجيا. يعتقد الرئيس التنفيذي لشركة Inworld، كيلان جيبس، أن حل الطبقة العاطفية أمر ضروري لتحقيق ذلك على نطاق واسع.
وقال لي في مقابلة أجريت معه مؤخراً: “إن المحادثة المباشرة، كما نجريها الآن، هي الوضع الطبيعي الذي يتفاعل معه الناس”. “كلما اقتربت من ذلك، كلما زاد التفاعل الذي تراه.”
ويمثل هذا الإصدار تحولًا في تركيز الشركة، التي جمعت أكثر من 100 مليون دولار من المستثمرين بما في ذلك Founders Fund وIntel وMicrosoft. تم تصنيف الطراز السابق لشركة Inworld بالفعل على رأس معايير الصناعة من حيث جودة الصوت، متفوقًا على المنافسين مثل Google وElevenLabs. لكن جيبس قال إن ذلك لم يكن كافيا.
حتى الآن، تم تصميم معظم النماذج الصوتية للذكاء الاصطناعي للكتب الصوتية والتعليقات الصوتية ومحتوى الوسائط المشابه، وفقًا لجيبس، مدير منتج سابق في DeepMind.
وقال: “إذا سمعت صوت الذكاء الاصطناعي اليوم، فإنه يبدو وكأنه إنسان، لكنه يبدو وكأنه إنسان يقرأ من نص، وهناك شيء ما غير صحيح”. “قد يبدو الأمر جيدًا، لكنه يبدو سيئًا. تخيل مجرد التحدث إلى كتاب صوتي.”
أصبح هذا الانفصال بين الواقعية والتفاعل الطبيعي هو الهدف التالي لـ Inworld.
ولمعالجة هذه المشكلة، يجمع TTS-2 بين العديد من الإمكانات التي لا تتواجد معًا عادةً في الأنظمة الصوتية للذكاء الاصطناعي. على سبيل المثال، فهو يفهم التاريخ الكامل للمحادثة وسياقها، لذا فإن السطر الذي يتم تسليمه بعد نكتة يكون مختلفًا عن نفس السطر الذي يتم تسليمه بعد الأخبار السيئة.
يمكن للنموذج الصوتي الجديد أيضًا اكتشاف الإشارات العاطفية من كلام البشر في الوقت الفعلي، ويقوم بتحديث ما يسميه Inworld باستمرار “حالة المستخدم” و”حالة الوكيل” لتوجيه كيفية استجابة الذكاء الاصطناعي.
عرض حي
في عرض تجريبي مباشر وحصري في المقر الرئيسي لشركة Inworld في وادي السيليكون، أظهر لي جيبس أداء TTS-2. وفي غضون ثوانٍ قليلة، تحول النموذج الصوتي للذكاء الاصطناعي بين عدة حالات مختلفة بينما كان جيبس يتحدث ويقدم موضوعات ونغمات مختلفة.
في لحظة ما، كان النموذج الصوتي للذكاء الاصطناعي “متعاطفًا، واعتذاريًا، ومباشرًا” عند الاستجابة لتأخير خدمة العملاء. وسرعان ما تطور الأمر ليصبح “صبورًا ودافئًا وموضحًا”، ثم “متعاطفًا ومفيدًا وسريع الخطى”، اعتمادًا على السياق والموضوع والطريقة التي كان يتحدث بها جيبس.
تسلية خفيفة
لاحقًا في العرض التوضيحي المباشر، أوضحت شخصية تعمل بالذكاء الاصطناعي تُدعى “جايسون” مدى دقة تلك الاستجابات. بعد أن ألقى جيبس نكتة غير لائقة عن عمد، لم يتجاهلها الذكاء الاصطناعي أو يستجيب بصراحة.
وبدلاً من ذلك، قدمت رد فعل متوازن بعناية: “حسنًا، أعني أنها كانت فعالة بالتأكيد. لقد لفتت انتباهي بالتأكيد. لا أعرف إذا كنت سأسميها مضحكة، لكنها كانت مثيرة للإعجاب بطريقة ما”.
نقلت النغمة تسلية خفيفة إلى جانب الرفض المهذب، وهو مثال على نوع الفوارق الدقيقة التي تهدف Inworld إلى تحقيقها.
وقال جيبس إن هذا النوع من الوعي العاطفي كان مفقودًا إلى حد كبير من الذكاء الاصطناعي الصوتي لأن الأنظمة الحالية تتعامل مع الكلام كمدخلات نصية معزولة. على النقيض من ذلك، تم تصميم TTS-2 لتفسير مجموعة واسعة من الإشارات، بما في ذلك أسلوب التسليم والعروض – كيف يقال شيء ما، بدلا من الكلمات نفسها.
وقال غيبس إن التكنولوجيا يمكن أن يكون لها تطبيقات واسعة النطاق، من خدمة العملاء والرعاية الصحية إلى التعليم ومرافقي الذكاء الاصطناعي.
مجرد نماذج وواجهات برمجة التطبيقات
تقوم Inworld بوضع النموذج كبنية تحتية للمطورين بدلاً من كونه منتجًا استهلاكيًا، حيث تقدمه من خلال واجهة برمجة التطبيقات (API) التي يتم توصيلها بأنظمة الذكاء الاصطناعي الحالية. تعد واجهات برمجة التطبيقات (APIs)، أو واجهات برمجة التطبيقات، طريقة شائعة لمشاركة التطبيقات للبيانات والتواصل.
في حين أن شركة ElevenLabs الناشئة المنافسة للذكاء الاصطناعي تنشط على مستوى التطبيق مع العملاء، فإن Inworld تمنح المطورين إمكانية الوصول إلى النماذج الأساسية وتمنحهم المزيد من الحرية لإنشاء تطبيقاتهم الخاصة في الأعلى.
ويرجع ذلك جزئيًا إلى رغبة Gibbs في تجنب التنافس مع عملاء Inworld. وقال غيبس إن ظهور أدوات ترميز الذكاء الاصطناعي مثل Anthropic’s Claude Code وOpenAI’s Codex يجعل تطوير التطبيقات أسهل بكثير، لذلك هناك قيمة أقل في تلك الطبقة من مجموعة التكنولوجيا الآن.
وأضاف: “نحن الآن ننتج فقط النماذج وواجهات برمجة التطبيقات”.
قم بالتسجيل في النشرة الإخبارية Tech Memo الخاصة بـ BI هنا. تواصل معي عبر البريد الإلكتروني على [email protected].