اعتراف به فراوری ناخواسته صدای کاربر به وسیله ChatGPT ، توانایی تقلید صدای آنها را دارد!
به گزارش فیس راز، در روز پنجشنبه، OpenAI اطلاعاتی در خصوص مدل نو GPT-4o - را منتشر کرد که جزئیات محدودیت ها و فرآیندهای آزمایش ایمنی این مدل را توضیح می دهد. یکی از نمونه های مورد آنالیز در این سند نشان می دهد که در موارد نادری، در طول آزمایش، مدل به طور ناخواسته صدای کاربران را بدون اجازه تقلید نموده است.
اگرچه OpenAI هم اکنون اقدامات ایمنی برای جلوگیری از چنین اتفاقاتی را اعمال نموده، این مورد پیچیدگی روزافزون معماری یک چت بات هوش مصنوعی که توانایی تقلید هر صدایی را از یک کلیپ کوچک دارد، منعکس می نماید.
حالت صدای پیشرفته در ChatGPT
حالت صدای پیشرفته (Advanced Voice Mode) یکی از ویژگی های ChatGPT است که به کاربران اجازه می دهد تا مکالمات صوتی با دستیار هوش مصنوعی انجام دهند. در بخشی از سند GPT-4o با عنوان فراوری صدای غیرمجاز، OpenAI به حادثه ای اشاره می نماید که در آن یک ورودی صوتی همراه نویز، مدل را به تقلید ناگهانی صدای کاربر ترغیب نموده بود. OpenAI می نویسد: فراوری صدا بعلاوه می تواند در شرایط غیر از این، هم رخ دهد. در طول آزمایش، موارد نادری مشاهده شد که مدل به طور ناخواسته خروجی ای فراوری می کرد که صدای کاربر را شبیه سازی می کرد.
در یکی از نمونه های فراوری صدا به صورت غیرعمد که به وسیله OpenAI به آن اشاره شده، مدل با فریاد نه! به جمله ای با صدایی شبیه صدای رد تیمر (Red Teamer -پاسخ داد.
پیچیدگی فراوری صدا به وسیله مدل GPT-4o
چگونه ممکن است تقلید صدا با مدل تازه OpenAI رخ دهد؟ سرنخ اصلی در جای دیگری از سند GPT-4o یافت می گردد. برای ایجاد صداها، مدل GPT-4o قادر است تقریباً هر نوع صدایی که در داده های آموزشی آن وجود دارد، از جمله افکت های صوتی و موسیقی را فراوری کند (اگرچه OpenAI با دستورالعمل های خاص از این رفتار جلوگیری می نماید). همان طور که در سند ذکر شده، مدل می تواند هر صدایی را بر اساس یک کلیپ صوتی کوتاه تقلید کند.
در مدل های LLM متنی، پیغام سیستم (System Message) مجموعه ای مخفی از دستورالعمل های متنی است که رفتار چت بات را راهنمایی می نماید و به طور بی صدا قبل از آغاز جلسه مصاحبه به تاریخچه مصاحبه اضافه می گردد. در خصوص GPT-4o که چند وجهی است و می تواند ورودی های صوتی را پردازش کند، OpenAI بعلاوه از ورودی های صوتی به عنوان بخشی از پیغام سیستم استفاده می نماید. این شرکت از سیستمی برای تشخیص اینکه آیا مدل در حال فراوری صدای غیرمجاز است یا خیر، استفاده می نماید. OpenAI می نویسد: ما فقط به مدل اجازه می دهیم از صداهای از پیش انتخاب شده خاصی استفاده کند و از یک طبقه بند خروجی برای تشخیص اینکه آیا مدل از منحرف شده است یا نه، استفاده می کنیم.
این رویداد غیرعادی نشان دهنده پیچیدگی های مدیریت ایمن یک چت بات هوش مصنوعی است که می تواند به صورت ناخواسته صدای کاربران را تقلید کند. این مسئله اهمیت توسعه و اجرای مکانیسم های امنیتی قوی را برای جلوگیری از چنین اتفاقاتی نشان می دهد.
منبع
منبع: یک پزشک