آیا واقعاً می توانیم به واترمارکینگ هوش مصنوعی اعتماد کنیم؟

واترمارکینگ هوش مصنوعی و دیپ فیک ها !

خانم Tanya Malhotra محقق در حوزه داده معتقد است پیشرفت سریع در هوش مصنوعی مولد امکان ایجاد محتوای دیجیتال جعلی فوق‌العاده قانع‌کننده را فراهم کرده است.

این محتوای جعلی، دیپ‌فیک نام دارد و شامل عکس‌ها، فیلم‌ها و صداهای جعلی است که می‌تواند بینندگان و شنوندگان را فریب داده و گمراه کند.

دیپ‌فیک‌ها می‌توانند برای اهدافی مانند انتشار اطلاعات نادرست، تقلب و حتی افترا استفاده شوند تا حدی که واترمارکینگ هوش مصنوعی هم نمیتواند آن را تشخیص دهد.

به همین دلیل، شناسایی و ردیابی اطلاعات تولید شده توسط هوش مصنوعی چالش‌برانگیز است.

این امر به دلیل خطر سوء استفاده از محتوای تقلبی که به عنوان محتوای معتبر ارائه می‌شود، از جمله انتشار اطلاعات نادرست و گمراه کردن مردم است.

واترمارک یکی از روش‌هایی است که برای تمایز بین عکس‌های ایجاد شده توسط هوش مصنوعی و سایر منابع ایجاد شده است. واترمارک‌ها معمولاً به صورت نامرئی به تصاویر اضافه می‌شوند و می‌توانند برای شناسایی منبع عکس یا تأیید اینکه عکس به طور مصنوعی ایجاد شده است استفاده شوند.

واترمارکینگ و آشکارسازهای تصاویر

تحقیقات اخیر محققان دپارتمان علوم کامپیوتر دانشگاه مریلند، بر انعطاف‌پذیری چندین آشکارساز تصویر هوش مصنوعی مولد، از جمله تشخیص‌دهنده‌های واترمارکینگ و طبقه‌بندی کننده های عمیق متمرکز شده است.

این تحقیقات نشان می‌دهد که این آشکارسازها می‌توانند با دقت بالایی محتوای تولید شده توسط هوش مصنوعی را شناسایی کنند.

این مطالعه نشان داد که یک تعادل اساسی بین دو نوع خطا وجود دارد:

نرخ خطای فرار، که کسری از تصاویر واترمارک شده است که به اشتباه بدون واترمارک شناسایی می شوند،
نرخ خطای جعل، که کسری از تصاویر غیر واترمارکی است که به اشتباه واترمارک تشخیص داده می شوند.

محققان این مطالعه از یک تکنیک حمله مخرب به نام حمله تصفیه انتشار برای ارزیابی عملکرد آشکارسازهای واترمارکینگ استفاده کردند.

حمله تصفیه انتشار یک تکنیک است که برای حذف واترمارک از تصاویر استفاده می شود. در این حمله، تصویر واترمارک شده با یک فیلتر تصفیه انتشار پردازش می شود. این فیلتر الگوهای واترمارک را از بین می برد، اما ممکن است به تصویر اصلی نیز آسیب برسان

این مطالعه نیز از حمله تصفیه انتشار برای ارزیابی عملکرد آشکارسازهای واترمارکینگ استفاده کرد. این حمله با معرفی اختلالات ظریف به تصاویر، سعی می کند آشکارسازها را فریب دهد.

تعادل بین خطاهای مثبت و منفی نیز در این مطالعه بررسی شد.

خطاهای مثبت زمانی رخ می دهد که یک تصویر واقعی به اشتباه به عنوان تولید شده توسط هوش مصنوعی شناسایی می شود. خطاهای منفی زمانی رخ می دهد که یک تصویر تولید شده توسط هوش مصنوعی به اشتباه به عنوان واقعی شناسایی می شود.

حذف واترمارک‌های تولید شده با هوش مصنوعی

این تحقیق به طور تجربی نشان داده است که حمله تصفیه انتشار می تواند با موفقیت واترمارک ها را از تصاویر با جزئیات کم حذف کند. این حمله با معرفی اختلالات ظریف به تصاویر، سعی می کند آشکارسازهای واترمارکینگ را فریب دهد.

تصاویری که با تکنیک های واترمارک تغییر می کنند، بیشتر در معرض این حمله هستند. این امر به این دلیل است که این تغییرات می تواند به آشکارسازهای واترمارکینگ کمک کند تا واترمارک را تشخیص دهند.

از سوی دیگر، حمله تصفیه انتشار برای تکنیک های واترمارک با جزئیات بالا موفقیت کمتری دارد. این امر به این دلیل است که این تغییرات می تواند به طور قابل توجهی تصاویر را تغییر دهد، که می تواند تشخیص واترمارک را دشوار کند.

این تحقیق نوع متفاوتی از حمله را پیشنهاد کرده است، به نام حمله جایگزینی مدل، که می تواند با موفقیت واترمارک ها را از تکنیک های واترمارک با جزئیات بالا حذف کند. این حمله با فریب مدل واترمارکینگ به این فکر است که محتوای واترمارک شده دیگر وجود ندارد، کار می کند.

این مطالعه همچنین نشان داد که تکنیک های واترمارکینگ می توانند نسبت به حملات جعلی آسیب پذیر باشند. در یک حمله جعلی، مهاجم سعی می کند تصاویر واقعی را به عنوان تصاویر واترمارک شده جعل کند. این می تواند برای انتشار اطلاعات نادرست یا گمراه کردن مردم انجام شود.

این مطالعه نشان داد که حتی با دسترسی جعبه سیاه به فناوری واترمارکینگ، می توان یک تصویر نویز واترمارکی تولید کرد. این بدان معناست که مهاجم از عملکرد داخلی فناوری واترمارکینگ اطلاعی ندارد.

مهاجم می تواند با افزودن این تصویر نویز به تصاویر واقعی، آنها را به عنوان تصاویر واترمارک شده جعل کند. این می تواند منجر به آسیب به تصاویر واقعی شود، زیرا ممکن است به عنوان تصاویر ناشایست یا صریح برچسب گذاری شوند.

مشارکت های اولیه تحقیق: یک نمای کلی

این مطالعه یک مبادله اساسی بین خطاهای فرار و جعل در واترمارکینگ تصاویر برای زمانی که در معرض حمله تصفیه انتشار قرار می‌گیرد، شناسایی کرده است.

یک مدل حمله جایگزین برای حذف موثر واترمارک ها در روش های واترمارکینگ تصویر با جزئیات بالا ایجاد شده است که به طور قابل توجهی تصاویر اصلی را تغییر می دهد.

حملات جعلی علیه روش‌های واترمارک با افزودن تصاویر نویز دار، واترمارک شده به تصاویر بدون واترمارک شناسایی شده‌اند که به طور بالقوه به اعتبار توسعه‌دهندگان آسیب می‌رساند.

یک معاوضه بین استحکام و قابلیت آشکارسازهای دیپ فیک شناسایی شده است.

در نتیجه، این مطالعه مشکلات و ضعف‌های آشکارسازهای تصویر هوش مصنوعی، به ویژه تکنیک‌های واترمارک، در مواجهه با حملات مخرب و رشد مواد تولید شده توسط هوش مصنوعی را روشن می‌کند. این مطالعه بر این نکته تاکید می‌کند که برای مقابله با این چالش‌ها و غلبه بر آن‌ها، ادامه ایجاد و تقویت روش‌های تشخیص در دوره هوش مصنوعی مولد چقدر حیاتی است.

جمع بندی

در پایان، می توان گفت که واترمارکینگ هوش مصنوعی یک ابزار امیدوارکننده برای شناسایی و ردیابی محتوای تولید شده توسط هوش مصنوعی است. با این حال، این فناوری هنوز در مراحل اولیه توسعه است و در برابر حملات مخرب آسیب پذیر است.

برای مقابله با این چالش ها، محققان باید به کار خود برای بهبود دقت و استحکام آشکارسازهای واترمارکینگ ادامه دهند. علاوه بر این، باید راه هایی برای توسعه روش های تشخیصی جدید برای مقابله با حملات جعلی پیدا کرد.

در اینجا به چند نکته برای بهبود امنیت واترمارکینگ هوش مصنوعی می‌پردازیم :

از تکنیک های واترمارکینگ با جزئیات بالا استفاده کنید که در برابر حملات تصفیه انتشار مقاوم تر هستند.
از تکنیک های واترمارکینگ استفاده کنید که از حملات جعلی محافظت می کنند.
از چند روش تشخیصی برای افزایش دقت استفاده کنید.

با ادامه توسعه فناوری واترمارکینگ هوش مصنوعی، این فناوری می تواند به یک ابزار مهم برای محافظت از کاربران در برابر محتوای تولید شده توسط هوش مصنوعی تبدیل شود.