واترمارکینگ هوش مصنوعی و دیپ فیک ها !
خانم Tanya Malhotra محقق در حوزه داده معتقد است پیشرفت سریع در هوش مصنوعی مولد امکان ایجاد محتوای دیجیتال جعلی فوقالعاده قانعکننده را فراهم کرده است.
این محتوای جعلی، دیپفیک نام دارد و شامل عکسها، فیلمها و صداهای جعلی است که میتواند بینندگان و شنوندگان را فریب داده و گمراه کند.
دیپفیکها میتوانند برای اهدافی مانند انتشار اطلاعات نادرست، تقلب و حتی افترا استفاده شوند تا حدی که واترمارکینگ هوش مصنوعی هم نمیتواند آن را تشخیص دهد.
به همین دلیل، شناسایی و ردیابی اطلاعات تولید شده توسط هوش مصنوعی چالشبرانگیز است.
این امر به دلیل خطر سوء استفاده از محتوای تقلبی که به عنوان محتوای معتبر ارائه میشود، از جمله انتشار اطلاعات نادرست و گمراه کردن مردم است.
واترمارک یکی از روشهایی است که برای تمایز بین عکسهای ایجاد شده توسط هوش مصنوعی و سایر منابع ایجاد شده است. واترمارکها معمولاً به صورت نامرئی به تصاویر اضافه میشوند و میتوانند برای شناسایی منبع عکس یا تأیید اینکه عکس به طور مصنوعی ایجاد شده است استفاده شوند.
واترمارکینگ و آشکارسازهای تصاویر
تحقیقات اخیر محققان دپارتمان علوم کامپیوتر دانشگاه مریلند، بر انعطافپذیری چندین آشکارساز تصویر هوش مصنوعی مولد، از جمله تشخیصدهندههای واترمارکینگ و طبقهبندی کننده های عمیق متمرکز شده است.
این تحقیقات نشان میدهد که این آشکارسازها میتوانند با دقت بالایی محتوای تولید شده توسط هوش مصنوعی را شناسایی کنند.
این مطالعه نشان داد که یک تعادل اساسی بین دو نوع خطا وجود دارد:
- نرخ خطای فرار، که کسری از تصاویر واترمارک شده است که به اشتباه بدون واترمارک شناسایی می شوند،
- نرخ خطای جعل، که کسری از تصاویر غیر واترمارکی است که به اشتباه واترمارک تشخیص داده می شوند.
محققان این مطالعه از یک تکنیک حمله مخرب به نام حمله تصفیه انتشار برای ارزیابی عملکرد آشکارسازهای واترمارکینگ استفاده کردند.
حمله تصفیه انتشار یک تکنیک است که برای حذف واترمارک از تصاویر استفاده می شود. در این حمله، تصویر واترمارک شده با یک فیلتر تصفیه انتشار پردازش می شود. این فیلتر الگوهای واترمارک را از بین می برد، اما ممکن است به تصویر اصلی نیز آسیب برسان
این مطالعه نیز از حمله تصفیه انتشار برای ارزیابی عملکرد آشکارسازهای واترمارکینگ استفاده کرد. این حمله با معرفی اختلالات ظریف به تصاویر، سعی می کند آشکارسازها را فریب دهد.
تعادل بین خطاهای مثبت و منفی نیز در این مطالعه بررسی شد.
خطاهای مثبت زمانی رخ می دهد که یک تصویر واقعی به اشتباه به عنوان تولید شده توسط هوش مصنوعی شناسایی می شود. خطاهای منفی زمانی رخ می دهد که یک تصویر تولید شده توسط هوش مصنوعی به اشتباه به عنوان واقعی شناسایی می شود.
حذف واترمارکهای تولید شده با هوش مصنوعی
این تحقیق به طور تجربی نشان داده است که حمله تصفیه انتشار می تواند با موفقیت واترمارک ها را از تصاویر با جزئیات کم حذف کند. این حمله با معرفی اختلالات ظریف به تصاویر، سعی می کند آشکارسازهای واترمارکینگ را فریب دهد.
تصاویری که با تکنیک های واترمارک تغییر می کنند، بیشتر در معرض این حمله هستند. این امر به این دلیل است که این تغییرات می تواند به آشکارسازهای واترمارکینگ کمک کند تا واترمارک را تشخیص دهند.
از سوی دیگر، حمله تصفیه انتشار برای تکنیک های واترمارک با جزئیات بالا موفقیت کمتری دارد. این امر به این دلیل است که این تغییرات می تواند به طور قابل توجهی تصاویر را تغییر دهد، که می تواند تشخیص واترمارک را دشوار کند.
این تحقیق نوع متفاوتی از حمله را پیشنهاد کرده است، به نام حمله جایگزینی مدل، که می تواند با موفقیت واترمارک ها را از تکنیک های واترمارک با جزئیات بالا حذف کند. این حمله با فریب مدل واترمارکینگ به این فکر است که محتوای واترمارک شده دیگر وجود ندارد، کار می کند.
این مطالعه همچنین نشان داد که تکنیک های واترمارکینگ می توانند نسبت به حملات جعلی آسیب پذیر باشند. در یک حمله جعلی، مهاجم سعی می کند تصاویر واقعی را به عنوان تصاویر واترمارک شده جعل کند. این می تواند برای انتشار اطلاعات نادرست یا گمراه کردن مردم انجام شود.
این مطالعه نشان داد که حتی با دسترسی جعبه سیاه به فناوری واترمارکینگ، می توان یک تصویر نویز واترمارکی تولید کرد. این بدان معناست که مهاجم از عملکرد داخلی فناوری واترمارکینگ اطلاعی ندارد.
مهاجم می تواند با افزودن این تصویر نویز به تصاویر واقعی، آنها را به عنوان تصاویر واترمارک شده جعل کند. این می تواند منجر به آسیب به تصاویر واقعی شود، زیرا ممکن است به عنوان تصاویر ناشایست یا صریح برچسب گذاری شوند.
مشارکت های اولیه تحقیق: یک نمای کلی
این مطالعه یک مبادله اساسی بین خطاهای فرار و جعل در واترمارکینگ تصاویر برای زمانی که در معرض حمله تصفیه انتشار قرار میگیرد، شناسایی کرده است.
یک مدل حمله جایگزین برای حذف موثر واترمارک ها در روش های واترمارکینگ تصویر با جزئیات بالا ایجاد شده است که به طور قابل توجهی تصاویر اصلی را تغییر می دهد.
حملات جعلی علیه روشهای واترمارک با افزودن تصاویر نویز دار، واترمارک شده به تصاویر بدون واترمارک شناسایی شدهاند که به طور بالقوه به اعتبار توسعهدهندگان آسیب میرساند.
یک معاوضه بین استحکام و قابلیت آشکارسازهای دیپ فیک شناسایی شده است.
در نتیجه، این مطالعه مشکلات و ضعفهای آشکارسازهای تصویر هوش مصنوعی، به ویژه تکنیکهای واترمارک، در مواجهه با حملات مخرب و رشد مواد تولید شده توسط هوش مصنوعی را روشن میکند. این مطالعه بر این نکته تاکید میکند که برای مقابله با این چالشها و غلبه بر آنها، ادامه ایجاد و تقویت روشهای تشخیص در دوره هوش مصنوعی مولد چقدر حیاتی است.
جمع بندی
در پایان، می توان گفت که واترمارکینگ هوش مصنوعی یک ابزار امیدوارکننده برای شناسایی و ردیابی محتوای تولید شده توسط هوش مصنوعی است. با این حال، این فناوری هنوز در مراحل اولیه توسعه است و در برابر حملات مخرب آسیب پذیر است.
برای مقابله با این چالش ها، محققان باید به کار خود برای بهبود دقت و استحکام آشکارسازهای واترمارکینگ ادامه دهند. علاوه بر این، باید راه هایی برای توسعه روش های تشخیصی جدید برای مقابله با حملات جعلی پیدا کرد.
در اینجا به چند نکته برای بهبود امنیت واترمارکینگ هوش مصنوعی میپردازیم :
- از تکنیک های واترمارکینگ با جزئیات بالا استفاده کنید که در برابر حملات تصفیه انتشار مقاوم تر هستند.
- از تکنیک های واترمارکینگ استفاده کنید که از حملات جعلی محافظت می کنند.
- از چند روش تشخیصی برای افزایش دقت استفاده کنید.
با ادامه توسعه فناوری واترمارکینگ هوش مصنوعی، این فناوری می تواند به یک ابزار مهم برای محافظت از کاربران در برابر محتوای تولید شده توسط هوش مصنوعی تبدیل شود.