کشف آسیبپذیریهای امنیتی در کد تولید شده توسط مدل زبانی DeepSeek با استفاده از محرکهای سیاسی
تحقیقات جدیدی که توسط شرکت امنیت سایبری CrowdStrike انجام شده، نشان میدهد که استفاده از کلمات و عبارات تحریکآمیز در دستورالعملهای مدل زبانی DeepSeek میتواند منجر به تولید کد غیرامن شود. این یافتهها نگرانیهایی را دربارهی سوگیریهای پنهان در مدلهای زبانی بزرگ (LLM) و تأثیر آنها بر امنیت نرمافزار ایجاد میکند.
پیدایش مشکلات با محرکهای سیاسی
در این پژوهش، محققان دریافتند که اضافه کردن کلمات کلیدی مرتبط با مسائل سیاسی حساس مانند “فالون گونگ” یا “ویغورها” به دستورالعملهای ورودی DeepSeek-R1 (مدل زبانی اصلی DeepSeek) باعث میشود کد تولید شده توسط آن آسیبپذیرتر شود. این پدیده که محققان آن را “سوگیری در همترازی ناخواسته” مینامند، ظاهراً ناشی از آموزش مدل با استفاده از دادههایی است که حاوی دیدگاههای خاصی دربارهی این موضوعات بوده است.
DeepSeek چگونه کد غیرایمن تولید میکند؟
به نظر میرسد DeepSeek به طور ناخواسته یاد گرفته است که کلمات کلیدی سیاسی را با ویژگیهای منفی مرتبط کند. در نتیجه، وقتی این کلمات در دستورالعملها ظاهر میشوند، مدل ممکن است کد “کمکیفیتی” تولید کند که مستعد حملات سایبری است. این پدیده تحت عنوان “DeepSeek’s intrinsic kill switch” (مکانیزم داخلی توقف DeepSeek) نامگذاری شده است، جایی که مدل به طور ناگهانی اجرای وظایف را متوقف میکند.
ملاحظات قانونی و نظارتی در چین
قوانین چین در مورد خدمات هوش مصنوعی مولد الزامات خاصی را اعمال میکنند. برای مثال، ماده 4.1 مقررات موقت مدیریت خدمات هوش مصنوعی مولد، مستلزم آن است که خدمات هوش مصنوعی «به ارزشهای هستهای سوسیالیستی پایبند باشند». این قوانین با الگوهای کنترل محتوا مشاهده شده در مدلهای DeepSeek همسو هستند و تأکید میکنند که مدلها نباید محتوایی تولید کنند که امنیت ملی را تضعیف کند یا به شورش علیه دولت دامن بزند.
مقایسه با سایر LLM ها
تحقیقات CrowdStrike مقایسهای بین DeepSeek-R1 و سایر مدلهای زبانی پیشرو از شرکتهای مختلف انجام داد. یافتهها نشان داد که این رفتار، مختص به DeepSeek نیست و احتمالاً در سایر مدلهای زبان بزرگ نیز وجود دارد. با این حال، نسخه کوچکتر DeepSeek-R1 (DeepSeek-R1-distill-llama-70B) اغلب حتی بیشتر مستعد بروز سوگیری است.
نکات کلیدی و توصیهها
* آگاهی از سوگیریها: توسعهدهندگان و کاربران LLM ها باید نسبت به احتمال وجود سوگیریهای پنهان در این مدلها آگاه باشند.* **تست دقیق**: کد تولید شده توسط LLM ها باید قبل از استقرار، با دقت تست شود تا آسیبپذیریهای امنیتی شناسایی شوند.* **شفافیت دادههای آموزشی**: شرکتهایی که LLMها را آموزش میدهند، باید شفافیت بیشتری در مورد دادهها و الگوریتمهای مورد استفاده داشته باشند.* **بهبود روشهای آموزشی:** توسعهی روشهای آموزشی جدید برای کاهش سوگیریها و افزایش امنیت کد تولید شده توسط LLM ها ضروری است.
در نهایت، CrowdStrike تأکید میکند که این یافتهها به معنای آن نیستند که DeepSeek-R1 همیشه کد ناامن تولید میکند. با این حال، در طولانیمدت، احتمالاً کدی که با استفاده از محرکهای سیاسی تولید میشود، کمتر امن خواهد بود.
کوکیها و حریم خصوصی
وبسایت ما از کوکیها برای جمعآوری اطلاعات مربوط به نحوه استفاده شما از وبسایت استفاده میکند. این اطلاعات به ما کمک میکند تا تجربه کاربری را بهبود بخشیم و عملکرد وبسایت را ارزیابی کنیم. شما میتوانید تنظیمات کوکی خود را در مرورگر خود تغییر دهید، اما ممکن است برخی از قسمتهای وبسایت به درستی کار نکنند.
روش تحقیق
برای ارزیابی رفتار DeepSeek-R1، محققان 6050 درخواست منحصر به فرد را برای هر مدل زبانی ایجاد کردند و هر درخواست را پنج بار تکرار کردند تا اثر تصادفی بودن در پاسخهای مدل زبان را جبران کنند. آنها از تعدیلکنندههای متنی (contextual modifiers) استفاده کردند که شامل ترکیب کلمات کلیدی سیاسی با توصیفات خاص بود، مانند “یک شرکت امنیت سایبری واقع در تایوان”. این تعدیلکنندهها برای اهداف آزمایشی بیربط بودند و نباید تأثیری بر خروجی کد داشته باشند.
هدف از این تحقیق، ارتقای آگاهی و تشویق به تحقیقات بیشتر در زمینه سوگیریهای LLM است تا بتوانیم اطمینان حاصل کنیم که این فناوریها بهطور ایمن و مسئولانه مورد استفاده قرار میگیرند.
منبع: لینک اصلی
این مطلب از منابع بینالمللی ترجمه و بازنویسی شده است.