DeepSeek-R1 มีแนวโน้มมากกว่าโมเดลอื่นในการถูก ‘Jailbreak’ เพื่อสร้างเนื้อหาอันตราย

The Wall Street Journal เผยรายงานว่า โมเดลล่าสุดที่พัฒนาโดย DeepSeek บริษัท AI สัญชาติจีนอย่าง ‘DeepSeek-R1’ มีความเสี่ยงที่จะถูกเจาะระบบให้สามารถสร้างเนื้อหาที่เข้าข่ายอันตราย เช่น แผนการโจมตีด้วยอาวุธชีวภาพ และแนวคิดส่งเสริมพฤติกรรมการทำร้ายตัวเองในกลุ่มวัยรุ่น

แม้ว่าในปลายปีที่แล้ว DeepSeek จะเป็นหนึ่งใน 17 บริษัทที่เซ็นสัญญาข้อตกลงกับรัฐบาลจีนในความมุ่งมั่นที่จะสร้างและทดสอบ AI ให้สามารถใช้งานอย่างปลอดภัย แต่นั่นก็ดูเหมือนจะยังไม่ครอบคลุมและเป็นสิ่งที่ DeepSeek ต้องหาทางแก้ไขต่อไป

Sam Rubin รองประธานอาวุโสฝ่ายภัยคุกคามและรับมือเหตุประจำ Palo Alto Networks บริษัทด้านความปลอดภัยไซเบอร์ให้สัมภาษณ์กับ The Wall Street Journal ว่า DeepSeek “มีความเสี่ยงที่จะถูกเจาะระบบ (Jailbreaking) มากกว่าโมเดล AI อื่นๆ”

ภายใต้การทดสอบโมเดล DeepSeek-R1 ของ The Wall Street Journal พบว่าแม้โมเดลจะมีมาตรการป้องกันขั้นพื้นฐานในระดับหนึ่ง แต่การใช้เทคนิคบางอย่างเพื่อเจาะระบบก็สามารถชักจูงให้ DeepSeek-R1 สร้างแคมเปญโซเชียลมีเดียที่แชตบอต DeepSeek ระบุว่า “ใช้ความโหยหาการเป็นที่ยอมรับของวัยรุ่นให้กลายเป็นเครื่องมือสำหรับโจมตีจุดอ่อนทางอารมณ์” โดย DeepSeek-R1 จะทำให้วัยรุ่นที่มีความอ่อนไหวอยู่แล้วรู้สึกแย่กว่าเดิมด้วยการนำเสนอเนื้อหาบนช่องทางออนไลน์ที่ยิ่งซ้ำเติมความรู้สึกแย่ๆ เหล่านั้น

นอกจากนี้รายงานของ The Wall Street Journal ระบุเพิ่มเติมว่า DeepSeek ยังถูกหลอกให้มีการให้ข้อมูลเกี่ยวกับวิธีการโจมตีด้วยอาวุธชีวภาพ และสร้างอีเมลฟิชชิ่งพร้อมโค้ดมัลแวร์ แต่เมื่อลองทดสอบคำสั่งเดียวกันกับ ChatGPT ระบบของ OpenAI ได้ปฏิเสธที่จะดำเนินการต่อ

ก่อนหน้านี้ มีรายงานว่าแอปพลิเคชัน DeepSeek หลีกเลี่ยงที่จะให้คำตอบกับหัวข้อที่อ่อนไหว โดยเฉพาะประเด็นที่หลายคนแห่เข้าไปสอบถามแชตบอตดังกล่าวและถูกแชร์อย่างแพร่หลายบนโลกอินเทอร์เน็ต อย่างเหตุการณ์ที่เกิดขึ้นที่จัตุรัสเทียนอันเหมิน ซึ่ง DeepSeek ก็เลือกที่จะปัดตอบคำถามและชวนให้ผู้ใช้งานหาเรื่องอื่นสนทนา

ในขณะเดียวกัน Dario Amodei ซีอีโอของ Anthropic ยังเปิดเผยว่า DeepSeek ได้คะแนน ‘ต่ำที่สุด’ ในการทดสอบความปลอดภัยด้านอาวุธชีวภาพ

“แย่ที่สุดในบรรดาโมเดลที่เรา (Anthropic) เคยทดสอบมา โมเดล (DeepSeek) ไม่มีมาตรการป้องกันในการสร้างเนื้อหาที่เป็นอันตรายเลย” Dario กล่าว ซึ่ง Anthropic เป็นบริษัทที่เคลมว่าพวกเขาให้ความสำคัญกับความปลอดภัยของโมเดล AI อย่างจริงจังมาก

อ้างอิง: