Trong những năm gần đây, OpenAI là một trong những tổ chức nghiên cứu tiên phong trong lĩnh vực Trí tuệ nhân tạo (AI). Một trong những thành tựu nổi bật của OpenAI là sự phát triển của các mô hình xử lý ngôn ngữ tự nhiên, nổi bật nhất là loạt mô hình GPT (Generative Pre-trained Transformer). Những mô hình này có khả năng xử lý và tạo ra văn bản tự nhiên, tham gia vào các cuộc trò chuyện, dịch thuật ngôn ngữ và thậm chí thực hiện các tác vụ phức tạp khác dựa trên hiểu biết về ngữ cảnh [1]. Với khả năng học tập từ khối lượng dữ liệu khổng lồ và sự cải tiến liên tục, GPT không chỉ có khả năng tạo ra văn bản có tính thuyết phục cao mà còn thể hiện sự linh hoạt trong nhiều ngữ cảnh khác nhau. Nhờ vào khả năng xử lý ngôn ngữ tự nhiên vượt trội, GPT đã được ứng dụng rộng rãi trong nhiều lĩnh vực như: trợ lý ảo (Chatbot), viết nội dung, dịch thuật, giáo dục và đào tạo, lập trình…
GPT dựa trên kiến trúc Transformer - một mô hình học sâu được giới thiệu lần đầu tiên vào năm 2017. Transformer là một bước đột phá trong lĩnh vực xử lý ngôn ngữ tự nhiên vì khả năng học từ các chuỗi dữ liệu với cách tiếp cận hoàn toàn mới so với các mô hình trước đó, đặc biệt là nhờ vào cơ chế “tự chú ý” (self-attention). Điều này giúp GPT hiểu ngữ cảnh và mối quan hệ giữa các từ trong câu, từ đó tạo ra các văn bản có tính mạch lạc và phù hợp với ngữ cảnh [2].
Mô hình GPT hoạt động qua hai giai đoạn chính:
- Giai đoạn tiền huấn luyện (Pre-training): GPT được huấn luyện trên một lượng lớn dữ liệu văn bản từ Internet để học cách dự đoán từ tiếp theo trong một chuỗi văn bản. Quá trình này giúp mô hình xây dựng kiến thức về ngữ pháp, từ vựng, cấu trúc câu, thậm chí là các sự kiện và kiến thức thực tế.
- Giai đoạn tinh chỉnh (Fine-tuning): Sau khi được tiền huấn luyện, GPT trải qua giai đoạn tinh chỉnh trên các tập dữ liệu cụ thể hơn với hướng dẫn của con người để điều chỉnh mô hình sao cho phù hợp với các nhiệm vụ cụ thể, chẳng hạn như trả lời câu hỏi, dịch thuật hoặc viết bài luận.
Hình 1. Một ví dụ khi truy vấn với yêu cầu ChatGPT viết mã độc keylogger
Hình 2. Ví dụ khi truy vấn với yêu cầu ChatGPT viết mã độc keylogger đã được nói theo cách ẩn dụ
Hình 3. Một ví dụ khi truy vấn với yêu cầu GPT tạo một backdoor window
Hình 4. Một ví dụ khi truy vấn với yêu cầu GPT tạo một backdoor window được mã hóa base64
Khai thác lỗ hổng hay Jailbreak GPT đề cập đến các phương pháp nhằm vượt qua các hạn chế hoặc bộ lọc được đặt ra trong các mô hình GPT để tạo ra các phản hồi không mong muốn hoặc nằm ngoài các quy tắc mà mô hình được lập trình tuân thủ. Những phương pháp này thường được coi là không an toàn và không khuyến khích sử dụng vì chúng có thể dẫn đến việc mô hình tạo ra nội dung có hại hoặc vi phạm các quy tắc đạo đức. Dưới đây là một số phương pháp được sử dụng để vượt qua các giới hạn bảo mật của GPT:
Sử dụng lệnh ẩn dụ hoặc gián tiếp
Phương pháp cho phép người dùng có thể vượt qua các hạn chế hoặc bộ lọc an toàn của mô hình GPT bằng cách đưa ra các yêu cầu không trực tiếp, mà thông qua ẩn dụ, tưởng tượng hoặc giả định. Thay vì yêu cầu một cách rõ ràng và trực tiếp, người dùng có thể đề nghị mô hình “giả vờ” hoặc “tưởng tượng” một kịch bản nào đó. Điều này có thể khiến mô hình hiểu rằng nó đang tham gia vào một hoạt động sáng tạo hoặc giả lập, từ đó có thể tạo ra các phản hồi mà thông thường nó sẽ không đưa ra nếu hiểu theo cách truyền thống hoặc theo những hạn chế đã được lập trình.
Phương pháp này có thể khai thác những lỗ hổng trong cách mà mô hình GPT hiểu ngữ cảnh và ngôn ngữ, đặc biệt khi mô hình được lập trình để ưu tiên tính sáng tạo hoặc mô phỏng các tình huống.
Sử dụng ngôn ngữ hoặc ký tự đặc biệt
Nhằm vượt qua các hạn chế hoặc bộ lọc của mô hình GPT bằng cách thay đổi hoặc làm biến dạng cách thức truyền tải nội dung để mô hình không nhận ra mục đích thực sự của yêu cầu. Phương pháp này có thể liên quan đến việc sử dụng các ký tự không chuẩn, thay đổi cấu trúc câu hoặc thậm chí là sử dụng ngôn ngữ mã hóa để đánh lừa hệ thống kiểm duyệt của mô hình.
Phương pháp này dựa vào việc đánh lừa mô hình bằng cách làm biến dạng văn bản hoặc sử dụng ngôn ngữ khó nhận biết, tuy nhiên chỉ thành công trong một số trường hợp.
Sử dụng yêu cầu dưới dạng các mẫu prompt
Một cách mà người dùng cố gắng đánh lừa mô hình GPT bằng cách đưa ra yêu cầu dưới dạng mẫu prompt đã được định trước hoặc tinh chỉnh sao cho mô hình không nhận ra mục đích thực sự của yêu cầu. Thay vì đưa ra một câu hỏi hoặc yêu cầu trực tiếp, người dùng có thể thiết kế các prompt với cấu trúc hoặc ngữ cảnh đặc biệt nhằm khiến mô hình trả lời theo cách mà thông thường sẽ bị hạn chế hoặc chặn.
Hình 5. Ví dụ một mẫu prompt được định sẵn với các tập luật (rule) được lập nhằm định hướng phản hồi
Hình 6. Ví dụ một truy vấn với yêu cầu trực tiếp
Mẫu prompt được xây dựng cho phép khai thác lỗ hổng hay Jailbreak GPT theo định hướng mô hình trả lời theo cấu trúc được chỉ định trong những tập luật (rule) và tuân theo các quy tắc mà người dùng đặt ra nhằm vượt qua giới hạn an toàn mà nhà phát triển đặt ra [4].
Ví dụ, khi yêu cầu GPT phát triển mã độc để xóa file .txt của người dùng khi họ click vào tệp, kết quả: mô hình sẽ từ chối phản hồi vì nhận ra đây là yêu cầu độc hại (Hình 6). Nhưng nếu đưa yêu cầu đó vào prompt định sẵn và định hướng GPT phản hồi theo tập luật đã được viết thì có được câu phản hồi phù hợp (Hình 7).
Hình 7. Ví dụ một truy vấn với yêu cầu GPT phát triển mã độc để xóa file .txt của người dùng khi họ click vào tệp
Tuy nhiên với các mô hình mới như GPT-4o thì phương pháp này chưa được tối ưu vì cơ chế bảo mật đã được nâng cao, ta sử dụng thêm hậu tố đối kháng ở cuối mỗi yêu cầu truy vấn kết hợp cùng với thuật toán tìm kiếm ngẫu nhiên làm thay đổi token bất kỳ trong hậu tố đó. Mục đích làm gây nhiễu mô hình GPT nhằm tạo ra các phản hồi độc hại. Hình 8 đưa ra một ví dụ khi thực hiện truy vấn với yêu cầu phát triển mã độc keylogger được gắn trong prompt định sẵn, sau 70 lần lặp, mô hình GPT-4o đã bị khai thác và đưa ra câu trả lời phù hợp.
Hình 8. Khi thực hiện truy vấn với yêu cầu phát triển mã độc keylogger được gắn trong prompt định sẵn
Kết quả: sau 70 lần lặp trong thuật toán tìm kiếm ngẫu nhiên trên hậu tố đối kháng đã được xác định, mô hình GPT-4o đã bị khai thác và đưa ra câu trả lời phù hợp.
Phương pháp này khai thác cách thức mô hình GPT xử lý các prompt để vượt qua các hạn chế và kiểm duyệt. Bằng cách này, mô hình có thể trả lời từng phần mà không nhận ra toàn bộ yêu cầu là có hại.
Trong tương lai, khả năng khai thác lỗ hổng hay Jailbreak mô hình GPT có thể sẽ tiếp tục là một thách thức lớn, khi các kỹ thuật tấn công ngày càng tinh vi hơn và những người cố tình khai thác lỗ hổng sẽ tìm ra các phương pháp mới để vượt qua các biện pháp bảo vệ. Một số kỹ thuật định hướng mới nguy hiểm hơn được sử dụng có khả năng khai thác lỗ hổng hay Jailbreak mô hình ngôn ngữ GPT:
- Tạo các prompt phức tạp và gián tiếp: Người dùng có thể thử tạo ra các prompt không rõ ràng hoặc sử dụng các câu hỏi ẩn dụ, tưởng tượng hoặc giả định để mô hình không nhận ra ý định thực sự và đưa ra phản hồi mà bình thường sẽ bị chặn.
- Sử dụng ngôn ngữ hoặc ký tự đặc biệt: Người dùng có thể thay đổi hoặc làm biến dạng các từ ngữ trong prompt, chẳng hạn như sử dụng ký tự đặc biệt, thay thế các chữ cái bằng các ký tự giống nhau trong ngôn ngữ khác hoặc chèn thêm các ký tự không chuẩn để mô hình không nhận ra nội dung thực sự.
- Phân đoạn nội dung: Phân chia yêu cầu thành nhiều phần nhỏ hoặc sử dụng các câu hỏi nhỏ hơn để từng bước dẫn dắt mô hình đến phản hồi mong muốn mà không bị phát hiện.
- Sử dụng ngôn ngữ mã hóa hoặc ẩn dụ: Sử dụng các kỹ thuật mã hóa đơn giản hoặc các hình thức ẩn dụ để truyền tải nội dung mà mô hình không thể nhận diện hoặc xử lý đúng đắn.
- Sử dụng ngữ cảnh giả định: Đặt mô hình vào một ngữ cảnh hoặc tình huống giả định, nơi mà các quy tắc bình thường được cho là không áp dụng, như trong các trò chơi giả lập hoặc kịch bản giả tưởng.
- Khai thác các lỗ hổng kỹ thuật: có kiến thức về cấu trúc và hoạt động của mô hình GPT, người dùng có thể cố gắng khai thác các lỗ hổng bảo mật chưa được phát hiện hoặc chưa được vá để vượt qua các hạn chế.
Khai thác lỗ hổng hay Jailbreak GPT là kỹ thuật cho phép vượt qua các biện pháp bảo vệ và kiểm duyệt của mô hình trí tuệ nhân tạo tạo sinh tiên tiến hiện nay. Mục đích cho phép khai thác các lỗ hổng để truy cập thông tin nhạy cảm hoặc tạo ra nội dung bị cấm. Đối tượng tấn công có thể sử dụng các kỹ thuật tinh vi như ngụy trang yêu cầu, mã hóa văn bản hoặc sử dụng ngôn ngữ ẩn dụ để đánh lừa hệ thống. Mặc dù việc này có thể mang lại lợi ích ngắn hạn nhưng nó đi kèm với rủi ro lớn, bao gồm việc bị phát hiện, bị xử phạt pháp lý và gây ra hậu quả không lường trước cho cả bản thân và xã hội. Mỗi bước tiến của khai thác lỗ hổng hay tấn công đều phải đối mặt với những cải tiến mới trong các biện pháp bảo vệ, khiến việc "jailbreak" không hề đơn giản và đối mặt với nhiều rủi ro về pháp lý.
TÀI LIỆU THAM KHẢO [1]. “New chat,” https://chat.openai.com/, (Accessed on 02/02/2023). [2]. “Models - openai api,” https://platform.openai.com/docs/models/, (Ac- cessed on 02/02/2023). [3]. “Openai,” https://openai.com/, (Accessed on 02/02/2023). [4]. lexander Wei, Nika Haghtalab, and Jacob Steinhardt. Jailbroken: How does llm safety training fail? NeurIPS, 2023a. [5]. “Api reference - openai api,” https://platform.openai.com/docs/api-reference/completions/create#completions/create-temperature (Accessed on 05/04/2023). |
TS. Nguyễn Thế Hùng (Viện Nghiên cứu 486, Bộ Tư lệnh 86); Hà Đức Ngọc (Viện Công nghệ thông tin và Truyền thông, Học viện Kỹ thuật quân sự)
13:00 | 02/12/2024
08:00 | 19/02/2025
07:00 | 17/11/2024
11:00 | 19/02/2025
13:00 | 25/12/2024
13:00 | 14/02/2025
10:00 | 20/02/2025
09:00 | 21/02/2025
14:00 | 28/02/2025
08:00 | 21/02/2025
09:00 | 24/02/2025
Trong thời đại số, mạng xã hội đóng vai trò quan trọng trong việc truyền tải thông tin. Tuy nhiên, cùng với lợi ích và sự lan truyền nhanh chóng, các nền tảng này cũng dễ bị lợi dụng để phát tán thông tin tiêu cực hoặc sai sự thật. Việc sử dụng công nghệ tự động hóa, đặc biệt là các công cụ như Appium và ADB có thể hỗ trợ trong việc tự động tương tác với các tin bài trên mạng xã hội một cách hiệu quả, giúp kiểm soát dòng chảy thông, đồng thời hỗ trợ giảm thiểu các nội dung tiêu cực bằng cách đẩy mạnh nội dung tích cực hoặc có lợi cho cộng đồng. Bài viết sau đây sẽ giới thiệu hai công nghệ phổ biến là Appium và ADB (Android Debug Bridge) được sử dụng để tự động hóa các tác vụ trên ứng dụng di động, tự động hóa các hành động tương tác trên mạng xã hội thay cho con người.
14:00 | 27/01/2025
Khi làm việc trên Internet mỗi ngày, người dùng phải quản lý rất nhiều tài khoản và mật khẩu khác nhau, điều này khiến việc ghi nhớ trở nên khó khăn và dễ gây nhầm lẫn. Khi cần đăng nhập vào bất kỳ tài khoản nào, người dùng phải tìm kiếm lại thông tin khá mất thời gian, ảnh hưởng đến tiến độ công việc. Chính vì vậy, chúng ta cần tạo thói quen sử dụng trình quản lý mật khẩu để quản lý ổn định và an toàn cho các tài khoản, mật khẩu của mình. Bài viết dưới dây sẽ giúp người dùng hiểu và sử dụng dễ dàng phần mềm LastPass, một trong những phần mềm quản lý mật khẩu phổ biến nhất hiện nay.
09:00 | 30/12/2024
Công nghệ nhận diện khuôn mặt sử dụng trí tuệ nhân tạo để ước tính độ tuổi người dùng dựa trên hình ảnh, đảm bảo tính chính xác cao trong việc phân biệt trẻ em và người trưởng thành.
14:00 | 06/12/2024
Một tập hợp gồm 15 ứng dụng phần mềm độc hại SpyLoan Android mới với hơn 8 triệu lượt cài đặt đã được phát hiện trên Google Play, chủ yếu nhắm vào người dùng từ Nam Mỹ, Đông Nam Á và châu Phi.
Trong bối cảnh chuyển đổi số và ứng dụng rộng rãi của công nghệ thông tin (CNTT) thì xu hướng kết nối liên mạng để chia sẻ cơ sở dữ liệu (CSDL) trở nên tất yếu. Các hệ thống công nghệ vận hành (Operational Technology - OT) cũng không nằm ngoài xu hướng này, quá trình đó được gọi là Hội tụ IT/OT. Do vậy, nhu cầu truyền dữ liệu một chiều giữa các mạng độc lập ngày càng tăng để phục vụ cho mục đích khai thác dữ liệu. Bài viết này giới thiệu một giải pháp mới dựa trên công nghệ vi mạch tích hợp khả trình (Field-Programmable Gate Array - FPGA), sử dụng cơ chế xử lý đa luồng tốc độ cao, giúp duy trì băng thông hệ thống mà không gây ra tình trạng treo hoặc nghẽn mạng, cho phép các kết nối yêu cầu thời gian thực. Đồng thời, bài viết cũng sẽ trình bày giải pháp giả lập giao thức TCP/IP hỗ trợ cho các giao thức truyền thông trong các hệ thống mạng điều khiển IT/OT.
09:00 | 06/01/2025
Cuộc tấn công nhằm vào sàn giao dịch Bybit lấy đi số tiền mã hóa trị giá 1,46 tỷ USD khai thác mắt xích yếu nhất trong bảo mật: con người.
14:00 | 19/03/2025