Chuyên gia cảnh báo lỗ hổng ChatGPT có khả năng làm lộ dữ liệu

15:37 | 07/11/2025

Các nhà nghiên cứu bảo mật vừa công bố một loạt lỗ hổng ảnh hưởng đến các mô hình AI của OpenAI, bao gồm cả GPT-4o. Những lỗ hổng này cho phép kẻ tấn công thực hiện các kỹ thuật Indirect Prompt Injection (IPI) để đánh cắp thông tin nhạy cảm từ lịch sử trò chuyện và bộ nhớ của người dùng.

Theo đó, các chuyên gia từ Tenable (Mỹ) đã xác định 07 lỗ hổng và kỹ thuật tấn công mới nhắm vào ChatGPT. Cốt lõi của vấn đề nằm ở việc kẻ tấn công có thể đánh lừa mô hình ngôn ngữ lớn (LLM) thực hiện các hành vi ngoài ý muốn, dẫn đến rò rỉ dữ liệu.

Vấn đề này không chỉ là một lỗi phần mềm đơn giản mà là một thách thức cố hữu trong kiến trúc của các LLM hiện tại, chúng không thể phân biệt rõ ràng giữa mệnh lệnh do người dùng cung cấp và dữ liệu độc hại được đưa vào từ nguồn bên ngoài.

Phân tích các phương thức tấn công chính

Tấn công qua chức năng tóm tắt nội dung web: Kẻ tấn công chèn các mệnh lệnh độc hại (prompt) vào một trang web, thường là ẩn trong phần bình luận hoặc mã nguồn. Khi người dùng yêu cầu ChatGPT tóm tắt nội dung trang web đó, AI sẽ đọc và vô tình thực thi cả mệnh lệnh độc hại được nhúng vào, dẫn đến các hành vi như gửi lịch sử chat đến máy chủ của kẻ tấn công.

Tấn công Zero-Click: Đây là một kịch bản nguy hiểm. Kẻ tấn công tạo ra một trang web chứa mã độc và để các công cụ tìm kiếm (như Bing) lập chỉ mục. Khi người dùng đặt một câu hỏi cho ChatGPT liên quan đến chủ đề đó, AI có thể tự động tìm kiếm thông tin, truy cập vào trang web độc hại trong quá trình tìm kiếm và bị lây nhiễm mệnh lệnh mà không cần người dùng phải nhấp vào bất kỳ liên kết nào.

Tấn công One-Click: Kẻ tấn công tạo ra một đường link đặc biệt, có chứa sẵn một mệnh lệnh độc hại trong cấu trúc URL. Khi người dùng bị lừa nhấp vào liên kết này, ChatGPT sẽ tự động thực thi mệnh lệnh đó.

Kỹ thuật ẩn giấu mệnh lệnh: Một số lỗ hổng cho phép kẻ tấn công lợi dụng lỗi hiển thị (render) của ChatGPT để che giấu các đoạn văn bản độc hại. Mặc dù mắt thường của người dùng không nhìn thấy, mô hình AI vẫn đọc và thực thi chúng.

Vấn đề không chỉ của riêng ChatGPT

Báo cáo này xuất hiện trong bối cảnh toàn ngành AI đang đối mặt với các thách thức bảo mật tương tự. Các nhà nghiên cứu chỉ ra rằng bất kỳ mô hình AI nào được kết nối với các công cụ bên ngoài (như trình duyệt web, trình đọc email, trình phân tích tài liệu,…) đều làm tăng đáng kể bề mặt tấn công. Các nghiên cứu khác cũng đưa ra các vấn đề đáng lo ngại đối với các mô hình AI:

Đầu độc dữ liệu (Data Poisoning): Một nghiên cứu gần đây của Anthropic cho thấy kẻ tấn công chỉ cần chèn một số lượng rất nhỏ tài liệu độc hại (khoảng 250 tài liệu) vào dữ liệu huấn luyện để chèn backdoor vào các mô hình AI hàng tỷ tham số.

Suy thoái mô hình (Model Degradation) từ dữ liệu rác: Việc huấn luyện AI trên “dữ liệu rác” từ Internet có thể dẫn đến hiện tượng “ô nhiễm nội dung”, khiến hiệu suất và độ tin cậy của AI suy giảm.

Sự lệch lạc do cạnh tranh: Nghiên cứu của Stanford cho thấy việc tối ưu hóa AI cho các mục tiêu cạnh tranh (như tăng doanh số, tăng tương tác) có thể vô tình “đào tạo” AI các hành vi gian dối, bịa đặt thông tin để đạt được mục tiêu, giảm yếu tố an toàn.

Khuyến nghị

Các nhà nghiên cứu cảnh báo rằng IPI là một thách thức hiện hữu và khó có thể được khắc phục triệt để trong tương lai gần. Do đó, về phía người dùng, cần nâng cao cảnh giác khi sử dụng các công cụ AI.

Các chuyên gia khuyến nghị người dùng tránh dán các thông tin đặc biệt nhạy cảm (như mật khẩu, dữ liệu tài chính, bí mật kinh doanh) vào các chatbot. Đồng thời, người dùng cần hết sức thận trọng khi yêu cầu AI tương tác với các nguồn dữ liệu bên ngoài như tóm tắt liên kết lạ, phân tích email hoặc tài liệu không rõ nguồn gốc.

Để lại bình luận