Ram Shankar Siva Kumar, trưởng nhóm Red Team AI tại Microsoft cho biết: “Công cụ này được thiết kế để cho phép mọi tổ chức trên toàn cầu có trách nhiệm hơn khi đổi mới trí tuệ nhân tạo.”
Công ty cho biết PyRIT có thể được sử dụng để đánh giá tính mạnh mẽ của các điểm cuối trong mô hình ngôn ngữ lớn (LLM) nhằm chống lại các nội dung bịa đặt, sử dụng sai mục đích, nội dung cấm… Công cụ này cũng có thể được sử dụng để xác định các tác hại về bảo mật từ việc tạo phần mềm độc hại đến bẻ khóa, cũng như các tác động đến quyền riêng tư như đánh cắp danh tính.
PyRIT gồm 5 phần: mục tiêu, bộ dữ liệu, bộ đánh giá, khả năng hỗ trợ nhiều chiến lược tấn công và tích hợp một thành phần bộ nhớ, có thể ở dạng JSON hoặc cơ sở dữ liệu để lưu trữ các tương tác giữa đầu vào, đầu ra trung gian. Bộ đánh giá cũng cung cấp hai tùy chọn khác nhau để đánh giá các đầu ra từ hệ thống AI mục tiêu, cho phép Red Team sử dụng một bộ phân loại học máy cổ điển hoặc tận dụng một điểm cuối LLM để tự đánh giá.
Microsoft cho biết: “Mục tiêu là cho phép các nhà nghiên cứu có cơ sở về mức độ hoạt động của mô hình, toàn bộ quy trình của họ đối với các tác hại khác nhau và có thể so sánh dựa trên phiên bản hiện tại với với các phiên bản tương lai của mô hình”. Điều này cho phép Microsoft có nguồn dữ liệu qua các đánh giá về hiệu suất của mô hình và phát hiện bất kỳ sự suy giảm hiệu suất dựa trên các cải tiến trong tương lai.
PyRIT không phải là phương pháp thay thế cho việc kiểm tra Red Teaming thủ công mà là công cụ bổ trợ cho kỹ năng chuyên môn hiện có của đội ngũ Red Teaming. Theo đó, công cụ này giúp xác định các "điểm nóng" rủi ro bằng cách tạo ra các dấu nhắc có thể được sử dụng để đánh giá hệ thống AI và chỉ ra các lĩnh vực cần được điều tra thêm.
Microsoft đã phát triển PyRIT như một công cụ hỗ trợ quan trọng cho các đội ngũ Red Teaming trong việc đánh giá và phát hiện rủi ro trong hệ thống AI tạo sinh. Công cụ này không nhằm thay thế hoàn toàn cho các phương pháp kiểm tra thủ công mà là để tăng cường khả năng phát hiện các điểm rủi ro tiềm ẩn, giúp các chuyên gia có thể tập trung vào việc điều tra sâu hơn vào những vấn đề cụ thể. PyRIT đóng vai trò như một bước tiến quan trọng trong việc bảo mật AI, đặc biệt là trong bối cảnh ngày càng có nhiều hệ thống AI tạo sinh được triển khai rộng rãi.
Sự phát triển này xảy ra khi Protect AI tiết lộ nhiều lỗ hổng nghiêm trọng trong các nền tảng chuỗi cung ứng AI phổ biến như ClearML, Hugging Face, MLflow và Triton Inference Server có thể dẫn đến việc thực thi mã tùy ý và tiết lộ thông tin nhạy cảm.
Quốc Trung
(Theo The Hacker news)
09:00 | 06/12/2023
14:00 | 09/05/2024
09:00 | 08/11/2024
16:44 | 12/10/2016
15:00 | 15/05/2024
14:00 | 23/02/2024
10:00 | 05/06/2024
10:00 | 20/05/2024
15:00 | 26/01/2025
Cùng với sự phát triển của công nghệ, các hình thức phá hoại cũng đang trở nên tinh vi và phức tạp hơn, trong đó mã độc trở thành một trong những mối đe dọa hàng đầu. Để đối phó với tình trạng này, hiện nay phần mềm diệt mã độc (PMDMĐ) đang trở thành giải pháp tối ưu nhất cho người dùng cá nhân. Tuy nhiên, một vấn đề đáng lo ngại đang nổi lên khi chính những phần mềm này lại trở thành mục tiêu mà tin tặc có thể lợi dụng để lây nhiễm mã độc vào máy tính của người dùng. Bài báo sẽ phân tích tổng quan các chiến thuật mà tin tặc sử dụng để xâm nhập vào hệ thống thông qua PMDMĐ, đồng thời, tác giả cũng đề xuất các biện pháp nhằm giảm thiểu rủi ro từ mối nguy hại này.
16:00 | 22/01/2025
Ngày 21/01, Đại học Y Dược Tp. Hồ Chí Minh và Hiệp hội Blockchain Việt Nam (VBA) chính thức ký Biên bản Ghi nhớ hợp tác về việc ứng dụng, triển khai công nghệ Blockchain và trí tuệ nhân tạo (AI) trong đào tạo, nghiên cứu khoa học, nhằm nâng cao chất lượng hoạt động giáo dục đào tạo.
15:00 | 10/01/2025
Các nhà nghiên cứu đã công bố một lỗ hổng trong Linux Kernel định danh CVE-2023-4147. Đây là lỗ hổng nghiêm trọng với điểm CVSS 7.8, cho phép kẻ tấn công thực hiện leo thang đặc quyền hoặc gây mất an toàn hệ thống.
15:00 | 13/12/2024
Ngày 9/12, Google ra mắt một con chip máy tính lượng tử mới, được mô tả chỉ mất vài phút để hoàn thành các tác vụ mà một số máy tính nhanh nhất thế giới phải mất 10 triệu tỷ tỷ năm mới có thể hoàn thành. Đây là bước đột phá có thể đưa điện toán lượng tử thực tiễn đến gần hơn với hiện thực.
Ngày 07/3/2025, Google đã công bố sẽ trao 11,8 triệu USD tiền thưởng cho 660 nhà nghiên cứu đã báo cáo lỗ hổng bảo mật thông qua các chương trình Bug Bounty của công ty vào năm 2024.
14:00 | 19/03/2025