Thuật toán DT với những ưu điểm của mình được đánh giá là một công cụ mạnh, phổ biến và đặc biệt thích hợp cho khai phá dữ liệu (data mining) nói chung và kiểu tấn công dữ liệu nói riêng. Ưu điểm của DT có thể kể đến như xây dựng tương đối nhanh, đơn giản và dễ hiểu.
Thuật toán Cây phân loại và hồi quy (Classification and Regression Tree - CART) là một loại thuật toán của DT, nó hỗ trợ các biến mục tiêu số (hồi quy) và không tính toán các bộ quy tắc. CART thường sử dụng phương pháp Gini để tạo các điểm phân chia. Tương tự như phương pháp tính độ lợi thông tin, Gini index được dùng để đánh giá việc phân chia nút có tốt hay không. Phương pháp Gini được hiểu cụ thể như sau:
- Là phương pháp hướng đến đo lường tần suất một đối tượng dữ liệu ngẫu nhiên trong tập dữ liệu ban đầu được phân loại không chính xác, trên cơ sở đối tượng dữ liệu đã nằm trong một tập con được phân ra từ tập dữ liệu ban đầu, có dán nhãn thể hiện thuộc tính chung bất kỳ của các đối tượng còn lại trong tập con này, giá trị phân loại chính là nhãn của tập con.
- Gini index chính là chỉ số đo lường mức độ đồng nhất, nhiễu loạn của thông tin hay sự khác biệt về các giá trị mà mỗi điểm dữ liệu trong một tập con, hoặc một nhánh của DT. Công thức của Gini index có thể dùng cho cả dữ liệu rời rạc và liên tục. Nếu điểm dữ liệu thuộc về một nút và có chung thuộc tính bất kỳ thì nút này thể hiện sự đồng nhất lúc này Gini=0 và ngược lại Gini sẽ lớn.
Quý độc giả quan tâm vui lòng xem chi tiết bài viết tại đây.
TS. Nguyễn Văn Căn, Trần Ngọc Tú, Đỗ Đình Quang (Đại học Kỹ thuật - Hậu cần Công an nhân dân)
16:00 | 30/11/2022
09:00 | 24/08/2018
10:00 | 04/03/2015
10:00 | 14/04/2023
Sau 5 năm ban hành và triển khai, Nghị định số 53/2018/NĐ-CP ngày 16/4/2018 của Chính phủ sửa đổi, bổ sung Nghị định số 58/2016/NĐ-CP ngày 01/7/2016 của Chính phủ quy định chi tiết về kinh doanh sản phẩm, dịch vụ mật mã dân sự và xuất khẩu, nhập khẩu sản phẩm mật mã dân sự đã cho thấy nhiều bất cập cần sửa đổi, bổ sung.
15:00 | 14/12/2022
Kiểm thử xâm nhập còn được gọi là ethical hacking, là hành động xâm nhập hệ thống thông tin một cách hợp pháp. Kiểm thử xâm nhập giúp phát hiện ra các lỗ hổng và điểm yếu trong hệ thống phòng thủ bảo mật của tổ chức trước khi để kẻ xấu phát hiện ra. Đây là hành động hỗ trợ đắc lực cho tổ chức trong việc đưa ra các giải pháp để khắc phục các lỗ hổng bảo mật đã được phát hiện trước đó.
23:00 | 02/09/2022
Trong các ứng dụng mật mã, việc đánh giá chất lượng của bộ sinh số ngẫu nhiên và giả ngẫu nhiên đóng vai trò cực kỳ quan trọng, và việc đánh giá tính ngẫu nhiên theo thống kê là một yêu cầu cơ bản nhất trong quá trình đánh giá đó. NIST SP 800-22 đã được đưa ra và trở thành một công cụ hữu ích, phổ biến nhất cho việc đánh giá tính ngẫu nhiên theo thống kê đối với các bộ sinh trên. Tuy nhiên, cho đến nay dù được sử dụng khá rộng rãi nhưng vẫn còn những điểm bất cập trong bộ kiểm tra này, khi một số kiểm tra thống kê còn chưa chính xác. Trong nội dung của bài báo, chúng tôi sẽ đưa ra một góc nhìn chung về bộ kiểm tra tính ngẫu nhiên theo thống kê NIST SP 800-22 cho các bộ tạo số ngẫu nhiên và giả ngẫu nhiên, đồng thời trình bày các vấn đề còn tồn tại và đưa ra một vài lưu ý đối với việc sử dụng công cụ này.
09:00 | 08/07/2022
Công nghệ thông tin ngày càng phát triển và góp phần làm thay đổi diện mạo nền kinh tế, tạo ra lĩnh vực thương mại mới là thương mại điện tử. Nhờ sức mạnh của thông tin số hóa mà mọi hoạt động thương mại truyền thống ngày nay đã được tiến hành trực tuyến, giúp các bên tham gia tiết kiệm được chi phí, thời gian, tăng hiệu suất và nâng cao năng lực cạnh tranh. Tuy nhiên, thương mại điện tử cũng phải đối mặt với thách thức lớn về an toàn, bảo mật thông tin khi các hoạt động gian lận, đánh cắp dữ liệu cá nhân, lừa đảo, tấn công các dịch vụ web ngày một tinh vi. Bài báo dưới đây sẽ nêu lên vai trò của an toàn thông tin và giải pháp cho phát triển bền vững thương mại điện tử.