Ứng dụng công nghệ trí tuệ nhân tạo trong bài toán phân loại văn bản

Trong nhiều lĩnh vực, phân loại văn bản là một trong những bài toán được ứng dụng rộng rãi của xử lý ngôn ngữ tự nhiên, với mục đích là tự động phân loại các tài liệu vào một hoặc nhiều thể loại được xác định. Nội dung dưới đây trình bày về một mô hình mạng nơron học sâu được đề xuất để phân loại các văn bản theo các chủ đề đã được xác định. Mô hình này được huấn luyện sử dụng bộ dữ liệu tự xây dựng ứng dụng cho lĩnh vực quân sự. Tập dữ liệu gồm 04 chủ đề, trong đó, mỗi chủ đề gồm 100 văn bản cho việc huấn luyện và 100 văn bản để kiểm tra. Các kết quả thực nghiệm đều cho thấy mô hình hoạt động đạt độ chính xác tới 91.86%.