THÔNG TIN TÓM TẮT VỀ NHỮNG KẾT LUẬN MỚI CỦA LUẬN ÁN TIẾN SĨ
Tên luận án: Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu
Ngành: Hệ thống thông tin
Mã số: 9480104
Nghiên cứu sinh: Lưu Minh Tuấn
Người hướng dẫn khoa học: PGS.TS. Lê Thanh Hương
Cơ sở đào tạo: Trường Đại học Bách khoa Hà Nội
TÓM TẮT KẾT LUẬN MỚI CỦA LUẬN ÁN
1. Đề xuất ba mô hình tóm tắt đơn văn bản hướng trích rút, đó là các mô hình và MBERT-RoPhoBERT_MLP_ESDS, mBERT_CNN_ESDS Tiny_seq2seq_DeepQL_ESDS. Cả ba mô hình này đều dựa trên các mô hình mã hóa văn bản được huấn luyện trước để mã hóa văn bản, mô hình phân loại câu được xây dựng sửdụng các kỹ thuật học sâu khác nhau. Phương pháp MMR đề xuất được sử dụng để loại bỏ thông tin trùng lặp và lựa chọn câu đưa vào bản tóm tắt. Các đặc trưng của văn bản được đề xuất cho các mô hình để nâng cao hiệu quả tóm tắt của các mô hình đề xuất.
2. Đề xuất một mô hình tóm tắt đơn văn bản hướng tóm lược PG_Feature_ASDS dựa trên mô hình mã hóa văn bản được huấn luyện trước, các kỹ thuật học sâu, cơ chế loại bỏ thông tin trùng lặp và kết hợp các đặc trưng của văn bản cho mô hình để sinh bản tóm tắt.
3. Đề xuất một mô hình tóm tắt đa văn bản hướng trích rút Kmeans_Centroid_EMDS dựa trên mô hình mã hóa văn bản được huấn luyện trước, các kỹ thuật học máy, phương pháp MMR để loại bỏ thông tin trùng lặp và kết hợp đặc trưng vị trí câu cho mô hình để tạo ra bản tóm tắt.
4. Đề xuất hai mô hình tóm tắt đa văn bản hướng tóm lược, đó là PG_Feature_AMDS và Ext_Abs_AMDS-mds-mmr dựa trên các mô hình tóm tắt đơn văn bản hướng tóm lược, mô hình tóm tắt hỗn hợp được huấn luyện trước. Các mô hình này được tinh chỉnh để khắc phục vấn đề thiếu dữ liệu thử nghiệm của bài toán tóm tắt đa văn bản.
Tất cả các mô hình đề xuất đều được áp dụng hiệu quả cho tóm tắt văn bản tiếng Anh và tiếng Việt.