ĐÓNG GÓP MỚI CỦA LUẬN ÁN TIẾN SĨ KỸ THUẬT
Tên đề tài: Khai phá quan điểm với kỹ thuật học sâu
Nghiên cứu sinh: Trần Uyên Trang
Khoá: 35 (2017-2021)
Chuyên ngành: Khoa học máy tính
Mã số: 9.48.01.01
Người hướng dẫn khoa học: TS. Hoàng Thị Thanh Hà; TS. Đặng Hoài Phương
Cơ sở đào tạo: Trường Đại học Bách khoa, Đại học Đà Nẵng
Luận án có 04 đóng góp mới sau đây:
– Một là, xây dựng hệ thống trích rút khía cạnh của thực thể trong khai phá quan điểm với giải pháp cải tiến hiệu suất thực thi dựa trên hướng tiếp cận học sâu mới.
– Hai là, xây dựng hệ thống khai phá quan điểm dựa trên mức khía cạnh đa tác vụ mới với kỹ thuật học sâu nhằm dự đoán quan điểm người dùng. Hệ thống đã thực hiện đồng thời các tác vụ: trích rút từ mục tiêu, trích rút khía cạnh, phân loại thực thể và xác định quan điểm thể hiện trên khía cạnh của thực thể trong các bình luận trên một miền xác định với hiệu suất tương đối cao trên hầu hết các tác vụ đã thực thi.
– Ba là, xây dựng một tập dữ liệu bình luận đa miền dùng cho thực nghiệm. Tập dữ liệu này được hình thành từ việc thực hiện trộn ngẫu nhiên các bình luận từ các miền khác nhau thành một tập dữ liệu hỗn hợp đa miền và sử dụng cho thực nghiệm mô hình đề xuất của luận án. Triển khai hệ thống khai phá quan điểm trên tập dữ liệu đa miền này.
– Bốn là, xây dựng hệ thống khai phả quan điểm mức khía cạnh đa tác vụ đa miền mới phân loại quan điểm người dùng trên tập dữ liệu đa miền. Hệ thống đã thực hiện đồng thời các tác vụ: trích rút khía cạnh, phân loại thực thể, xác định miền và xác định quan điểm thể hiện trên khía cạnh của thực thể trong các bình luận trên miền xác định trong tập dữ liệu đơn miền và đa miền với hiệu suất tương đối cao trên hầu hết các tác vụ đã thực thi trên cả đơn miền và đa miền.
Cụ thể các mô hình khai phá quan điểm sử dụng cơ chế tích hợp các mạng học sâu và tập dữ liệu mới đã xây dựng trong luận án gồm:
+ Mô hình khai phá quan điểm BiGRU-CRF và BilndyLSTM-CRF thực hiện trích rút khía cạnh trong câu bình luận.
+ Mô hình khai phá quan điểm mức khía cạnh đa tác vụ CNN-BIGRU, CNN-IOB2 và MABSA thực hiện trích rút và phân loại đa tác vụ (trích rút từ mục tiêu, khía cạnh, phân loại thực thể và xác định quan điểm trên mỗi khía cạnh của thực thể).
+ Mô hình khai phả quan điểm mức khía cạnh đa tác vụ đa miền CNN-BILSTM và CNN-BilndyLSTM-Attention thực hiện trích rút và phân loại đa tác vụ trên tập dữ liệu đơn miền và đa miền.
+ Tập dữ liệu đa miền Laptop_Restaurant và Laptop_Restaurant_Hotel gồm các bình luận thuộc các miền khác nhau được trộn lẫn ngẫu nhiên dùng cho thực nghiệm các mô hình đề xuất.
Các mô hình này khi được thực nghiệm trên các tập dữ liệu đơn miền và đa miền đều đạt hiệu suất cao so với các mô hình trước đây chỉ thực nghiệm trên các tập dữ liệu đơn miền.