ĐÓNG GÓP CHÍNH CỦA LUẬN ÁN TIẾN SĨ KỸ THUẬT
Đề tài: “Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt”
Nghiên cứu sinh: Nguyễn Văn Bình, Khóa K30
Ngành: Khoa học máy tính
Mã số: 9.48.01.01
Luận án có 05 đóng góp chính sau đây liên quan đến giải pháp cải tiến chất lượng dịch tự động tiếng Việt:
(1) Triển khai chiến dịch đánh giá chất lượng của các hệ thống dịch tự động tiếng Việt đang hoạt động một cách đầy đủ và chi tiết, từ đó công bố các số liệu khoa học minh chứng chất lượng dịch tự động tiếng Việt. Các bước thực hiện gồm: xây dựng bộ dữ liệu đánh giá đầy đủ, tin cậy; lập trình ứng dụng hỗ trợ đánh giá; tổ chức đánh giá theo cả phương pháp chủ quan (đánh giá tự động thông qua các chỉ số BLEU, NIST) và khách quan (do con người thực hiện); thu nhận số liệu và phân tích, đánh giá. Từ quá trình triển khai đánh giá này, luận án cũng đề xuất giải pháp đánh giá chất lượng hệ thống dịch thông qua quá trình hậu xử lý nhằm giúp tiết kiệm thời gian và nguồn lực tổ chức đánh giá.
(2) Đề xuất được giải pháp cải tiến chất lượng dịch tiếng Việt thông qua cải tiến kho ngữ liệu. Luận án đã nghiên cứu và minh chứng được một trong những tác nhân quan quan trọng ảnh hưởng đến chất lượng dịch tự động của các hệ thống dịch đó là kho ngữ liệu. Do đó, luận án đã tập trung đề xuất và triển khai các giải pháp khác nhau để cải tiến kho ngữ liệu bao gồm cả khía cạnh chất lượng và khối lượng. Các giải pháp cụ thể đó là mở rộng và hợp nhất kho ngữ liệu; giải pháp xây dựng kho ngữ liệu lớn; giải pháp xác định danh từ riêng bằng cách kết hợp thuật toán Maximum Matching và phân tích mối quan hệ giữa các thành tố văn bản; giải pháp xác định giới hạn từ ghép tiếng Việt từ mô hình phân phối từ và cụm từ trong văn bản. Giải pháp cải tiến chất lượng dịch tiếng Việt bằng cách cải tiến kho ngữ liệu đã được triển khai cài đặt, thử nghiệm và đánh giá đã cho kết quả chất lượng dịch được cải tiến rõ nét.