NHỮNG ĐÓNG GÓP MỚI CỦA LUẬN ÁN
Tên luận án: Nghiên cứu phương pháp chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói tiếng Việt
Chuyên ngành: Hệ thống thông tin Mã số: 9 48 01 04
Họ và tên nghiên cứu sinh: Nguyễn Thị Thu Hiền
Chức danh, học vị, họ và tên người hướng dẫn 1: PGS.TS. Lương Chi Mai
Chức danh, học vị, họ và tên người hướng dẫn 2: TS. Nguyễn Thị Minh Huyền
Cơ sở đào tạo: Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam
Nội dung: luận án có những đóng góp mới như sau:
1 – Xây dựng các bộ dữ liệu ban đầu phục vụ cho thực nghiệm các mô hình chuẩn hoá và nhận dạng thực thể định danh cho văn bản đầu ra của hệ thống ASR tiếng Việt.
2 – Thiết kế mô hình Transformer Encoder – CRF cho bài toán khôi phục viết hoa và dấu câu cho văn bản đầu ra của ASR tiếng Việt. Đề xuất cách phân chia, hợp nhất các đoạn chồng lấn, giúp các từ xung quanh đoạn cắt có nhiều ngữ cảnh để nhận dạng chính xác.
3 – Đề xuất mô hình biểu diễn ngôn ngữ tiền huấn luyện cho văn bản tiếng Việt với tên gọi ViBERT dựa theo kiến trúc RoBERTa, giúp tăng hiệu quả áp dụng các thuật toán học sâu trong XLNNTN tiếng Việt.
4 – Xây dựng mô hình đường ống cho bài toán NER tiếng nói tiếng Việt. Nghiên cứu cho thấy tác động hiệu quả của mô hình ViBERT khi áp dụng cho nhiệm vụ NER trên văn bản đầu ra của ASR tiếng Việt. Đồng thời nghiên cứu cũng chứng tỏ được việc kết hợp mô hình CaPu vào chuẩn hóa văn bản đầu vào cho mô hình NER giúp cải thiện đáng kể hiệu suất của mô hình.
5 – Thiết kế mô hình E2E giải quyết bài toán NER cho tiếng nói tiếng Việt kết hợp các kỹ thuật chia sẻ tham số, kỹ thuật huấn luyện đa tác vụ. Bên cạnh việc cho thấy đạt hiệu suất tương đương mô hình đường ống, mô hình E2E còn có ưu thế trong triển khai trong thực tiễn.