THÔNG TIN TÓM TẮT VỀ NHỮNG KẾT LUẬN MỚI CỦA LUẬN ÁN TIẾN SĨ
Tên luận án:Nghiên cứu phát triển một số kỹ thuật tách từ tiếng Việt.
Chuyên ngành:Cơ sở toán học cho tin học
Mã số:62. 46. 01. 10
Nghiên cứu sinh:Trần Ngọc Anh
Người hướng dẫn:
1. PGS. TS. Đào Thanh Tĩnh – Học viện KTQS.
2. PGS.TS. Nguyễn Phương Thái – ĐNCN/ĐHQGHN.
Cơ sở đào tạo:Học viện Kỹ thuật Quân sự.
NHỮNG KẾT LUẬN MỚI CỦA LUẬN ÁN
1) Đề xuất kỹ thuật nhận diện và khử nhập nhằng tên riêng, làm tăng đáng kể độ chính xác tách từ: nhận diện và khử nhập nhằng từ tiền tố với tên riêng; khử nhập nhằng tên riêng với từ hậu tố; và khử nhập nhằng tên riêng với tên riêng.
2) Đề xuất kỹ thuật nhận diện từ láy và từ ghép đẳng lập cho tách từ tiếng Việt dựa trên độ thông tin tương hỗ cùng với các quy tắc ngôn ngữ học nhận diện chúng. Trên cơ sở đó, mở rộng nhận diện các tổ hợp từ có 3-4 âm tiết.
3) Đề xuất kỹ thuật khử các loại nhập nhằng chồng lấp và nhập nhằng ghép tách theo ngữ cảnh thống kê trong điều kiện kho ngữ liệu huấn luyện có kích thước nhỏ, có nhiều xác suất 0. Thực hiện khảo sát các mẫu nhập nhằng khác nhau và đưa ra một số giải pháp và công thức linh hoạt biểu diễn theo ngữ cảnh để khử nhập nhằng hiệu quả.
Các kết quả của luận án được thực hiện trên cơ sở khảo sát thống kê và thử nghiệm tách từ với các kho ngữ liệu mẫu của VietTreeBank. Các thuật toán đề xuất cho tách từ trong luận án có độ phức tạp tính toán là O(n), với n là số lượng âm tiết trong dãy vào, và kết quả thử nghiệm tách từ đạt độ chính xác F1-score là 98,78%. Ngoài ra, luận án cũng đã đề xuất thử nghiệm giải pháp kiểm lỗi chính tả tiếng Việt, có thể ứng dụng trong thực tế.