Luận án Nghiên cứu phương pháp chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói tiếng Việt Lưu

Luận án Nghiên cứu phương pháp chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói tiếng Việt

Danh mục: , Người đăng: Ly Võ Thị Nhà xuất bản: , Tác giả: Ngôn ngữ: Tiếng Việt, Tiếng Anh Định dạng: , , Lượt xem: 3 lượt Lượt tải: 0 lượt
Tài liệu, tư liệu này được chúng tôi sưu tầm từ nhiều nguồn và được chia sẻ với mục đích tham khảo, các bạn đọc nghiên cứu và muốn trích lục lại nội dung xin hãy liên hệ Tác giả, bản quyền và nội dung tài liệu thuộc về Tác Giả & Cơ sở Giáo dục, Xin cảm ơn !

Nội dung

NHỮNG ĐÓNG GÓP MỚI CỦA LUẬN ÁN

Tên luận án: Nghiên cứu phương pháp chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói tiếng Việt

Chuyên ngành: Hệ thống thông tin                Mã số: 9 48 01 04

Họ và tên nghiên cứu sinh: Nguyễn Thị Thu Hiền

Chức danh, học vị, họ và tên người hướng dẫn 1: PGS.TS. Lương Chi Mai

Chức danh, học vị, họ và tên người hướng dẫn 2: TS. Nguyễn Thị Minh Huyền

Cơ sở đào tạo: Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam

Nội dung: luận án có những đóng góp mới như sau:

1 – Xây dựng các bộ dữ liệu ban đầu phục vụ cho thực nghiệm các mô hình chuẩn hoá và nhận dạng thực thể định danh cho văn bản đầu ra của hệ thống ASR tiếng Việt.

2 – Thiết kế mô hình Transformer Encoder – CRF cho bài toán khôi phục viết hoa và dấu câu cho văn bản đầu ra của ASR tiếng Việt. Đề xuất cách phân chia, hợp nhất các đoạn chồng lấn, giúp các từ xung quanh đoạn cắt có nhiều ngữ cảnh để nhận dạng chính xác.

3 – Đề xuất mô hình biểu diễn ngôn ngữ tiền huấn luyện cho văn bản tiếng Việt với tên gọi ViBERT dựa theo kiến trúc RoBERTa, giúp tăng hiệu quả áp dụng các thuật toán học sâu trong XLNNTN tiếng Việt.

4 – Xây dựng mô hình đường ống cho bài toán NER tiếng nói tiếng Việt. Nghiên cứu cho thấy tác động hiệu quả của mô hình ViBERT khi áp dụng cho nhiệm vụ NER trên văn bản đầu ra của ASR tiếng Việt. Đồng thời nghiên cứu cũng chứng tỏ được việc kết hợp mô hình CaPu vào chuẩn hóa văn bản đầu vào cho mô hình NER giúp cải thiện đáng kể hiệu suất của mô hình.

5 – Thiết kế mô hình E2E giải quyết bài toán NER cho tiếng nói tiếng Việt kết hợp các kỹ thuật chia sẻ tham số, kỹ thuật huấn luyện đa tác vụ. Bên cạnh việc cho thấy đạt hiệu suất tương đương mô hình đường ống, mô hình E2E còn có ưu thế trong triển khai trong thực tiễn.

Tải tài liệu

1.

Luận án Nghiên cứu phương pháp chuẩn hoá văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói tiếng Việt

.zip
4.61 MB

Có thể bạn quan tâm