ĐÓNG GÓP MỚI CỦA LUẬN ÁN
Tên đề tài: Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt
Chuyên ngành: Khoa học máy tính
Mã số: 62 48 01 01
Họ và tên NCS: Võ Duy Thanh
Khóa: 22
Người hướng dẫn khoa học:
PGS. TS Võ Trung Hùng
PGS. TS Đoàn Văn Ban
Cơ sở đào tạo: Đại học Đà Nẵng
NHỮNG ĐÓNG GÓP MỚI CỦA LUẬN ÁN
1. Những kết quả chính của luận án
Trước năm 2005, đã có một số công trình nghiên cứu và đã đề xuất một số thuật toán phục vụ học bán giám sát và áp dụng giới hạn trong một số lĩnh vực. Nhưng các nghiên cứu này chưa đầy đủ và chưa tổng quát cho học bán giám sát. Trong những năm gần đây, kỹ thuật học bán giám sát đã thu hút sự nghiên cứu của nhiều nhà khoa học trong và ngoài nước. Các nghiên cứu này tập trung chủ yếu trên: học bán giám sát dựa trên máy hỗ trợ véc tơ hoặc học bán giám sát dựa trên cây Bayes; phân loại bán giám sát với quá trình xử lý hồi quy Gauss. Đây là những phương pháp có hiệu quả và được áp dụng trong thực tế.
Việc nghiên cứu ứng dụng kỹ thuật học bán giám sát vào các bài toán trong xử lý ngôn ngữ tự nhiên như phân loại văn bản, dịch thông kê, hỏi đáp tự động,… là phù hợp. Tuy nhiên, hiện tại các nghiên cứu trong nước chủ yếu sử dụng kỹ thuật n-grams trong việc giải quyết các bài toán này mà chưa ứng dụng nhiều kỹ thuật học bán giám sát. Ở Việt Nam, kỹ thuật học bán giám sát mới bước đầu được nghiên cứu trong lĩnh vực tin sinh học (phân loại gien, protein) và chưa được phổ biến rộng rãi.
Luận án này đã đề xuất được mô hình phục vụ phân loại văn bản tiếng Việt dựa trên học máy bán giám sát, đề xuất được các giải pháp mới để thực hiện phân loại và rút gọn số chiều véc-tơ khi phân loại. Những đề xuất này có ý nghĩa quan trọng không chỉ trong lĩnh vực phân loại văn bản mà có thể mở rộng sang một số lĩnh vực khác trong xử lý ngôn ngữ tự nhiên.