MỞ ĐẦU
1. Tình hình nghiên cứu trong nước và ngoài nước
Trong thời gian gần đây, với sự phát triển nhanh chóng của các dịch vụ trực tuyến và công nghệ lưu trữ hiện đại, thông tin văn bản được lưu trữ trên mạng Internet trở nên vô cùng lớn. Hằng ngày, số lượng thông tin văn bản tăng lên không ngừng. Lượng thông tin văn bản khổng lồ đó đã và đang mang lại lợi ích không nhỏ cho con người. Tuy nhiên, nó gây ra sự quá tải thông tin khiến chúng ta gặp nhiều khó khăn trong việc tìm kiếm và tổng hợp thông tin. Để cải thiện tìm kiếm cũng như tăng hiệu quả cho việc xử lý thông tin, tóm tắt văn bản tự động là giải pháp không thể thiếu để giải quyết vấn đề này.
Trên thế giới, bài toán tóm tắt văn bản xuất hiện từ rất lâu. Những kỹ thuật đầu tiên áp dụng để tóm tắt văn bản đã được đề xuất từ những năm 50 của thế kỷ trước [47], [17]. Sau đó, chúng tiếp tục được nghiên cứu và đạt nhiều kết quả ngày càng tốt hơn cho nhiều loại ngôn ngữ như tiếng Anh, tiếng Pháp, tiếng Nhật, tiếng Trung… Các nghiên cứu tập trung vào hai hướng chính: tóm tắt trích rút ES (Extraction Summarization) và tóm tắt tóm lược AS (Abstraction Summarization) [37] cho bài toán tóm tắt đơn văn bản (bản tóm tắt được tạo thành từ một văn bản) và đa văn bản (văn bản tóm tắt được tạo thành từ nhiều văn bản cùng chủ đề). Hầu hết các nghiên cứu về tóm tắt văn bản là ES vì nó dễ thực hiện và có tốc độ nhanh hơn so với AS. Hướng tiếp cận ES chủ yếu là dựa vào các đặc trưng quan trọng của văn bản để tính trọng số câu để trích rút. Trong khi đó, AS là dựa vào các kỹ thuật xử lý ngôn ngữ tự nhiên kết hợp với thông tin về ngôn ngữ để tạo ra các tóm tắt cuối cùng.
Đối với tiếng Việt, do tính phức tạp và đặc thù riêng của nó, số lượng những nghiên cứu về tóm tắt văn bản tiếng Việt so với tiếng Anh vẫn còn ít. Phần lớn các nghiên cứu mới chỉ là các nghiên cứu ở mức đề tài tốt nghiệp đại học, luận văn thạc sĩ, tiến sĩ và đề tài KHCN cấp bộ [5], [9],[13],[55],[57],[76].
Các bài báo công bố kết quả nghiên cứu về tóm tắt văn bản phần lớn dựa trên hướng trích rút cho bài toán tóm tắt đơn văn bản. Tuy nhiên vẫn có hai hướng là tóm tắt trích rút và tóm tắt theo tóm lược. Mặt khác, do chưa có kho ngữ liệu chuẩn phục vụ cho tóm tắt văn bản tiếng Việt nên hầu hết thử nghiệm của các nghiên cứu đều dựa trên các kho ngữ liệu tự xây dựng. Do vậy, việc đánh giá hiệu quả của từng phương pháp chưa được khách quan và cần phải xem xét một cách kỹ lưỡng.
2. Tính cấp thiết
Với sự bùng nổ thông tin lưu trữ trên các hệ thống máy tính và trên Internet, một lượng thông tin khổng lồ được lưu trữ trên đó. Để khai thác hiệu quả lượng thông tin khổng lồ này cần phải có các hệ thống xử lý ngôn ngữ tự nhiên đủ mạnh. Tóm tắt văn bản là một trong những bài toán quan trọng đó.
Bài toán tóm tắt văn bản tiếng Việt đóng một vai trò quan trọng trong việc khai thác hiệu quả thông tin trong kho ngữ liệu văn bản tiếng Việt lớn. Nó có ứng dụng rất lớn trong các hệ thống như: tìm kiếm thông minh, đa ngôn ngữ, tổng hợp thông tin… Đối với lĩnh vực an ninh quốc phòng, tóm tắt tin tức có thể giúp cho cán bộ nghiệp vụ thu thập đủ các thông tin cần thiết và kịp thời theo dõi, đánh giá, xử lý nguồn thông tin một cách nhanh chóng [CT1].
Do tính chất quan trọng như vậy, hiện nay bài toán tóm tắt văn bản tiếng Việt đã được các nhà nghiên cứu xử lý ngôn ngữ trong nước quan tâm. Tuy nhiên, số lượng cũng như chất lượng các nghiên cứu còn khá khiêm tốn Nguyên nhân của những vấn đề này có thể xuất phát từ những lý do sau:
Nghiên cứu xử lý ngôn ngữ tự nhiên tiếng Việt đang tập trung vào những vấn đề cơ bản của tiếng Việt như:
Giải quyết bài toán tách từ, gán nhãn từ loại, cây cú pháp.
Xây dựng kho ngữ liệu: tách từ, gán nhãn từ loại
Xây dựng wordnet tiếng Việt…