TRANG THÔNG TIN VỀ LUẬN ÁN
Tên luận án: Mô hình xử lý hiệu quả dữ liệu biểu hiện gen
Chuyên ngành: Hệ thông thông tin Mã ngành: 62 48 01 04
Họ tên nghiên cứu sinh: Huỳnh Phước Hải
Người hướng dẫn khoa học: PGS. TS. Đỗ Thanh Nghị, TS. Nguyễn Văn Hòa
Cơ sở đào tạo: Trường Đại học Cần Thơ
1. Tóm tắt nội dung luận án
Trong những năm gần đây, ung thư là nguyên nhân tử vong hàng đầu trên toàn thế giới. Phân loại dữ liệu biểu hiện gen là chìa khóa quan trọng để giải quyết các vấn đề cơ bản trong nghiên cứu ung thư. Tuy nhiên, vấn đề “large p, small n” của mô hình phân loại biểu hiện gen là một thách thức lớn trong phân tích biểu hiện gen, trong đó biểu hiện của hàng chục nghìn gen được quan sát trên số lượng ít bệnh nhân. Thách thức chính của vấn đề này là kích thước mẫu dữ liệu huấn luyện nhỏ so với kích thước véc-tơ đặc trưng rất lớn, do đó các mô hình phân lớp có độ chính xác thấp do bị “over-fitting”. Trong luận án này, chúng tôi tập trung giải quyết vấn đề này bằng những đóng góp sau đây.
Thứ nhất, mạng nơ-ron tích chập sâu (DCNN) mới được đề xuất để trích xuất các đặc trưng từ dữ liệu biểu hiện gen. Bên cạnh đó, chúng tôi còn đề xuất thuật toán SMOTE để tăng cường dữ liệu của các tính năng mới được trích xuất bởi mô hình DCNN.
Thứ hai, chúng tôi đề xuất mô hình tăng cường dữ liệu biểu hiện gen bằng mạng đối kháng sinh mẫu (GAN). GAN được triển khai để tạo dữ liệu tổng hợp từ dữ liệu gốc và được phân loại bằng các bộ phân lớp.
Cuối cùng, chúng tôi để xuất mô hình kết hợp các xiên phân ngẫu nhiên đơn giản (RODS) dựa trên máy học véc-tơ hỗ trợ phân loại dữ liệu biểu hiện gen có số chiều rất lớn. Các giải thuật phân loại của chúng tôi (được gọi là Bag-RODS và Boost-RODS) huấn luyện nhiều cây xiên phân ngẫu nhiên đơn giản để tạo thành mô hình phân loại chính xác hơn so với các mô hình đơn.
Thực nghiệm được xây dựng trên các bộ dữ liệu biêu hiện gen DNA Microarray và RNA-Sequencing của các kho dữ liệu Kent Ridge, ArrayExpress và TCGA. Kết quả thực nghiệm chứng minh các mô hình đề xuất phân loại chính xác hơn các mô hình phân lớp hiện đại đồng thời cải thiện độ chính xác phân loại của các bộ phân lớp.
2. Những kết quả mới của luận án:
Thứ nhất, mô hình rút trích đặc trưng mới sử dụng mạng nơ-ron tích chập sâu được đề xuất để học các đặc trưng tiềm ẩn từ dữ liệu biểu hiện gen. Mô hình này cải thiện độ chính xác phân lớp trên dữ liệu biêu hiện gen của cả hai công nghệ DNA Microarray và RNA-Seq. Kêt quả thực nghiệm chứng minh DCNN có hiệu quả tốt khi rút trích đặc trưng từ dữ liệu biểu hiện gen. Bên cạnh đó, chúng tôi còn đề xuất mô hình mới kết hợp các phương pháp tăng cường và rút trích đặc trưng để giải quyết cả hai thách thức của dữ liệu biểu hiện gen. Trong phương pháp này, giải thuật SMOTE được đề xuất để sinh mới dữ liệu từ các đặc trưng được rút trích bằng DCNN. Các mô hình này được kết nối với các bộ phân lớp để phân loại hiệu quả dữ liệu biểu hiện gen.
Thứ hai, luận án đề xuất mô hình tăng cường dữ liệu biểu hiện gen bằng mạng đối kháng sinh mẫu GAN để giải quyết vấn đề số mẫu ít. Mô hình để xuất được xây dựng đề sinh mới dữ liệu tổng hợp từ dữ liệu gốc để tăng cường dữ liệu huấn luyện cho các bộ phân lớp. Kết quả thực nghiệm chứng minh mô hình đề xuất cải thiện được độ chính xác của các giải thuật phân lớp gồm máy học véc-tơ hỗ trợ, k láng giềng và rừng ngẫu nhiên.
Thứ ba, luận án đề xuất mô hình tập hợp các cây xiên phân ngẫu nhiên đơn giản phân lớp hiệu quả dữ liệu biểu hiện gen bằng kết hợp các cây xiên phân ngẫu nhiên đơn giản dựa trên siêu phẳng tối ưu thu được từ huấn luyện SVM để cho tăng cường độ chính xác cao hơn so với chỉ sửdụng mô hình đơn. Luận án đã xây dựng 2 mô hình Bag-RODS và Boost-RODS phân lớp hiệu quả dữ liệu biêu hiện gen. Ngoài ra, các giải thuật này cũng cải thiện được độ chính xác phân loại khi kết hợp với các mô hình tăng cường dữ liệu bằng GAN và rút trích đặc trưng bằng DCNN.
3. Các ứng dụng trong thực tiễn, các vấn đề cần tiếp tục nghiên cứu:
Luận án đã đề xuất ba cách tiếp cận mới cho bài toán phân lớp dữ liệu biểu hiện gen. Các đóng góp này dùng để giải quyết vấn đề “large p, small n” của các mô hình phân lớp dữ liệu biểu hiện gen và ứng dụng để xây dựng các hệ thống chẩn đoán bệnh ung thư. Ngoài ra, luận án còn là tài liệu tham khảo hữu ích cho sinh viên các chuyên ngành Hệ thống thông tin và Khoa học máy tính ở bậc đại học và sau đại học.
Mặc dù các cách tiếp cận của mang lại nhiều kết quả tốt, tuy nhiên các mô hình vẫn cần nghiên cứu thêm để tăng cường hiệu quả phân lớp. Trong phân lớp biểu hiện gen vẫn còn một số thách thức như dữ liệu mất cân bằng, các phương pháp giải thích kết quả học sâu, lựa chọn kiến trúc phù hợp và điều chỉnh các bộ tham số.. Trong tương lai, chúng tôi sẽ thực nghiệm thêm trên các bộ dữ liệu lớn và đánh giá các mô hình trên nhiêu tiêu chí khác.