Luận án Máy học trong phân tích dữ liệu y khoa Lưu VIP

Luận án Máy học trong phân tích dữ liệu y khoa

Danh mục: , Người đăng: Ly Võ Thị Nhà xuất bản: Tác giả: Ngôn ngữ: Tiếng Việt, Tiếng Anh Định dạng: , , Lượt xem: 16 lượt Lượt tải: 0 lượt
Tài liệu, tư liệu này được chúng tôi sưu tầm từ nhiều nguồn và được chia sẻ với mục đích tham khảo, các bạn đọc nghiên cứu và muốn trích lục lại nội dung xin hãy liên hệ Tác giả, bản quyền và nội dung tài liệu thuộc về Tác Giả & Cơ sở Giáo dục, Xin cảm ơn !

Nội dung

TRANG THÔNG TIN VỀ LUẬN ÁN

– Tên luận án: Máy học trong phân tích dữ liệu y khoa

– Ngành: Hệ thống thông tin                    Mã số: 9480104

– Họ tên nghiên cứu sinh: Võ Trí Thức                 Khóa: 2022

– Người hướng dẫn khoa học: PGS.TS. Đỗ Thanh Nghị

– Cơ sở đào tạo: Đại học Cần Thơ

1. Tóm tắt nội dung luận án

Máy học ngày càng đóng vai trò quan trọng trong y khoa, đặc biệt trong chẩn đoán bệnh phổi và tim mạch như dự đoán nhịp tim—hai nguyên nhân hàng đầu gây tử vong toàn cầu. Theo WHO, bệnh tim mạch chiếm 32% trên toàn cầu, trong khi viêm phổi, ung thư phổi, Covid-19 gây hàng triệu ca tử vong mỗi năm. Phát hiện sớm và chẩn đoán chính xác bệnh đóng vai trò then chốt trong điều trị và phục hồi. Tuy nhiên, giám sát nhịp tim thường yêu cầu thiết bị y tế chuyên dụng, gây trở ngại trong việc theo dõi liên tục. Chụp X-quang ngực là phương pháp sàng lọc bệnh phổi, nhưng chẩn đoán phụ thuộc vào bác sĩ, tiềm ẩn nguy cơ sai sót, ảnh hưởng đến hiệu quả điều trị. Do đó, việc nghiên cứu hỗ trợ chẩn đoán bệnh phổi và dự đoán nhịp tim là cần thiết. Mặc dù học sâu đã chứng minh tiềm năng trong phân lớp ảnh X-quang ngực, việc gán nhãn dữ liệu vẫn là thách thức lớn do yêu cầu bác sĩ chuyên môn và chi phí tốn kém. Luận án này đề xuất các giải pháp nhằm giải quyết những vấn đề trên thông qua các đóng góp cụ thể.

Thứ nhất, nghiên cứu đề xuất mô hình dự đoán nhịp tim với phương pháp học sâu, được phát triển dựa trên dữ liệu thu thập từ đồng hồ thông minh Mi Band 4. Bệnh lý tim mạch gây tử vong cao và tiến triển nhanh, do đó, theo dõi và dự đoán nhịp tim đóng vai trò quan trọng trong việc phát hiện sớm vấn đề về nhịp tim và giảm nguy cơ tử vong. Để giải quyết vấn đề này, dữ liệu được thu thập thông qua kết nối với vòng đeo tay Mi Band 4 nhằm cải thiện khả năng tiếp cận dữ liệu nhịp tim, tạo ra tập dữ liệu huấn luyện và kiểm thử với 359.594 mẫu. Mô hình dự đoán nhịp tim được phát triển từ sáu mô hình học sâu (LSTM, GRU, BiLSTM, BiGRU, CNN-LSTM và ConvLSTM).

Thứ hai, luận án giới thiệu phương pháp mới SSLnC để cải thiện hiệu quả phân lớp hình ảnh X-quang ngực (bình thường, Covid-19, phù phổi, khối u, và tràn khí màng phổi) bằng cách kết hợp học tự giám sát và thuật toán máy học. Một lượng lớn dữ liệu ảnh X-quang ngực không nhãn được sử dụng để học các đặc trưng, nhằm giải quyết vấn đề khan hiếm dữ liệu ảnh X-quang ngực có nhãn. Phương pháp học tự giám sát được huấn luyện để học đặc trưng từ dữ liệu không nhãn với ba kiến trúc mạng ResNet(34, 50 và 101), Swin Transformer (SwinT) và phiên bản gọn nhẹ LSwinT. Thay vì tinh chỉnh bộ phân lớp (fc/ head) của mô hình đã huấn luyện trước với dữ liệu không nhãn, phương pháp đề xuất kết hợp thuật toán máy học (LightGBM, SVM, CatBoost và XGBoost) thay thế tầng phân lớp trong mạng học sâu. Kết quả thực nghiệm cho thấy tiếp cận được đề xuất nâng cao hiệu quả phân lớp của mô hình cũng như giảm sự phụ thuộc vào nguồn dữ liệu có nhãn.

Thứ ba, thuật toán RF-BMT (rừng ngẫu nhiên với cây có lề lớn nhất) được đề xuất cho bài toán phân lớp đa lớp, mở rộng nghiên cứu từ phương pháp SSLnC. Ý tưởng chính của thuật toán là thay thế tập hợp cây quyết định trong rừng ngẫu nhiên bởi tập hợp cây có lề lớp nhất (BMT) dựa trên thuật toán máy học vectơ hỗ trợ. Cách tiếp cận của nghiên cứu là kết hợp học tự giám sát với thuật toán được đề xuất để cải thiện hiệu quả phân lớp. Dựa trên kết quả thực nghiệm, thuật toán RF-BMT cho thấy sự cải thiện hiệu quả so với việc huấn luyện tầng phân lớp của mô hình MoCo cũng như khi so sánh với các thuật toán phân lớp khác trên tất cả các mức dữ liệu huấn luyện có nhãn từ 5% đến 100%.

Thứ tư, nghiên cứu phân lớp ảnh X-quang ngực mở rộng theo hướng đa nhãn, phản ánh thực tế lâm sàng khi một ảnh thể hiện nhiều nhãn cùng lúc. Nghiên cứu đề xuất phương pháp nâng cao hiệu quả mô hình thông qua học tự giám sát để trích xuất các đặc trưng từ dữ liệu chưa gán nhãn. Luận án đề xuất tinh chỉnh kiến trúc từ mô hình học tự giám sát vào nhiệm vụ phân lớp đa nhãn và cải thiện được hiệu quả phân lớp trên kiến trúc mạng ResNet(34, 50, 101). Ngoài ra, kiến trúc LSwinT dựa trên Swin Transformer cũng được đề xuất để giảm độ phức tạp của mô hình và tăng hiệu quả tính toán. Kết quả cho thấy việc tinh chỉnh mô hình được huấn luyện trước trên ảnh X-quang ngực không nhãn giúp cải thiện hiệu quả tốt hơn so với mô hình được huấn luyện trước trên ImageNet.

2. Những kết quả mới của luận án

Thứ nhất, luận án đề xuất xây dựng mô hình dự đoán nhịp tim dựa trên phương pháp học sâu. Bước đầu tiên của nghiên cứu là thu thập dữ liệu nhịp tim từ thiết bị đeo thông minh Mi Band 4, một thiết bị phổ biến và dễ dàng tiếp cận. Với tiếp cận này sẽ giúp giải quyết được một phần thách thức trong tiếp cận nguồn dữ liệu nhịp tim. Dữ liệu này sau đó được tiền xử lý và đưa vào huấn luyện với sáu mô hình học sâu, bao gồm LSTM, GRU, Bi-LSTM, Bi-GRU, CNN-LSTM, và Conv-LSTM, nhằm mục tiêu so sánh và tìm ra mô hình dự đoán nhịp tim tốt nhất. Kết quả thực nghiệm, mô hình Bi-GRU đạt hiệu quả dự đoán tốt nhất, thể hiện tiềm năng có thể triển khai ứng dụng trong thực tế để cảnh báo khi nhịp tim dự đoán vượt quá ngưỡng bình thường.

Thứ hai, một phương pháp tiếp cận mới được đề xuất để cải thiện hiệu quả phân lớp ảnh X-quang ngực gồm phổi bình thường (normal), Covid-19, phù phổi (edema), khối u (mass-nodule) và tràn khí màng phổi (pneumothorax). Trong phương pháp đề xuất, kỹ thuật học tự giám sát được kết hợp với các thuật toán máy học để phân lớp dữ liệu ảnh X-quang ngực. Thay vì tinh chỉnh bộ phân lớp của mô hình huấn luyện trước từ học tự giám sát, nghiên cứu sử dụng nó làm bộ trích xuất đặc trưng cho dữ liệu có nhãn. Các đặc trưng được trích xuất sau đó được huấn luyện trên các thuật toán phân lớp bao gồm SVM, LightGBM, XGBoost và CatBoost, được sử dụng để thay thế cho tầng phân lớp trong mạng học sâu. Kết quả thực nghiệm cho thấy phương pháp tiếp cận được đề xuất đạt được độ chính xác cao hơn so với các mô hình cơ sở.

Thứ ba, mở rộng bài toán phân lớp ảnh X-quang ngực đơn nhãn với học tự giám sát và thuật toán phân lớp, thuật toán mới RF-BMT (rừng ngẫu nhiên với cây có lề lớn nhất) được đề xuất cho bài toán phân lớp đa lớp để nâng cao hiệu quả mô hình. Thuật toán RF-BMT kết hợp SVM để thay thế tập hợp cây quyết định trong rừng ngẫu nhiên thông qua tập hợp cây có lề lớn nhất (BMT). Kết quả thực nghiệm cho thấy thuật toán này đạt độ chính xác cao hơn so với mô hình cơ sở, huấn luyện tầng phân lớp của mô hình học tự giám sát cũng như các thuật toán phân lớp khác trên toàn bộ các mức dữ liệu có nhãn, từ 5% đến 100%.

Thứ tư, nghiên cứu đề xuất phương pháp nhằm cải thiện khả năng phân lớp ảnh X-quang ngực đa nhãn thông qua kỹ thuật học tự giám sát, nhằm tận dụng nguồn dữ liệu chưa được gán nhãn để cải thiện hiệu quả phân lớp. Cụ thể, luận án tiếp cận tinh chỉnh bộ phân lớp trên mô hình học tự giám sát, được thiết kế để huấn luyện với tập dữ liệu đa nhãn. Hơn nữa, một kiến trúc nhỏ gọn cũng được đề xuất nhằm nâng cao hiệu quả tính toán, rút ngắn thời gian huấn luyện và vẫn duy trì được hiệu quả. Kết quả thực nghiệm cho thấy rằng mô hình được huấn luyện trước với ảnh X-quang ngực không nhãn, sau khi được huấn luyện bộ phân lớp, đã thể hiện hiệu quả cao hơn so với mô hình được huấn luyện trước ImageNet. Sự khác biệt này cho thấy học tự giám sát cải thiện hiệu quả phân lớp trong phân lớp ảnh X-quang ngực đa nhãn.

3. Các ứng dụng/khả năng ứng dụng trong thực tiễn, các vấn đề cần tiếp tục nghiên cứu

Các kết quả nghiên cứu trong luận án có khả năng ứng dụng trong thực tiễn. Mô hình dự đoán nhịp tim có thể được tích hợp vào các thiết bị đeo thông minh hoặc hệ thống giám sát sức khỏe từ xa nhằm cảnh báo sớm nguy cơ rối loạn nhịp tim, hỗ trợ người dùng và bác sĩ theo dõi nhịp tim liên tục. Bên cạnh đó, các mô hình phân lớp ảnh X-quang ngực có thể hỗ trợ bác sĩ chẩn đoán nhanh và hiệu quả trong bệnh viện, đặc biệt trong bối cảnh thiếu dữ liệu gán nhãn hoặc nhân lực chuyên môn hạn chế. Các phương pháp và thuật toán đề xuất cũng có thể được mở rộng cho các loại dữ liệu y khoa khác, góp phần xây dựng hệ thống hỗ trợ chẩn đoán thông minh trong y tế.

Bên cạnh những kết quả đạt được, luận án có thể được phát triển thêm thông qua các hướng nghiên cứu sau:

Thứ nhất, mở rộng ứng dụng dự đoán nhịp tim trong giám sát y tế cá nhân. Mô hình dự đoán nhịp tim có thể được mở rộng bằng cách kết hợp dữ liệu từ các thiết bị đeo thông minh khác, chẳng hạn như Apple Watch hoặc Fitbit, nhằm tăng độ chính xác và khả năng áp dụng rộng rãi. Ngoài ra, việc tích hợp nhịp tim với các chỉ số sinh học khác, như nồng độ oxy máu hoặc mức độ vận động, sẽ giúp cung cấp cái nhìn toàn diện hơn về sức khỏe tim mạch, hỗ trợ chẩn đoán và điều trị kịp thời.

Thứ hai, nghiên cứu việc áp dụng học tự giám sát trên dữ liệu không nhãn với các lĩnh vực liên quan, chẳng hạn như ảnh CT hoặc MRI, có thể mang lại những bước tiến quan trọng. Tiếp cận học tự giám sát trên dữ liệu không nhãn hỗ trợ chẩn đoán những bệnh khác, không chỉ giúp khai thác hiệu quả dữ liệu không nhãn mà còn giảm bớt sự phụ thuộc vào dữ liệu có nhãn.

Thứ ba, hướng nghiên cứu tiềm năng là xây dựng các mô hình huấn luyện dữ liệu phân lớp ảnh X-quang ngực kết hợp với các thông tin liên quan khác của bệnh nhân, chẳng hạn như thông tin cận lâm sàng và dữ liệu hình ảnh y khoa khác bổ sung. Cách tiếp cận này không chỉ giúp nâng cao khả năng chẩn đoán chính xác nhờ vào bối cảnh lâm sàng.

Thứ tư, nghiên cứu diễn giải mô hình cũng như phân vùng trong phân tích ảnh X-quang ngực. Cải thiện khả năng diễn giải giúp xác định rõ yếu tố ảnh hưởng đến quyết định của mô hình, hỗ trợ bác sĩ đánh giá kết quả chẩn đoán.

Thứ năm, nghiên cứu triển khai thực tế các mô hình dự đoán nhịp tim và phân lớp ảnh X-quang ngực trong môi trường lâm sàng.

Bên cạnh các hướng nghiên cứu đã được đề cập, luận án đã đóng góp về việc cải thiện độ chính xác của các mô hình phân lớp ảnh X-quang ngực, đồng thời thời gian các mô hình ở mức chấp nhận được. Nghiên cứu sẽ tiếp tục tập trung vào việc cải thiện cả độ chính xác và thời gian huấn luyện của các mô hình.

Tải tài liệu

1.

Luận án Máy học trong phân tích dữ liệu y khoa

.zip
4.21 MB

Có thể bạn quan tâm