Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Ứng dụng thuật toán XGBoost vào dự đoán tế bào bất thường ở cổ tử cung
Nội dung xem thử
Mô tả chi tiết
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC QUY NHƠN
NGỤY VŨ PHƯƠNG MAI
ỨNG DỤNG THUẬT TOÁN XGBOOST VÀO DỰ
ĐOÁN TẾ BÀO BẤT THƯỜNG Ở CỔ TỬ CUNG
LUẬN VĂN THẠC SĨ KHOA HỌC DỮ LIỆU ỨNG DỤNG
Bình Định – Năm 2022
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC QUY NHƠN
NGỤY VŨ PHƯƠNG MAI
ỨNG DỤNG THUẬT TOÁN XGBOOST VÀO DỰ
ĐOÁN TẾ BÀO BẤT THƯỜNG Ở CỔ TỬ CUNG
Ngành : Khoa học dữ liệu ứng dụng
Mã số : 8904648
Người hướng dẫn: GS. NGUYỄN THANH THỦY
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu và thực hiện luận văn thực sự
của riêng tôi, dưới sự hướng dẫn của GS. Nguyễn Thanh Thủy. Mọi tham
khảo từ các nguồn tài liệu, công trình nghiên cứu liên quan trong nước và quốc
tế đều được trích dẫn một cách rõ ràng trong luận văn. Mọi sao chép không hợp
lệ hay vi phạm quy chế tôi xin hoàn toàn chịu trách nhiệm và chịu mọi kỷ luật
của trường Đại học Quy Nhơn.
Bình Định, ngày tháng năm 2022.
Học viên
Ngụy Vũ Phương Mai
LỜI CẢM ƠN
Trong quá trình thực hiện và hoàn thiện luận văn này, tôi xin gửi lời cảm
ơn chân thành nhất đến các thầy cô trong Khoa Toán và Khoa Công nghệ Thông
tin Trường Đại học Quy Nhơn cũng như các thầy thính giảng ở các trường, các
viện ở Thành phố Hồ Chính Minh đã cung cấp cho tôi những kiến thức quý báu
trong suốt 2 năm học vừa qua.
Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc nhất tới GS. Nguyễn Thanh
Thủy đã dành nhiều thời gian vô cùng quý báu để định hướng và hướng dẫn
tôi tận tình cũng như tạo điều kiện thuận lợi để tôi có thể hoàn thành tốt nhất
luận văn của mình.
Tôi xin chân thành cảm ơn!
Học viên thực hiện
Ngụy Vũ Phương Mai
MỤC LỤC
TRANG PHỤ BÌA
LỜI CAM ĐOAN
LỜI CẢM ƠN
MỤC LỤC
DANH MỤC BẢNG BIỂU
DANH MỤC HÌNH VẼ, ĐỒ THỊ
MỞ ĐẦU .......................................................................................................... 1
CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI............................................................ 3
1.1 Đặt vấn đề................................................................................................ 3
1.2. Một số kết quả nghiên cứu trong và ngoài nước.................................... 4
1.2.1. Kết quả nghiên cứu trên thế giới. ................................................... 4
1.2.2. Kết quả nghiên cứu trong nước. ..................................................... 5
1.3. Mục tiêu luận văn................................................................................... 5
1.4. Đối tượng và phương pháp nghiên cứu. ................................................ 5
1.5. Ý nghĩa của đề tài................................................................................... 5
1.5.1. Ý nghĩa khoa học............................................................................. 5
1.5.2. Ý nghĩa thực tiễn. ............................................................................ 6
1.6. Bố cục luận văn...................................................................................... 6
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT .............................................................. 8
2.1. Tổng quan về phân tích dữ liệu.............................................................. 8
2.1.1. Phân tích dữ liệu là gì?................................................................... 8
2.1.2. Tại sao phải phân tích dữ liệu? ...................................................... 8
2.1.3. Quy trình phân tích dữ liệu............................................................. 9
2.1.4. Các loại hình phân tích................................................................. 11
2.2. Ứng dụng học máy trong phân tích dữ liệu. ........................................ 14
2.2.1. Khái niệm học máy (Machine Learning). ..................................... 14
2.2.2. Các loại thuật toán học máy. ........................................................ 14
2.2.3. Ứng dụng....................................................................................... 15
2.3. Phân tích dữ liệu trong y khoa. ............................................................ 15
2.3.1. Phân tích hình ảnh trong y khoa................................................... 15
2.3.2. Nghiên cứu di truyền học. ............................................................. 16
2.3.3. Điều chế thuốc............................................................................... 16
2.3.4. Phân tích và chẩn đoán bệnh........................................................ 16
2.3.5. Trợ lý sức khỏe và ứng dụng chăm sóc sức khỏe.......................... 17
2.4. Thuật toán XGBoost. ........................................................................... 17
2.4.1. Cơ sở hình thành........................................................................... 17
2.4.2. Ưu điểm của thuật toán................................................................. 19
2.4.3. Ứng dụng của thuật toán trong các lĩnh vực. ............................... 20
2.5. Đánh giá mô hình ................................................................................. 20
2.5.1. Độ đo dùng trong phân loại.......................................................... 20
2.5.2. ROC (Receiver Operating Characteristic) và AUC (Area Under
The Curve)............................................................................................... 22
2.5.3. Đánh giá mô hình bằng kiểm tra chéo.......................................... 23
2.6. Cơ sở dữ liệu y khoa. ........................................................................... 25
2.6.1. Mối liên quan giữa tế bào bất thường và bệnh ung thư cổ tử cung
................................................................................................................. 25
2.6.2. Đặc điểm lâm sàng và cận lâm sàng cổ tử cung........................... 25
CHƯƠNG 3: MÔ HÌNH DỰ BÁO TẾ BÀO BẤT THƯỜNG Ở CỔ TỬ
CUNG............................................................................................................. 27
3.1 Phát biểu bài toán.................................................................................. 27
3.2. Ứng dụng học máy phân tích dữ liệu bài toán tế bào bất thường........ 28
3.2.1. Hiểu bài toán................................................................................. 28
3.2.2. Hiểu dữ liệu................................................................................... 29
3.2.3. Chuẩn bị dữ liệu............................................................................ 37
3.2.4. Mô hình hóa. ................................................................................. 42
3.2.5. Đánh giá mô hình.......................................................................... 43
3.3. Thực nghiệm mô hình. ......................................................................... 50
3.3.1. Tập dữ liệu toàn bộ. ...................................................................... 50
3.3.2. Tập thử nghiệm với bộ dữ liệu mới hoàn toàn.............................. 52
KẾT LUẬN VÀ KIẾN NGHỊ...................................................................... 57
DANH MỤC TÀI LIỆU THAM KHẢO..................................................... 59
PHỤ LỤC
QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (BẢN SAO)