Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nghiên cứu một số phương pháp học máy có giám sát và ứng dụng trong hỗ trợ chẩn đoán bệnh ung thư vú (Breast Cancer)
Nội dung xem thử
Mô tả chi tiết
i
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
DOUANGBOUDY Noysinakhone
NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CÓ GIÁM SÁT VÀ ỨNG
DỤNG TRONG HỖ TRỢ CHẨN ĐOÁN BỆNH UNG THƯ VÚ (BREAST
CANCER
Chuyên ngành : Khoa học máy tính
Mã số : 848 01 01.
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Nguyên – 2021
ii
LỜI CẢM ƠN
Sau một thời gian tiến hành triển khai nghiên cứu, em cũng đã hoàn thành nội
dung luận văn “ Nghiên cứu một số phương pháp học máy có giám sát và ứng dụng
trong hỗ trợ chẩn đoán bệnh bệnh ung thư vú”. Luận văn được hoàn thành không chỉ là
công sức của bản thân tác giả mà còn có sự giúp đỡ, hỗ trợ tích cực của nhiều cá nhân
và tập thể.
Em xin gửi lời cảm ơn chân thành và sâu sắc đến thầy giáo, TS. Nguyễn Văn
Núi, người trực tiếp hướng dẫn luận văn cho em. Thầy đã dành cho em nhiều thời gian,
tâm sức, cho em nhiều ý kiến, nhận xét quý báu, chỉnh sửa cho em những chi tiết nhỏ
trong luận văn, giúp luận văn của em được hoàn thiện hơn về mặt nội dung và hình thức.
Thầy cũng đã luôn quan tâm, động viên, nhắc nhở kịp thời để em có thể hoàn thành luận
văn đúng tiến độ.
Em xin gửi lời cảm ơn tới các thầy cô Trường Đại học Công nghệ thông tin và
Truyền thông - Đại học Thái Nguyên, những người đã tận tình giúp đỡ, hướng dẫn trong
quá trình em học tập tại trường.
Em cũng xin gửi lời cảm ơn chân thành đến gia đình, bạn bè, các anh/chị cùng
lớp cao học K18A vì đã luôn động viên, quan tâm giúp đỡ em trong quá trình học tập
và thực hiện luận văn.
Em xin trân trọng cảm ơn !
Thái Nguyên, tháng 11 năm 2021
Học viên thực hiện
Douangboudy Noysinakhone
iii
LỜI CAM ĐOAN
Họ và tên học viên: Douangboudy Noysinakhone
Lớp cao học: CK18A Trường Đại học Công nghệ Thông tin và Truyền thông –
Đại học Thái Nguyên.
Chuyên ngành: Khoa học máy tính
Tên đề tài luận văn: “Nghiên cứu một số phương pháp học máy có giám sát và
ứng dụng trong hỗ trợ chẩn đoán bệnh bệnh ung thư vú “.
Em xin cam đoan luận văn “Nghiên cứu một số phương pháp học máy có giám
sát và ứng dụng trong hỗ trợ chẩn đoán bệnh bệnh ung thư vú” này là công trình nghiên
cứu của cá nhân của em trong thời gian qua. Mọi số liệu sử dụng phân tích trong luận
văn và kết quả nghiên cứu là do em tự tìm hiểu, phân tích một cách khách quan, trung
thực, có nguồn gốc rõ ràng và chưa được công bố dưới bất kỳ hình thức nào. Em xin
chịu hoàn toàn trách nhiệm nếu có sự không trung thực của các thông tin sử dụng trong
công trình nghiên cứu này.
Thái Nguyên, tháng 11 năm 2021
Học viên thực hiện
Douangboudy Noysinakhone
iv
MỤC LỤC
LỜI CẢM ƠN...................................................................................................................i
LỜI CAM ĐOAN.......................................................................................................... iii
MỤC LỤC......................................................................................................................iv
DANH SÁCH BẢNG................................................................................................... vii
DANH SÁCH HÌNH VẼ................................................................................................ix
DANH SÁCH CÁC TÙ VIẾT TẮT ..............................................................................xi
MỞ ĐẦU .........................................................................................................................1
CHƯƠNG I TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC.3
1.1 Giới thiệu tổng quan...............................................................................................3
1.1.1 Khái niệm khai phá dữ liệu..............................................................................3
1.1.2 Một số ứng dụng của khai phá dữ liệu ............................................................4
1.1.3 Quá trình phát hiện tri thức và khai phá dữ liệu ..............................................4
1.1.4 Các bước của quá trình KPDL.........................................................................5
1.2 Một số kỹ thuật khai phá dữ liệu cơ bản................................................................6
1.2.1 Khai phá dữ liệu dự đoán.................................................................................6
1.2.2 Khai phá dữ liệu mô tả.....................................................................................6
1.3 Tổng quan các phương pháp học máy cơ bản........................................................7
1.3.1 Học có giám sát (supervised learning).............................................................7
1.3.2 Học bán giám sát (Semi-supervised learning).................................................9
1.3.3 Học không có giám sát (Unsupervised learning).............................................9
1.3.4 Học tăng cường (Reinforcement learning)......................................................9
1.4 Tổng kết Chương .................................................................................................10
CHƯƠNG II MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CÓ GIÁM SÁT ......................11
2.1 Tổng quan về học máy có giám sát......................................................................11
2.1.1 Phân loại ........................................................................................................12
2.1.2 Hồi quy ..........................................................................................................12
2.2 Phương pháp cây quyết định (decision tree)........................................................12
2.2.1 Giới thiệu chung ............................................................................................12
2.2.2 Các kiểu cây quyết định.................................................................................12
v
2.2.3 Ưu điểm của cây quyết định ..........................................................................13
2.2.4 Các thuật toán xây dựng của cây quyết định .................................................13
2.3 Phương pháp Bayesian.........................................................................................17
2.3.1 Giới thiệu về Bayesian...................................................................................17
2.3.2 Định lý Bayes ................................................................................................18
2.4 Phương pháp rừng ngẫu nhiên (Random Forest).................................................21
2.4.1 Định nghĩa......................................................................................................21
2.4.2 Mô hình phân lớp với Random Forest...........................................................23
2.4.3 Ứng dụng thuật toán Random Forest.............................................................23
2.5 Phương pháp máy hỗ trợ vector (support vector machine)..................................23
2.5.1 Tổng quan về Máy vectơ hỗ trợ.....................................................................23
2.5.2 Nhận dạng mẫu và phân lớp siêu phẳng........................................................24
2.5.3 Siêu phẳng tối ưu ...........................................................................................25
2.5.4 Phân lớp lề mềm ............................................................................................28
2.6 Tổng kết Chương 2 ..............................................................................................29
CHƯƠNG III ỨNG DỤNG MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CÓ GIÁM SÁT
TRONG HỖ TRỢ CHẨN ĐOÁN BỆNH UNG THƯ VÚ...........................................30
3.1 Tổng quan bài toán học có giám sát, hỗ trợ chẩn đoán bệnh ung thư vú.............30
3.1.1 Học có giám sát và ứng dụng hỗ trợ chẩn đoán bệnh ung thư vú .................31
3.1.2 Giới thiệu về ung thư vú ................................................................................33
3.1.3 Công việc liên quan .......................................................................................34
3.1.4 Thu thập, tiền xử lý và mã hóa dữ liệu ..........................................................35
3.1.5 Mô tả sơ lược về dữ liệu ...............................................................................36
3.2 Giới thiệu về công cụ Weka, cấu hình và ứng dụng trong hỗ trợ chẩn đoán bệnh
ung thư vú...................................................................................................................37
3.2.1 Khái niệm của công cụ Weka ........................................................................37
3.2.2 Ưu điểm của Weka ........................................................................................38
3.2.3 Kiến trúc thư viện Weka................................................................................39
3.2.4 Các môi trường chính ....................................................................................40
3.2.5 Định dạng dữ liệu của Weka..........................................................................40
3.2.6 Các bước chức năng phân lớp (Classify).......................................................41
vi
3.2.7 Mô tả chức năng phân lớp (Classify).............................................................45
3.3 Phân tích, đánh giá kết quả thực nghiệm .............................................................46
3.3.1 Thực nghiệm..................................................................................................47
3.3.2 Thực hiện phân lớp bằng thuật toán Naïve Bayes.........................................48
3.3.3 Thực hiện phân lớp bằng thuật toán K-Nerrest neighbor..............................50
3.3.4 Thực hiện phân lớp bằng thuật toán Support Vector Machines....................53
3.3.5 Thực hiện phân lớp bằng thuật toán Decision tree (J48)...............................55
3.4 Đánh giá mô hình phân lớp dữ liệu Breast cancer...............................................58
3.4.1 Đánh giá mô hình bằng phương pháp Hold-out ............................................58
3.4.2 Đánh giá mô hình bằng phương pháp k-fold Cross validation......................59
3.5 Kết luận thực nghiệm phân lớp dữ liệu Breast cancer.........................................59
3.6 Thảo luận..............................................................................................................63
3.7 Tổng kết Chương 3 ..............................................................................................64
KẾT LUẬN ...................................................................................................................65
TÀI LIỆU THAM KHẢO.............................................................................................66
vii
DANH SÁCH BẢNG
Bảng 2.1 : xây dựng cây quyết định cho tập dữ liệu huấn luyện ..................................14
Bảng 2.2 : Ví dụ thông tin áp dụng cho bài toán...........................................................20
Bảng 3.1 : Tổng hợp dữ liệu thu thập............................................................................35
Bảng 3.2 : Các tính năng dành cho các dữ liệu bệnh ung thư vú ..................................35
Bảng 3.3 : Dữ liệu về ung thư vú Wisconsin ................................................................48
Bảng 3.4: Độ chính xác của thuật toán Naïve Bayes (kịch bản 1)................................48
Bảng 3.5: Tóm tắt cho Naïve Bayes (Kịch bản 1).........................................................49
Bảng 3.6: Các thước đo độ chính xác của thuật toán Naïve Bayes (kịch bản 1) ..........49
Bảng 3.7: Ma trận nhầm lẫn (kịch bản 1)......................................................................49
Bảng 3.8: Độ chính xác của thuật toán Naïve Bayes (kịch bản 2)................................49
Bảng 3.9: Tóm tắt cho Naïve Bayes (Kịch bản 2).........................................................50
Bảng 3.10: Các thước đo độ chính xác của thuật toán Naïve Bayes (kịch bản 2) ........50
Bảng 3.11: Ma trận nhầm lẫn của NB (kịch bản 2).......................................................50
Bảng 3.12: Độ chính xác của thuật toán k-NN (kịch bản 1) .........................................51
Bảng 3.13: Tóm tắt cho k-NN (kịch bản 1)..................................................................51
Bảng 3.14: Các thước đo độ chính xác của thuật toán k-NN (kịch bản 1)....................51
Bảng 3.15: Ma trận nhầm lẫn của k-NN (kịch bản 1)...................................................52
Bảng 3.16: Độ chính xác của thuật toán k-NN (kịch bản 2) .........................................52
Bảng 3.17: Tóm tắt cho k-NN (kịch bản 2)...................................................................52
Bảng 3.18: Các thước đo độ chính xác của thuật toán k-NN (kịch bản 2)....................52
Bảng 3.19: Ma trận nhầm lẫn của (kịch bản 2) .............................................................53
Bảng 3.20: Độ chính xác của thuật toán SVM (kịch bản 1)..........................................53
Bảng 3.21: Tóm tắt cho SVM (kịch bản 1) ...................................................................53
Bảng 3.22: Các thước đo độ chính xác của thuật toán SVM (kịch bản 1)....................54
Bảng 3.23: Ma trận nhầm lẫn của (kịch bản 1) .............................................................54
Bảng 3.24: Độ chính xác của thuật toán SVM (kịch bản 2)..........................................54
Bảng 3.25: Tóm tắt cho SVM (kịch bản 2) ...................................................................54
Bảng 3.26: Các thước đo độ chính xác của thuật toán SVM (kịch bản 2)....................55
Bảng 3.27: Ma trận nhầm lẫn của (kịch bản 2) .............................................................55