Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nghiên cứu một số phương pháp học máy có giám sát và ứng dụng trong hỗ trợ chẩn đoán bệnh ung thư vú (Breast Cancer)
PREMIUM
Số trang
78
Kích thước
3.3 MB
Định dạng
PDF
Lượt xem
743

Nghiên cứu một số phương pháp học máy có giám sát và ứng dụng trong hỗ trợ chẩn đoán bệnh ung thư vú (Breast Cancer)

Nội dung xem thử

Mô tả chi tiết

i

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

DOUANGBOUDY Noysinakhone

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CÓ GIÁM SÁT VÀ ỨNG

DỤNG TRONG HỖ TRỢ CHẨN ĐOÁN BỆNH UNG THƯ VÚ (BREAST

CANCER

Chuyên ngành : Khoa học máy tính

Mã số : 848 01 01.

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên – 2021

ii

LỜI CẢM ƠN

Sau một thời gian tiến hành triển khai nghiên cứu, em cũng đã hoàn thành nội

dung luận văn “ Nghiên cứu một số phương pháp học máy có giám sát và ứng dụng

trong hỗ trợ chẩn đoán bệnh bệnh ung thư vú”. Luận văn được hoàn thành không chỉ là

công sức của bản thân tác giả mà còn có sự giúp đỡ, hỗ trợ tích cực của nhiều cá nhân

và tập thể.

Em xin gửi lời cảm ơn chân thành và sâu sắc đến thầy giáo, TS. Nguyễn Văn

Núi, người trực tiếp hướng dẫn luận văn cho em. Thầy đã dành cho em nhiều thời gian,

tâm sức, cho em nhiều ý kiến, nhận xét quý báu, chỉnh sửa cho em những chi tiết nhỏ

trong luận văn, giúp luận văn của em được hoàn thiện hơn về mặt nội dung và hình thức.

Thầy cũng đã luôn quan tâm, động viên, nhắc nhở kịp thời để em có thể hoàn thành luận

văn đúng tiến độ.

Em xin gửi lời cảm ơn tới các thầy cô Trường Đại học Công nghệ thông tin và

Truyền thông - Đại học Thái Nguyên, những người đã tận tình giúp đỡ, hướng dẫn trong

quá trình em học tập tại trường.

Em cũng xin gửi lời cảm ơn chân thành đến gia đình, bạn bè, các anh/chị cùng

lớp cao học K18A vì đã luôn động viên, quan tâm giúp đỡ em trong quá trình học tập

và thực hiện luận văn.

Em xin trân trọng cảm ơn !

Thái Nguyên, tháng 11 năm 2021

Học viên thực hiện

Douangboudy Noysinakhone

iii

LỜI CAM ĐOAN

Họ và tên học viên: Douangboudy Noysinakhone

Lớp cao học: CK18A Trường Đại học Công nghệ Thông tin và Truyền thông –

Đại học Thái Nguyên.

Chuyên ngành: Khoa học máy tính

Tên đề tài luận văn: “Nghiên cứu một số phương pháp học máy có giám sát và

ứng dụng trong hỗ trợ chẩn đoán bệnh bệnh ung thư vú “.

Em xin cam đoan luận văn “Nghiên cứu một số phương pháp học máy có giám

sát và ứng dụng trong hỗ trợ chẩn đoán bệnh bệnh ung thư vú” này là công trình nghiên

cứu của cá nhân của em trong thời gian qua. Mọi số liệu sử dụng phân tích trong luận

văn và kết quả nghiên cứu là do em tự tìm hiểu, phân tích một cách khách quan, trung

thực, có nguồn gốc rõ ràng và chưa được công bố dưới bất kỳ hình thức nào. Em xin

chịu hoàn toàn trách nhiệm nếu có sự không trung thực của các thông tin sử dụng trong

công trình nghiên cứu này.

Thái Nguyên, tháng 11 năm 2021

Học viên thực hiện

Douangboudy Noysinakhone

iv

MỤC LỤC

LỜI CẢM ƠN...................................................................................................................i

LỜI CAM ĐOAN.......................................................................................................... iii

MỤC LỤC......................................................................................................................iv

DANH SÁCH BẢNG................................................................................................... vii

DANH SÁCH HÌNH VẼ................................................................................................ix

DANH SÁCH CÁC TÙ VIẾT TẮT ..............................................................................xi

MỞ ĐẦU .........................................................................................................................1

CHƯƠNG I TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC.3

1.1 Giới thiệu tổng quan...............................................................................................3

1.1.1 Khái niệm khai phá dữ liệu..............................................................................3

1.1.2 Một số ứng dụng của khai phá dữ liệu ............................................................4

1.1.3 Quá trình phát hiện tri thức và khai phá dữ liệu ..............................................4

1.1.4 Các bước của quá trình KPDL.........................................................................5

1.2 Một số kỹ thuật khai phá dữ liệu cơ bản................................................................6

1.2.1 Khai phá dữ liệu dự đoán.................................................................................6

1.2.2 Khai phá dữ liệu mô tả.....................................................................................6

1.3 Tổng quan các phương pháp học máy cơ bản........................................................7

1.3.1 Học có giám sát (supervised learning).............................................................7

1.3.2 Học bán giám sát (Semi-supervised learning).................................................9

1.3.3 Học không có giám sát (Unsupervised learning).............................................9

1.3.4 Học tăng cường (Reinforcement learning)......................................................9

1.4 Tổng kết Chương .................................................................................................10

CHƯƠNG II MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CÓ GIÁM SÁT ......................11

2.1 Tổng quan về học máy có giám sát......................................................................11

2.1.1 Phân loại ........................................................................................................12

2.1.2 Hồi quy ..........................................................................................................12

2.2 Phương pháp cây quyết định (decision tree)........................................................12

2.2.1 Giới thiệu chung ............................................................................................12

2.2.2 Các kiểu cây quyết định.................................................................................12

v

2.2.3 Ưu điểm của cây quyết định ..........................................................................13

2.2.4 Các thuật toán xây dựng của cây quyết định .................................................13

2.3 Phương pháp Bayesian.........................................................................................17

2.3.1 Giới thiệu về Bayesian...................................................................................17

2.3.2 Định lý Bayes ................................................................................................18

2.4 Phương pháp rừng ngẫu nhiên (Random Forest).................................................21

2.4.1 Định nghĩa......................................................................................................21

2.4.2 Mô hình phân lớp với Random Forest...........................................................23

2.4.3 Ứng dụng thuật toán Random Forest.............................................................23

2.5 Phương pháp máy hỗ trợ vector (support vector machine)..................................23

2.5.1 Tổng quan về Máy vectơ hỗ trợ.....................................................................23

2.5.2 Nhận dạng mẫu và phân lớp siêu phẳng........................................................24

2.5.3 Siêu phẳng tối ưu ...........................................................................................25

2.5.4 Phân lớp lề mềm ............................................................................................28

2.6 Tổng kết Chương 2 ..............................................................................................29

CHƯƠNG III ỨNG DỤNG MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CÓ GIÁM SÁT

TRONG HỖ TRỢ CHẨN ĐOÁN BỆNH UNG THƯ VÚ...........................................30

3.1 Tổng quan bài toán học có giám sát, hỗ trợ chẩn đoán bệnh ung thư vú.............30

3.1.1 Học có giám sát và ứng dụng hỗ trợ chẩn đoán bệnh ung thư vú .................31

3.1.2 Giới thiệu về ung thư vú ................................................................................33

3.1.3 Công việc liên quan .......................................................................................34

3.1.4 Thu thập, tiền xử lý và mã hóa dữ liệu ..........................................................35

3.1.5 Mô tả sơ lược về dữ liệu ...............................................................................36

3.2 Giới thiệu về công cụ Weka, cấu hình và ứng dụng trong hỗ trợ chẩn đoán bệnh

ung thư vú...................................................................................................................37

3.2.1 Khái niệm của công cụ Weka ........................................................................37

3.2.2 Ưu điểm của Weka ........................................................................................38

3.2.3 Kiến trúc thư viện Weka................................................................................39

3.2.4 Các môi trường chính ....................................................................................40

3.2.5 Định dạng dữ liệu của Weka..........................................................................40

3.2.6 Các bước chức năng phân lớp (Classify).......................................................41

vi

3.2.7 Mô tả chức năng phân lớp (Classify).............................................................45

3.3 Phân tích, đánh giá kết quả thực nghiệm .............................................................46

3.3.1 Thực nghiệm..................................................................................................47

3.3.2 Thực hiện phân lớp bằng thuật toán Naïve Bayes.........................................48

3.3.3 Thực hiện phân lớp bằng thuật toán K-Nerrest neighbor..............................50

3.3.4 Thực hiện phân lớp bằng thuật toán Support Vector Machines....................53

3.3.5 Thực hiện phân lớp bằng thuật toán Decision tree (J48)...............................55

3.4 Đánh giá mô hình phân lớp dữ liệu Breast cancer...............................................58

3.4.1 Đánh giá mô hình bằng phương pháp Hold-out ............................................58

3.4.2 Đánh giá mô hình bằng phương pháp k-fold Cross validation......................59

3.5 Kết luận thực nghiệm phân lớp dữ liệu Breast cancer.........................................59

3.6 Thảo luận..............................................................................................................63

3.7 Tổng kết Chương 3 ..............................................................................................64

KẾT LUẬN ...................................................................................................................65

TÀI LIỆU THAM KHẢO.............................................................................................66

vii

DANH SÁCH BẢNG

Bảng 2.1 : xây dựng cây quyết định cho tập dữ liệu huấn luyện ..................................14

Bảng 2.2 : Ví dụ thông tin áp dụng cho bài toán...........................................................20

Bảng 3.1 : Tổng hợp dữ liệu thu thập............................................................................35

Bảng 3.2 : Các tính năng dành cho các dữ liệu bệnh ung thư vú ..................................35

Bảng 3.3 : Dữ liệu về ung thư vú Wisconsin ................................................................48

Bảng 3.4: Độ chính xác của thuật toán Naïve Bayes (kịch bản 1)................................48

Bảng 3.5: Tóm tắt cho Naïve Bayes (Kịch bản 1).........................................................49

Bảng 3.6: Các thước đo độ chính xác của thuật toán Naïve Bayes (kịch bản 1) ..........49

Bảng 3.7: Ma trận nhầm lẫn (kịch bản 1)......................................................................49

Bảng 3.8: Độ chính xác của thuật toán Naïve Bayes (kịch bản 2)................................49

Bảng 3.9: Tóm tắt cho Naïve Bayes (Kịch bản 2).........................................................50

Bảng 3.10: Các thước đo độ chính xác của thuật toán Naïve Bayes (kịch bản 2) ........50

Bảng 3.11: Ma trận nhầm lẫn của NB (kịch bản 2).......................................................50

Bảng 3.12: Độ chính xác của thuật toán k-NN (kịch bản 1) .........................................51

Bảng 3.13: Tóm tắt cho k-NN (kịch bản 1)..................................................................51

Bảng 3.14: Các thước đo độ chính xác của thuật toán k-NN (kịch bản 1)....................51

Bảng 3.15: Ma trận nhầm lẫn của k-NN (kịch bản 1)...................................................52

Bảng 3.16: Độ chính xác của thuật toán k-NN (kịch bản 2) .........................................52

Bảng 3.17: Tóm tắt cho k-NN (kịch bản 2)...................................................................52

Bảng 3.18: Các thước đo độ chính xác của thuật toán k-NN (kịch bản 2)....................52

Bảng 3.19: Ma trận nhầm lẫn của (kịch bản 2) .............................................................53

Bảng 3.20: Độ chính xác của thuật toán SVM (kịch bản 1)..........................................53

Bảng 3.21: Tóm tắt cho SVM (kịch bản 1) ...................................................................53

Bảng 3.22: Các thước đo độ chính xác của thuật toán SVM (kịch bản 1)....................54

Bảng 3.23: Ma trận nhầm lẫn của (kịch bản 1) .............................................................54

Bảng 3.24: Độ chính xác của thuật toán SVM (kịch bản 2)..........................................54

Bảng 3.25: Tóm tắt cho SVM (kịch bản 2) ...................................................................54

Bảng 3.26: Các thước đo độ chính xác của thuật toán SVM (kịch bản 2)....................55

Bảng 3.27: Ma trận nhầm lẫn của (kịch bản 2) .............................................................55

Tải ngay đi em, còn do dự, trời tối mất!