Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Phân lớp dữ liệu hoa Iris sử dụng thuật toán Naive Bayes, Randomforest và KNN (K - NEAREST NEIGHBORS)
PREMIUM
Số trang
73
Kích thước
2.0 MB
Định dạng
PDF
Lượt xem
1142

Phân lớp dữ liệu hoa Iris sử dụng thuật toán Naive Bayes, Randomforest và KNN (K - NEAREST NEIGHBORS)

Nội dung xem thử

Mô tả chi tiết

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

SENGTHONG XAYAVONG

PHÂN LỚP DỮ LIỆU HOA IRIS SỬ DỤNG THUẬT TOÁN

NAIVE BAYES, RANDOMFOREST VÀ KNN

(K - NEAREST NEIGHBORS)

LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH

Thái Nguyên – 2020

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

SENGTHONG XAYAVONG

PHÂN LỚP DỮ LIỆU HOA IRIS SỬ DỤNG THUẬT TOÁN

NAIVE BAYES, RANDOMFOREST VÀ KNN

(K - NEAREST NEIGHBORS)

LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH

Chuyên ngành: KHOA HỌC MÁY TÍNH

Mã số: 84 8 01 01

Người hướng dẫn khoa học: TS. Nguyễn Văn Núi

Thái Nguyên – 2020

I

LỜI CAM ĐOAN

Họ và tên học viên: Sengthong Xayavong

Lớp cao học: CK17A Trường Đại học Công nghệ thông tin và Truyền thông – Đại

học Thái Nguyên.

Chuyên ngành: Khoa học máy tính

Tên đề tài luận văn: PHÂN LỚP DỮ LIỆU HOA IRIS SỬ DỤNG THUẬT TOÁN

NAIVE BAYES, RANDOMFOREST VÀ KNN (K - NEAREST NEIGHBORS).

Học viên xin cam đoan đây là công trình nghiên cứu của bản than học viện.

Các kết quả nghiên cứu và các kết luận trong luận văn là trung thực, không sao chép

từ bất kỳ một nguồn nào và dưới bất kỳ hình thức nào. Trong quá trình làm học viên

có tham khảo các tài liệu liên quan nhằm khẳng định thêm sự tin cậy và cấp thiết của

đề tài. Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn

tài liệu tham khảo đúng quy định.

Thái Nguyên, ngày 08 tháng 10 năm 2020

Tác giả luận văn

Sengthong xayavong

II

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn sâu sắc tới TS. Nguyễn Văn Núi, Trường Đại học Công

nghệ Thông tin và Truyền thông, người thầy đã dành nhiều thời gian tận tình chỉ bảo,

hướng dẫn, giúp đỡ tôi trong suốt quá trình tìm hiểu, nghiên cứu. Thầy là người định

hướng và đưa ra nhiều góp ý quý báu trong quá trình tôi thực hiện luận văn.

Tôi xin chân thành cảm ơn các thầy, cô ở khoa Công nghệ thông tin – trường

Đại học Công nghệ Thông tin và Truyền thông đã cung cấp cho tôi những kiến thức

và tạo cho tôi những điều kiện thuận lợi trong suốt quá trình tôi học tập tại trường.

Tôi cũng bày tỏ lòng biết ơn về sự giúp đỡ của lãnh đạo cơ quan, đồng nghiệp

đã cung cấp dữ liệu, tài liệu và cho tôi những lời khuyên quý báu. Tôi xin cảm ơn gia

đình, người thân, bạn bè và các thành viên trong nhóm nghiên cứu luôn động viên và

tạo mọi điều kiện tốt nhất cho tôi.

Tôi xin chân thành cảm ơn!

Thái Nguyên, ngày 08 tháng 10 năm 2020

Tác giả luận văn

Sengthong Xayavong

III

MỤC LỤC

LỜI CAM ĐOAN ......................................................................................................I

LỜI CẢM ƠN.......................................................................................................... II

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .......................................... VI

DANH MỤC CÁC BẢNG ....................................................................................VII

DANH MỤC HÌNH.............................................................................................VIII

MỞ ĐẦU ....................................................................................................................1

Chương 1: Tổng quan về khai phá dữ liệu và phát hiện tri thức .........................3

1.1 Giới thiệu tổng quan........................................................................................3

1.1.1 Giới thiệu chung về khám phá tri thức và khai phá dữ liệu ........................3

1.1.2 Quá trình khám phá tri thức ........................................................................3

1.1.3 Khai phá dữ liệu ..........................................................................................5

1.1.4 Quá trình của khai phá dữ liệu ....................................................................6

1.1.5 Ứng dụng của khai phá dữ liệu ...................................................................7

1.2 Một số kỹ thuật khai phá dữ liệu cơ bản.......................................................7

1.2.1 Luật kết hợp (Association Rules).................................................................7

1.2.2 Khai thác mẫu tuần tự (Sequential / Temporal patterns)............................7

1.2.3 Phân cụm dữ liệu (Clustering) ....................................................................8

1.2.4 Phân nhóm- đoạn (Clustering / Segmentation)...........................................8

1.2.5 Hồi quy (Regression) ..................................................................................9

1.2.6 Tổng hợp hóa (Summarization)...................................................................9

1.2.7 Mô hình hóa sự phụ thuộc (dependency modeling) ....................................9

1.2.8 Phát hiện sự biến đổi và độ lệch (Change and deviation detection).........10

1.3. Một số so sánh giữa khai phá dữ liệu và các phương pháp cơ bản khác 10

1.3.1. So sánh với phương pháp hệ chuyên gia..................................................10

1.3.2. So sánh với phương pháp phân loại thống kê ..........................................11

1.3.3. So sánh với phương pháp học máy ..........................................................12

1.3.4 So sánh với phương pháp học sâu.............................................................14

Chương 2: Một số kỹ thuật phân lớp dữ liệu .......................................................16

2.1 Tổng quan về phân lớp dữ liệu....................................................................16

2.2. Phân lớp dữ liệu Naive Bayes.....................................................................19

IV

2.2.1 Định nghĩa thuật toán Naïve Bayes..........................................................19

2.2.3 Đặc điểm của thuật toán Naïve Bayes.......................................................22

2.2.4 Ứng dụng của thuật toán Naïve Bayes......................................................23

2.3 Phân lớp dữ liệu RandomForest .................................................................24

2.3.1 Định nghĩa thuật toán Ramdomforest .......................................................24

2.3.2 Đặc điểm của Random Forest ...................................................................27

2.3.3 Mô hình phân lớp với Random Forest ......................................................29

2.3.4 Ứng dụng thuật toán Ramdom Forest .......................................................29

2.4. Phân lớp dữ liệu KNN (K-nearest neighbor)............................................29

2.4.1 Định nghĩa thuât toán KNN ......................................................................29

2.4.2 Mô tả thuật toán K-NN..............................................................................31

2.4.3 Đặc điểm của thuật toán KNN .................................................................33

2.4.4 Ứng dụng thuật toán K-NN......................................................................33

2.5. Một số thuật toán phân lớp dữ liệu khác...................................................34

2.5.1 Cây quyết định ứng dụng trong phân lớp dữ liệu......................................34

2.5.2 Phân lớp với máy vector hỗ trợ (SVM).....................................................34

Chương 3: Ứng dụng phân lớp dữ liệu hoa Iris...................................................35

3.1. Giới thiệu về hoa Iris và bài toán phân lớp hoa Iris..................................35

3.1.1. Giới thiệu về tập dữ liệu hoa Iris..............................................................35

3.1.2 Sử dụng tập dữ liệu....................................................................................36

3.1.3 Tập dữ liệu.................................................................................................36

3.1.4 Định nghĩa bài toán phân lớp hoa Iris......................................................41

3.2. Thu thập và tiền xử lý dữ liệu......................................................................41

3.2.1. Làm sạch dữ liệu ......................................................................................42

3.2.2. Chọn lọc dữ liệu .......................................................................................42

3.2.3. Chuyển đổi dữ liệu ...................................................................................43

3.2.4. Rút gọn dữ liệu .........................................................................................43

3.3. Giới thiệu về công cụ Weka, cấu hình và ứng dụng phân lớp hoa Iris...43

3.3.1 Khái niệm ..................................................................................................43

3.3.2 Ưu điểm của Weka ....................................................................................44

3.3.3 Những tính năng vượt trội của Weka ........................................................45

V

3.3.4 Kiến trúc thư viện Weka ...........................................................................45

3.3.5 Các môi trường chức năng chính của Weka .............................................46

3.3.6 Định dạng dữ liệu của weka ......................................................................48

3.4. Áp dụng các thuật toán Naive Bayes, RandomForest và KNN trong phân

lớp dự đoán hoa Iris ............................................................................................49

3.4.1 Áp dụng thuật toán Naive Bayes trong phân lớp dự đoán hoa Iris...........50

3.4.2 Áp dụng thuật toán RandomForest trong phân lớp dự đoán hoa Iris........53

3.4.3 Áp dụng thuật toán KNN trong phân lớp dự đoán hoa Iris.......................56

3.5 Đánh giá mô hình phân lớp dữ liệu Hoa IRIS ............................................59

3.5.1 Đánh giá hiệu năng mô hình sử dụng phương pháp đánh giá chéo (k-fold

cross-validation).................................................................................................59

3.5.2 Đánh giá mô hình sử dụng phương pháp Hold-out...................................59

3.5.3 Kết luận thực nghiệm phân lớp dữ liệu IRIS ............................................60

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.............................................................61

TÀI LIỆU THAM KHẢO ......................................................................................62

Tải ngay đi em, còn do dự, trời tối mất!