Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Sử dụng cây quyết định trong khai phá dữ liệu
PREMIUM
Số trang
77
Kích thước
1015.0 KB
Định dạng
PDF
Lượt xem
1011

Sử dụng cây quyết định trong khai phá dữ liệu

Nội dung xem thử

Mô tả chi tiết

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

ĐẠI HỌC THÁI NGUYÊN

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

------------

PHẠM THỊ PHƢƠNG THẢO

SỬ DỤNG CÂY QUYẾT ĐỊNH TRONG

KHAI PHÁ DỮ LIỆU

Chuyên ngành: Khoa học máy tính

Mã số: 60.48.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Ngƣời hƣớng dẫn khoa học: GS.TS Vũ Đức Thi

Thái nguyên – Năm 2011

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

ii

LỜI CAM ĐOAN

Tôi xin cam đoan toàn bộ nội dung luận văn này là do tôi tự sƣu tầm, tra cứu

thông tin trên mạng Internet, trong một số sách tham khảo để sắp xếp, hoàn thiện

cho phù hợp với nội dung yêu cầu của đề tài.

Đến nay, nội dung luận văn của tôi chƣa từng đƣợc công bố hay xuất bản

dƣới bất kỳ hình thức nào. Nếu sai tôi xin chịu hoàn toàn trách nhiệm.

Ngày 15 tháng 09 năm 2011

Tác giả

Phạm Thị Phương Thảo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

iii

LỜI CẢM ƠN

Trong suốt quá trình học tập và thực hiện đề tài, em đã nhận đƣợc sự giúp đỡ

tận tình và những chỉ bảo ân cần của các Thày cô trong viện Công nghệ thông tin –

Viện khoa học và công nghệ Việt nam, các Thày cô trong trƣờng đại học Công nghệ

Thông tin và Truyền thông, cùng các bạn bè đồng nghiệp. Đặc biệt là sự giúp đỡ

của GS.TS Vũ Đức Thi, ngƣời thầy trực tiếp hƣớng dẫn, đƣa ra ý trƣởng, định

hƣớng, đóng góp các ý kiến chuyên môn và tận tình giúp đỡ em trong suốt quá trình

nghiên cứu và thực hiện luận văn.

Qua đây cho phép em đƣợc bày tỏ lời cảm ơn tới tất cả các thầy cô giáo ở

Viện Công nghệ thông tin và trƣờng đại học Công nghệ Thông tin và Truyền thông,

đã giảng dạy và tạo mọi điều kiện thuận lợi giúp đỡ chúng em trong quá trình học

tập, nghiên cứu.

Cuối cùng, tôi xin cảm ơn đến gia đình, các bạn bè đồng nghiệp đã chia sẻ

động viên giúp đỡ tôi về chuyên môn cũng nhƣ về mọi mặt trong cuộc sống, đó là

nguồn động viên khích lệ giúp tôi có nghị lực hơn để hoàn thành khoá học.

Học viên

Phạm Thị Phương Thảo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

iv

MỤC LỤC

LỜI CAM ĐOAN ............................................................................................................ii

LỜI CẢM ƠN ................................................................................................................ iii

MỤC LỤC.......................................................................................................................iv

DANH MỤC CÁC BẢNG VÀ CÁC HÌNH TRONG LUẬN VĂN..............................vi

LỜI MỞ ĐẦU..................................................................................................................1

Chƣơng 1:.........................................................................................................................3

TÌM HIỂU NHỮNG KIẾN THỨC TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU .............3

1.1. Tính cấp bách của việc khai phá dữ liệu...............................................................3

1.2. Mục tiêu của khai phá dữ liệu...............................................................................4

1.3. Quá trình phát hiện tri thức...................................................................................6

1.4. Quá trình khai phá dữ liệu. ...................................................................................7

1.5. Các dạng dữ liệu có thể khai phá..........................................................................9

1.6. Các hƣớng tiếp cận và kỹ thuật áp dụng.............................................................10

1.7. Một số lĩnh vực ứng dụng của khai phá dữ liệu. ................................................10

1.8. Lựa chọn các kỹ thuật khai phá. .........................................................................11

1.9. Một số phƣơng pháp khai phá dữ liệu phổ biến. ................................................12

1.9.1.Cây quyết định và luật. .................................................................................12

1.9.2. Phƣơng pháp suy diễn và quy nạp. ..............................................................13

1.9.3. Luật kết hợp. ................................................................................................13

1.9.4. Phân nhóm và phân đoạn. ............................................................................13

1.9.5. Mạng neural .................................................................................................14

1.9.6. Giải thuật di truyền ......................................................................................14

Chƣơng 2:.......................................................................................................................15

KỸ THUẬT KHAI PHÁ DỮ LIỆU SỬ DỤNG CÂY QUYẾT ĐỊNH ........................15

2.1. Giới thiệu kỹ thuật khai phá dữ liệu sử dụng cây quyết định.............................15

2.2. Thuật toán sử dụng cho việc xây dựng cây quyết định ......................................17

2.2.1. Thuật toán CLS ............................................................................................17

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

v

2.2.2. Thuật toán ID3 .............................................................................................22

2.2.3. Thuật toán C4.5............................................................................................35

2.3. Rút gọn cây quyết định .......................................................................................47

2.4. Rút gọn các luật từ cây quyết định .....................................................................54

2.5. Đánh giá, kết luận về các thuật toán xây dựng cây quyết định ..........................55

Chƣơng 3:.......................................................................................................................57

CÀI ĐẶT THỬ NGHIỆM .............................................................................................57

3.1. Thiết kế tổng thể .................................................................................................57

3.2. Chuẩn bị dữ liệu..................................................................................................58

3.3. Thiết kế chƣơng trình..........................................................................................66

3.4. Kết qủa thực nghiệm và đánh giá ......................................................................67

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN .....................................................................68

TÀI LIỆU THAM KHẢO..............................................................................................69

PHỤ LỤC.......................................................................................................................70

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

vi

DANH MỤC CÁC BẢNG VÀ CÁC HÌNH

TRONG LUẬN VĂN

Danh mục các bảng

Bảng 2.1 Tập dữ liệu huấn luyện quyết định chơi tennis...............................................18

Bảng 2.2 Bảng thống kê mức độ nguy hiểm khi lái xe và độ tuổi của lái xe ...............42

Bảng 2.3. Bảng thông tin phân bổ lớp của thuộc tính Tuổi ...........................................42

Bảng 2.4. Bảng thông tin phân bổ lớp của thuộc tính Loại xe.......................................43

Bảng 2.5: Tìm ngƣỡng cho phép tách với thuộc tính Tuổi ............................................45

Bảng 3.1. Bảng dữ liệu về những giấu hiệu của bệnh nhân nhiễm cúm H1N1 .............58

Bảng 3.2. Bảng tập dữ liệu con ứng với Cổ họng = Ho thƣờng ....................................61

Bảng 3.3. Bảng tập dữ liệu con ứng với Cổ họng = Ho khan........................................63

Bảng phụ lục: Logarit cơ số hai của các số nguyên từ 1 đến 100..................................70

Danh mục các hình

Hình 1.1: Quá trình phát hiện tri thức ..............................................................................6

Hình 1.2. Quá trình khai phá dữ liệu................................................................................7

Hình 2.1: Khai triển cây theo thuộc tính quang cảnh.....................................................18

Hình 2.2:Khai triển cây theo thuộc tính Quang cảnh-Nhiệt độ .....................................19

Hình 2.3: Khai triển cây theo thuộc tính Quang cảnh-Nhiệt độ-độ ẩm.........................19

Hình 2.4: Khai triển cây theo thuộc tính Quang cảnh-nhiệt độ-độ ẩm-Gió...................20

Hình 2.5:Khai triển cây theo thuộc tính quang cảnh-độ ẩm ..........................................21

Hình 2.6: Khai triển cây theo thuộc tính quang cảnh-độ ẩm -gió..................................21

Hình 2.7: Khai triển cây quyết định theo thuộc tính quang cảnh ..................................29

Hình 2.8: Xây dựng cây theo thuộc tính độ ẩm .............................................................32

Hình 2.9: Khai triển cây theo thuộc tính quang cảnh –độ ẩm........................................32

Hình 2.10: Khai triển cây theo thuộc tính quang cảnh = “âm u”...................................33

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

vii

Hình 2.11: Cây quyết định theo thuộc tính quang cảnh-độ ẩm-gió ...............................35

Hình 2.12. Cây quyết định đi chơi Tennis sử dụng thuật toán ID3 ...............................35

Hình 2.13 : Khai triển cây theo thuộc tính Loại xe........................................................45

Hình 2.14: Khai triển cây theo thuộc tính Loại xe-Tuổi................................................47

Hình 2.15. Cây kết quả sử dụng thuật toán C4.5 ...........................................................47

Hình 2.16: Cây trƣớc khi cắt tỉa.....................................................................................49

Hình 2.17. Cây trƣớc khi cắt tỉa .....................................................................................52

Hình 2.18. Cây sau khi cắt tỉa ........................................................................................53

Hình 3.1: Khai triển cây quyết định theo thuộc tính “Cổ Họng”...................................60

Hình 3.2: Khai triển cây quyết định theo thuộc tính Cổ Họng = “Ho có đờm” ............61

Hình 3.3: Khai triển cây quyết định theo thuộc tính Đầu ..............................................63

Hình 3.4: Khai triển cây quyết định theo thuộc tính Mũi ..............................................64

Hình 3.5: Cây quyết định sử dụng thuật toán ID3 .........................................................65

Hình 3.7. Giao diện chính của chƣơng trình.................................................................66

Hình 3.8. Dữ liệu đƣợc nhập vào cho chƣơng trình......................................................66

Hình 3.9. Giao diện xây dựng cây quyết định................................................................67

Tải ngay đi em, còn do dự, trời tối mất!