Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Phương pháp học nửa giám sát và ứng dụng
PREMIUM
Số trang
77
Kích thước
1.7 MB
Định dạng
PDF
Lượt xem
1118

Phương pháp học nửa giám sát và ứng dụng

Nội dung xem thử

Mô tả chi tiết

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

————————————

TRẦN ANH TUẤN

PHƯƠNG PHÁP HỌC NỬA GIÁM SÁT VÀ ỨNG DỤNG

Chuyên nghành: Khoa học máy tính

Mã số : 60.48.01

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Người hướng dẫn khoa học: PGS.TS ĐOÀN VĂN BAN

Thái nguyên – Năm 2014

- i -

MỤC LỤC

MỤC LỤC..............................................................................................................i

DANH MỤC CÁC TỪ VIẾT TẮT .....................................................................iv

DANH MỤC CÁC HÌNH..................................................................................... v

MỞ ĐẦU............................................................................................................... 1

CHƢƠNG 1: PHƢƠNG PHÁP HỌC MÁY ....................................................... 4

1.1. Khái niệm học máy .................................................................................... 4

1.2. Một số khái niệm cơ bản trong học máy.................................................... 6

1.2.1. Không gian biểu diễn của dữ liệu ....................................................... 6

1.2.2. Bản chất của dữ liệu............................................................................ 6

1.2.3. Tiền xử lý dữ liệu................................................................................ 6

1.2.4. Quá trình rời rạc hóa dữ liệu ............................................................... 7

1.2.5. Tập mẫu............................................................................................... 7

1.2.6. Quá trình tìm kiếm trong không gian giả thuyết................................. 7

1.3. Học có giám sát.......................................................................................... 8

1.3.1. Khái niệm............................................................................................ 8

1.3.2. Cách giải một bài toán học có giám sát .............................................. 9

1.3.3. Cực tiểu hóa rủi ro kinh nghiệm ....................................................... 10

1.4. Học không có giám sát............................................................................. 11

1.4.1. Khái niệm.......................................................................................... 11

1.4.2. Phân cụm dữ liệu............................................................................... 12

1.5. Học tăng cƣờng ........................................................................................ 14

1.6. Học nửa giám sát...................................................................................... 16

1.6.1. Khái niệm.......................................................................................... 16

- ii -

1.6.2. Bài toán học nửa giám sát ................................................................. 19

1.7. Tổng kết chƣơng 1 ................................................................................... 21

CHƢƠNG 2: MỘT SỐ THUẬT TOÁN HỌC NỬA GIÁM SÁT VÀ BÀI

TOÁN PHÂN CỤM DỮ LIỆU........................................................................... 22

2.1. Một số thuật toán học nửa giám sát ......................................................... 22

2.1.1. Mô hình sinh và thuật toán kỳ vọng cực đại..................................... 22

2.1.1.1. Giới thiệu mô hình sinh.............................................................. 22

2.1.1.2. Mô hình sinh trong học nửa giám sát......................................... 22

2.1.1.3. Thuật toán kỳ vọng cực đại........................................................ 24

2.1.2. Thuật toán tự huấn luyện................................................................... 25

2.1.2.1 Giới thiệu thuật toán tự huấn luyện............................................. 25

2.1.2.2. Nội dung thuật toán.................................................................... 26

2.1.3. Thuật toán đồng huấn luyện.............................................................. 27

2.1.3.1. Giới thiệu thuật toán đồng huấn luyện....................................... 27

2.1.3.2. Nội dung thuật toán.................................................................... 28

2.1.4. Thuật toán máy véc tơ hỗ trợ (S3VM).............................................. 29

2.4.1.1. Thuật toán SVM......................................................................... 29

2.1.4.2. Giới thiệu thuật toán S3VM....................................................... 34

2.1.4.3. Nội dung thuật toán S3VM........................................................ 34

2.2. Phân cụm dữ liệu...................................................................................... 36

2.2.1. Khái quát quá trình phân cụm dữ liệu............................................... 36

2.2.2. Bài toán phân cụm dữ liệu ................................................................ 36

2.2.3. Các yêu cầu của phân cụm dữ liệu.................................................... 39

2.2.4. Các kỹ thuật phân cụm...................................................................... 41

- iii -

2.2.5. Một số thuật toán phân cụm dữ liệu nửa giám sát ............................ 46

2.2.5.1. Thuật toán COP-Kmeans........................................................... 46

2.2.5.2. Phân cụm nửa giám sát trên tập dữ liệu đƣợc gán nhãn ............ 47

2.2.5.3. Thuật toán K-Means phân cấp ................................................... 49

2.3. Tổng kết chƣơng 2 ................................................................................... 50

CHƢƠNG 3: ỨNG DỤNG HỌC NỬA GIÁM SÁT VÀO BÀI TOÁN PHÂN

CỤM VĂN BẢN................................................................................................. 51

3.1. Phân tích bài toán ..................................................................................... 51

3.2 Hƣớng giải quyết của bài toán .................................................................. 53

3.3. Giải pháp, công nghệ sử dụng.................................................................. 57

3.4. Cài đặt chƣơng trình thử nghiệm ............................................................. 58

3.4.1. Nội dung chƣơng trình ...................................................................... 58

3.4.2. Kết quả thực nghiệm......................................................................... 63

3.4.3. Thực hiện phân cụm thử nghiệm ...................................................... 64

3.5. Kết luận chƣơng 3 .................................................................................... 67

KẾT LUẬN......................................................................................................... 68

TÀI LIỆU THAM KHẢO................................................................................... 70

- iv -

DANH MỤC CÁC TỪ VIẾT TẮT

SVM Support Vector Machine

S3VM Semi – superviesd Suport vector machines

EM Expectation-Maximization

MaxEnt Maximum Entropy

TSVM Transductive Support Vector Machine

RSS Residual Sum of Squares

- v -

DANH MỤC CÁC HÌNH

Hình 1.1: Mô hình học có giám sát....................................................................... 8

Hình 1.2: Minh họa phân cụm dữ liệu. ............................................................... 13

Hình 1.3: Sơ đồ quá trình thực hiện của học nửa giám sát ................................. 17

Hình 1.4: Mô hình học nửa giám sát .................................................................. 19

Hình 1.5: Dữ liệu chƣa gán nhãn sử dụng trong quá trình học nửa giám sát ..... 20

Hình 1.6: Mô hình hóa các tập dữ liệu trong học nửa giám sát.......................... 21

Hình 2.1 Dữ liệu có nhãn .................................................................................... 23

Hình 2.2 Dữ liệu có nhãn và chƣa có nhãn ......................................................... 23

Hình 2.3. Quá trình tự huấn luyện....................................................................... 26

Hình 2.4 Phân lớp SVM.................................................................................... 29

Hình 2.5: Phân cụm các vector truy vấn ............................................................. 37

Hình 2.6: Hình thành cụm cha ............................................................................ 38

Hình 2.7: Các chiến lƣợc phân cụm phân cấp ................................................... 42

Hình 2.8: Thuật toán K-Means phân cấp ............................................................ 50

Hình 3.1. Thuật toán phân cụm văn bản ............................................................. 57

Hình 3.2: Giao diện chính chƣơng trình ............................................................. 63

Hình 3.3: Thử nghiệm nhập văn bản để phân cụm............................................. 65

Hình 3.4: Thử nghiệm chèn văn bản vào danh sách chờ phân cụm ................... 66

Hình 3.5: Kết quả phân cụm thử nghiệm............................................................ 66

- 1 -

MỞ ĐẦU

1. Đặt vấn đề

Hoạt động học tập là hoạt động chuyên hƣớng vào sự tái tạo lại tri thức ở

ngƣời học. Sự tái tạo ở đây hiểu theo nghĩa là phát hiện lại. Sự thuận lợi cho

ngƣời học ở đây đó là con đƣờng đi mà để phát hiện lại đã đƣợc các nhà khoa

học tìm hiểu trƣớc, giờ ngƣời học chỉ việc tái tạo lại. Và để tái tạo lại, ngƣời học

không có cách gì khác đó là phải huy động nội lực của bản thân (động cơ, ý chí,

…), càng phát huy cao bao nhiêu thì việc tái tạo lại càng diễn ra tốt bấy nhiêu.

Do đó hoạt động học làm thay đổi chính ngƣời học. Ai học thì ngƣời đó phát

triển, không ai học thay thế đƣợc, ngƣời học cần phải có trách nhiệm với chính

bản thân mình, vì mình trong quá trình học. Mặc dù hoạt động học có thể cũng

có thể làm thay đổi khách thể. Nhƣng nhƣ thế không phải là mục đích tự thân

của hoạt động học mà chính là phƣơng tiện để đạt đƣợc mục đích làm thay đổi

chính chủ thể của hoạt động.

Hoạt động học là hoạt động tiếp thu những tri thức lý luận, khoa học.

Nghĩa là việc học không chỉ dừng lại ở việc nắm bắt những khái niệm đời

thƣờng mà học phải tiến đến những tri thức khoa học, những tri thức có tính

chọn lựa cao, đã đƣợc khái quát hoá, hệ thống hoá.

Hoạt động học tập không chỉ hƣớng vào việc tiếp thu những tri thức, kĩ

năng, kĩ xảo mà còn hƣớng vào việc tiếp thu cả những tri thức của chính bản

thân hoạt động học. Hoạt động học muốn đạt kết quả cao, ngƣời học phải biết

cách học, phƣơng pháp học, nghĩa là phải có những tri thức về chính bản thân

hoạt động học.

Vậy, việc làm thế nào để máy tính có khả năng học tập, tƣ duy và có khả

năng học tập giống con ngƣời là một lĩnh vực nghiên cứu rất đƣợc chú ý trong

thời đại hiện nay. Dựa trên khuynh hƣớng đó và sự hƣớng dẫn của PGS, TS

Tải ngay đi em, còn do dự, trời tối mất!