Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

phân loại văn bản bằng phương pháp support vector machine
PREMIUM
Số trang
99
Kích thước
1.3 MB
Định dạng
PDF
Lượt xem
1559

phân loại văn bản bằng phương pháp support vector machine

Nội dung xem thử

Mô tả chi tiết

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

----------------------------------------------

LUẬN VĂN THẠC SỸ KHOA HỌC

PHÂN LOẠI VĂN BẢN BẰNG PHƯƠNG PHÁP

SUPPORT VECTOR MACHINE

NGÀNH: CÔNG NGHỆ THÔNG TIN

MÃ SỐ:

LƯƠNG THỊ MINH HỒNG

Người hướng dẫn khoa học: TS. NGUYỄN LINH GIANG

HÀ NỘI 2006

^ ]

Luận văn Thạc sỹ

2

Support Vector Machine

MỤC LỤC

Danh mục các ký hiệu, các từ viết tắt ............................................................. 5

Danh mục các bảng.......................................................................................... 6

Danh mục các hình vẽ, đồ thị.......................................................................... 7

Mở đầu.............................................................................................................. 8

PHẦN I - CƠ SỞ LÝ THUYẾT ..................................................................... 12

CHƯƠNG 1. TÔNG QUAN VỀ KHAI PHÁ VĂN BẢN ..................... 13

1.1. Một số khái niệm ............................................................................. 13

1.2. Khai phá dữ liệu văn bản – Text Mining ..................................... 15

1.3. Phân loại văn bản ............................................................................ 19

1.4. Quy trình phân loại văn bản .......................................................... 20

1.4.1. Lưu trữ tài liệu ............................................................................... 20

1.4.2. Định dạng văn bản ......................................................................... 21

1.4.3. Cấu trúc hoá tài liệu ....................................................................... 22

1.4.4. Tách dữ liệu ................................................................................... 22

1.4.5. Giảm chiều ..................................................................................... 23

1.4.6. Mô hình hoá không gian vector ..................................................... 25

1.4.7. Giải thuật học máy ......................................................................... 26

1.4.8. Thiết lập cấu hình học máy............................................................ 26

1.4.9. Học tăng cường.............................................................................. 26

1.4.10. Hành vi giả thuyết ...................................................................... 27

CHƯƠNG 2. SUPPORT VECTOR MACHINE ................................... 28

2.1. Động cơ............................................................................................. 28

2.1.1. Học máy ......................................................................................... 28

^ ]

Luận văn Thạc sỹ

3

Support Vector Machine

2.1.2. Lý thuyết học thống kê .................................................................. 30

2.2. Nguyên lý tối thiểu hoá rủi ro cấu trúc ......................................... 33

2.3. Máy học vector hỗ trợ - SVM......................................................... 35

2.3.1. SVM với các vấn đề tuyến tính...................................................... 37

2.3.2. Trường hợp phân tách không tuyến tính........................................ 39

2.4. Một số phương pháp Kernel........................................................... 41

2.4.1. Polynomial - Phép toán đa thức..................................................... 43

2.4.2. Gaussian RBF (Radial Basis Function) ......................................... 44

2.4.3. RBF mở rộng (Exponential Radial Basis Function)...................... 44

2.4.4. Perceptron đa tầng (multi-Label Perceptron –MLP) ..................... 44

2.5. Một số vấn đề trong SVM............................................................... 45

2.5.1. Các hàm thiệt hại cho SVM........................................................... 45

2.5.2. Các vấn đề đa lớp........................................................................... 45

2.5.3. Các vấn đề phân loại đa lớp – đa nhãn .......................................... 46

2.5.4. Tối ưu hoá các siêu phẳng phân tách............................................. 46

CHƯƠNG 3: PHÂN LOẠI VĂN BẢN VỚI SVM ................................. 56

3.1. Thực hiện phân loại văn bản với SVM.......................................... 56

3.2. Ưu điểm khi sử dụng SVM phân loại văn bản ............................. 58

PHẦN II - THỬ NGHIỆM PHÂN LOẠI VĂN BẢN TRONG ORACLE

BẰNG PHƯƠNG PHÁP SVM ...................................................................... 59

CHƯƠNG 4. PHÂN LOẠI VĂN BẢN VỚI ORACLE TEXT ............ 60

4.1. Khai phá văn bản với Oracle ......................................................... 60

4.2. Phân loại văn bản trong Oracle Text ............................................ 62

4.2.1. Các ứng dụng phân loại trong Oracle Text.................................... 63

^ ]

Luận văn Thạc sỹ

4

Support Vector Machine

4.2.2. Phân loại với SVM......................................................................... 65

4.2.3. Phương pháp đánh giá.................................................................... 80

CHƯƠNG 5. TIẾN HÀNH THỬ NGHIỆM.......................................... 82

5.1. Chuẩn bị dữ liệu .............................................................................. 82

5.2. Kiểm thử với Oracle 10g................................................................. 83

5.2.1. Thử nghiệm lần 1 ........................................................................... 83

5.2.2. Thử nghiệm lần 2 ........................................................................... 87

5.2.3. Thử nghiệm lần 3 .......................................................................... 88

5.2.4. Kết quả 3 lần thử nghiệm............................................................... 89

KẾT LUẬN ..................................................................................................... 92

TÀI LIỆU THAM KHẢO .............................................................................. 95

Phụ lục 1......................................................................................................... 97

TÓM TẮT LUẬN VĂN .................................................................................. 99

^ ]

Luận văn Thạc sỹ

5

Support Vector Machine

Danh mục các ký hiệu, các từ viết tắt

Từ Tiếng Anh Tiếng Việt

CSDL Database Cơ sở dữ liệu

DF Document Frequency Tần xuất tài liệu

ERM Empirical Risk Minimization Tối thiểu hoá rủi ro theo kinh

nghiệm

IG Information Gain Thu nhận thông tin

KDD Knowledge Discovery in Database Khai phá tri thức trong CSDL

KNN K Neighbourhood Nearest K láng giêng gần nhất

ODM Oracle Data Mining Khai phá dữ liệu Oracle

SVM Support Vector Machine Máy học vector hỗ trợ

SRM Structural Risk Minimization Tối thiểu hoá rủi ro cấu trúc

VC Vapnik-Chervonenkis Chiều VC

^ ]

Luận văn Thạc sỹ

6

Support Vector Machine

Danh mục các bảng

Bảng 1.1. Bảng ngẫu nhiên cho phân loại cj và thuật ngữ fk. .................... 24

Bảng 4.1. Bảng các thuộc tính của SVM_CLASSIFIER ........................... 79

Bảng 5.1. Bảng dữ liệu thử nghiệm đã phân loại .................................... 82

Bảng 5.2. Bảng kết quả thử nghiệm lần 1 .............................................. 89

Bảng 5.3. Bảng kết quả thử nghiệm lần 2 .............................................. 90

Bảng 5.4. Bảng kết quả thử nghiệm lần 3 .............................................. 90

Bảng 5.5. Bảng tổng hợp kết quả thử nghiệm qua 3 lần........................... 90

^ ]

Luận văn Thạc sỹ

7

Support Vector Machine

Danh mục các hình vẽ, đồ thị

Hình 1.1. Các bước trong tiến trình KDD 14

Hình 1.2. Hoạt động của một bộ phân loại trên một tập tài liệu 19

Hình 2.1. Mô hình hoá các lỗi 30

Hình 2.2. Mô tả VC Dimension 32

Hình 2.3. Mô tả của phương trình 2.7. 34

Hình 2.4. Siêu phẳng phân tách tối ưu là một siêu phẳng phân tách dữ liệu

với margin lớn nhất 37

Hình 2.5. Sử dụng một hàm ánh xạ Φ vào không gian đặc trưng F có thể

được tìm thấy bằng cách sử dụng một siêu phẳng tuyến tính (bên phải). 42

Hình 2.6. Siêu phẳng phân tách tối ưu là một phân tách với lề cực đại 47

Hình 2.7. Không gian đặc trưng SV ánh xạ không gian nguồn vào một không

gian đặc trưng nhiều chiều và sau đó xây dựng một siêu phẳng tối ưu trong

không gian đặc trưng. 54

Hình 4.1 Cấu trúc cuả một ứng dụng phân loại văn bản 63

Hình 4.2. Mô hình phân loại tổng quan trong Oracle 72

Hình 4.3. Quy trình đánh chỉ số văn bản 75

^ ]

Luận văn Thạc sỹ

8

Support Vector Machine

Mở đầu

Phân loại văn bản là tiến trình xếp các tài liệu văn bản vào trong một

hoặc nhiều các phân loại hoặc lớp các tài liệu tương tự xác định trước. Sự

khác nhau trong các kết của của từng phân loại từ sự lựa chọn tập đặc trưng

tới sự kết hợp của tài liệu đã cho với một phân loại cho trước. Chủ trương của

nhận dạng phân loại văn bản xếp các tài liệu văn bản vào trong các phân loại

của các tài liệu với các yêu cầu cao hơn để thu nhận nhanh hơn các tài liệu đó

và cung cấp các lĩnh vực trong đó người dùng có thể khảo sát sâu hơn các tài

liệu tương tự. Trước đây, các hệ thống thu nhận thông tin sử dụng các biểu đồ

phân loại truyền thống trong khi hầu hết các giải thuật phân nhóm sử dụng mô

hình không gian vector để hình thức hoá các nhóm tài liệu.

Gần đây hơn, các nhà nghiên cứu đã thực hiện sử dụng các kỹ thuật học

máy để kết hợp tự động các tài liệu với các phân loại bằng cách đầu tiên sử

dụng một tập huấn luyện để thông qua bộ phân loại tới tập đặc trưng của tập

tài liệu đặc biệt. Quy trình học máy được khởi tạo bởi một một sự kiểm tra

các tài liệu mẫu để quyết định tập đặc trưng tối thiểu mà sinh ra các kết quả

phân loại mong muốn. Giai đoạn huấn luyện này có thể được kiểm soát hoặc

không kiểm soát. Trong cả hai trường hợp một tập các phân loại được định

nghĩa một quyền ưu tiên, không giống phân nhóm mà định nghĩa các phân

loại dựa trên đặc trưng của các tài liệu thực sự. Các kỹ thuật học không kiểm

soát sử dụng các đặc trưng của các tài liệu huấn luyện để cho giải thuật quyết

định phân loại mỗi tài liệu thuộc vào. Các kỹ thuật học có kiểm soát sử dụng

một tập các tài liệu huấn luyện mà đã được kết hợp trong một phân loại để

quyết định tập đặc trưng nào của các tài liệu sẽ tạo ra kết quả mong muốn.

Các kỹ thuật học máy, nếu thành công, cung cấp một ưu thế mới với các tập

tài liệu động thông qua qua mô hình không gian vector chuẩn, trong đó hướng

^ ]

Luận văn Thạc sỹ

9

Support Vector Machine

dẫn của các tài liệu mới và các tập tài liệu mới sẽ không yêu cầu xây dựng lại

các ma trận vector tài liệu.

Với số lượng thông tin ngày càng tăng được sinh ra bởi các giao dịch

thương mại và các nhà nghiên cứu có một nhu cầu cho các giải thuật chính

xác và nhanh để phân tích dữ liệu. Các cải tiến trong kỹ thuật CSDL, thực

hiện tính toán và trí tuệ nhân tạo đã xây dựng để phát triển phân tích dữ liệu

thông minh. Dữ liệu thế giới thực thường được đặc tính hoá bằng cách có các

số lớn các ví dụ, ví dụ hàng tỷ các giao dịch thẻ tín dụng ,…Quan hệ giữa các

biến dự đoán như ký hiệu vật lý và các khái niệm đích,… thường không tuyến

tính. Một kỹ thuật gần đây được phát triển để thu nhận các vấn đề đó là SVM.

SVM được phát triển như một công cụ thô để phân loại và hồi quy trong các

lĩnh vực phức tạp và đa dạng.

Các CSDL thương mại hiện đại càng phát triển đã làm tăng khả năng

phân tích. Kỹ thuật khai phá văn bản trở nên chủ yếu để phân tích khối lượng

lớn dữ liệu. Các kỹ thuật khai phá tài liệu hiện tại đã đưa ra các kết quả chính

xác cao và tổng quá hoá cho tập dữ liệu. Tuy nhiên, các kết quả thu được có

chất lượng cao yêu cầu mức độ chuyên nghiệp hơn của người dùng. SVM là

một giải thuật khai phá văn bản mạnh có thể giải quyết các vấn đề mà không

cần các phương pháp thống kê truyền thống. Tuy nhiên, vẫn còn một số giới

hạn về độ phức tạp phương pháp luận, khả năng linh hoạt, và cài đặt sản phẩm

SVM có chất lượng thấp. Luận văn này mô tả cách thực hiện của SVM nhằm

chính vào tính dễ sử dụng và khả năng linh hoạt trong khi vẫn duy trì tính

chính xác cao. SVM đã được hợp nhất vào CSDL Oracle và do đó có thể dễ

dàng khai phá văn bản trong CSDL với việc hỗ trợ dữ liệu trong CSDL hoặc

ngoài CSDL và thực hiện phân loại với bộ dữ liệu gồm nhiều phân loại và

mỗi tài liệu có thể thuộc một hoặc nhiều phân loại khác nhau.

Tải ngay đi em, còn do dự, trời tối mất!