Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Khai phá dữ liệu văn bản bằng lý thuyết tập thô
PREMIUM
Số trang
86
Kích thước
1.3 MB
Định dạng
PDF
Lượt xem
714

Khai phá dữ liệu văn bản bằng lý thuyết tập thô

Nội dung xem thử

Mô tả chi tiết

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG

LA ĐỨC DŨNG

KHAI PHÁ DỮ LIỆU

VĂN BẢN BẰNG LÝ THUYẾT TẬP THÔ

LUẬN VĂN THẠC SỸ 0KHOA HỌC MÁY TÍNH

Thái Nguyên – 2011

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG

LA ĐỨC DŨNG

KHAI PHÁ DỮ LIỆU

VĂN BẢN BẰNG LÝ THUYẾT TẬP THÔ

LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH

Chuyên ngành: Khoa học máy tính

Mã số: 60.48.01

NGƯỜI HƯỚNG DẪN KHOA HỌC: GS.TS Vũ Đức Thi.

Thái Nguyên – 2011

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

a

MỤC LỤC

LỜI CẢM ƠN...................................................................................I

LỜI CAM ĐOAN..............................................................................II

DANH MỤC CÁC HÌNH VẼ.............................................................III

DANH MỤC CÁC BẢNG BIỂU........................................................IV

DANH MỤC CHỮ VIẾT TẮT.............................................................V

LỜI MỞ ĐẦU........................................................................................ 1

CHƢƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VĂN BẢN VÀ

LÝ THUYẾT TẬP THÔ....................................................................... 4

1.1 Khai phá dữ liệu văn bản................................................................ 4

1.1.1 Khai phá dữ liệu.......................................................................... 4

1.1.1.1 Khái niệm ............................................................................. 4

1.1.1.2 Lịch sử nghiên cứu................................................................ 5

1.1.1.3 Các khía cạnh khai phá chủ yếu ............................................ 5

1.1.1.4 Quy trình của DM................................................................. 7

1.1.1.5 Các phương pháp của DM..................................................... 7

1.1.2 Khai phá dữ liệu văn bản............................................................11

1.1.2.1 Khái niệm ............................................................................11

1.1.2.2 Các kỹ thuật khai phá văn bản..............................................13

1.2 Khai phá tri thức ứng dụng lý thuyết tập thô ...............................17

1.2.1 Khai phá tri thức theo cách tiếp cận tập thô ............................17

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

b

1.2.1.1 Một số khái niệm..................................................................17

1.2.1.1.1 Hệ thống thông tin............................................................17

1.2.1.1.2. Khái niêm về bảng quyết định………………………….19

1.2.1.1.3. Khái niệm quan hệ không phân biệt được trong hệ thông tin.20

1.2.1.1.4. Khái niệm tập các nhát cắt, nhát cắt trong bảng quyết định...22

1.2.1.2. Tập thô trong không gian xấp xỉ............................................22

1.2.1.3 Khai phá tri thức theo cách tiếp cận tập thô............................25

1.2.2 Sự rời rạc hoá dữ liệu theo cách tiếp cận tập thô ........................27

1.2.3 Lựa chọn thuộc tính dựa trên tập thô ..........................................27

1.2.4 Khám phá luật bới bảng phân bố tổng quát dựa trên tập thô .......28

1.3 Kết luận chƣơng 1 ..........................................................................29

CHƢƠNG 2. MỘT SỐ PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU TRONG

XỬ LÝ VĂN BẢN ................................................................................30

2.1. Biểu diễn văn bản ..........................................................................30

2.1.1. Biểu diễn văn bản......................................................................30

2.1.2. Các phương pháp biểu diễn văn bản..........................................30

2.1.2.1. Tiền xử lý văn bản ..............................................................30

2.1.2.2. Mô hình Logic ....................................................................32

2.1.2.3. Mô hình phân tích cú pháp.................................................34

2.1.2.4. Mô hình không gian vector .................................................35

2.1.2.5. Mô hình Boolean ................................................................36

2.1.2.6. Mô hình tần suất .................................................................37

2.1.2.7. Mô hình dựa trên tập mờ (Fuzzy Set)..................................39

2.1.2.8. Mô hình tập thô dung sai (Tolerance Rough Set Model-TRSM)

........................................................................................................41

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

c

2.2. Các thuật toán lập nhóm văn bản.................................................43

2.2.1. Thuật toán K – Means..............................................................43

2.2.2. Thuật toán lập nhóm theo cây phân cấp.....................................44

2.2.2.1. Thuật toán theo cây phân cấp từ trên xuống ( Top Down

Hierachical Clustering)....................................................................44

2.2.2.2. Thuật toán theo cây phân cấp từ dưới lên ( Bottom Up

Hierachical Clustering)....................................................................45

2.2.2.3. Giải thuật lập nhóm Non Hierachical Clustering Overlap ...45

2.2.2.4. Giải thuật lập nhóm Non Hierachical Clustering Non Overlap46

2.2.3. Xác định các thuật đại diện cho nhóm .......................................46

2.2.4. Độ tương tự giữa văn bản và nhóm văn bản ..............................47

2.3 Bài toán phân lớp văn bản .............................................................47

2.3.1 Bài toán......................................................................................47

2.3.2 Các nghiên cứu liên quan ...........................................................48

2.4 Các phƣơng pháp phân lớp............................................................49

2.4.1 Phân lớp dựa trên thuật toán Naive Bayes..................................49

2.4.2 Phương pháp K – Nearest Neighbor ( K-NN).............................51

2.4.3 Phân lớp sử dụng Support Vector Machines (SVM)...................52

2.5 Kết luận chƣơng 2 ..........................................................................54

CHƢƠNG 3. PHÂN LOẠI VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ ÁP

DỤNG LÝ THUYẾT TẬP THÔ .........................................................55

3.1 Kiến trúc hệ thống phân loại văn bản tiếng Việt tự động ............55

3.2. Các chức năng của hệ thống .........................................................56

3.2.1 Xây dựng tập văn bản dùng cho huấn luyện ...............................56

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

d

3.2.2 Xây dựng tập từ dừng, từ tầm thường.........................................56

3.2.3 Xây dựng tập thuật ngữ ..............................................................56

3.2.4 Tiền xử lý văn bản đầu vào ........................................................56

3.2.5 Huấn luyện.................................................................................57

3.2.6 Phân lớp văn bản........................................................................61

3.3 Kết luận chƣơng 3 ..........................................................................62

CHƢƠNG 4. XÂY DỰNG HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG

VIỆT THEO CHỦ ĐỀ .........................................................................63

4.1 Môi trường và nền tảng ứng dụng .................................................63

4.2 Giao diện hệ thống ........................................................................65

4.3 Kết luận chương 4.........................................................................67

PHỤ LỤC 1. DANH SÁCH CÁC TỪ DỪNG, TỪ TẦM THƢỜNG 73

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

I

LỜI CẢM ƠN

Tôi xin bày tỏ lòng biết ơn đến trường Đại học Công nghệ, Đại học Thái

Nguyên, Viện Công nghệ thông tin và các thầy cô giáo đã trực tiếp giảng dạy,

hướng dẫn tôi trong quá trình học tập và định hướng quan trọng trong việc hình

thành ý tưởng nghiên cứu.

Tôi xin chân thành cảm ơn Chi bộ, BGĐ, BCH Công đoàn, Tổ Tự nhiên

và cán bộ giáo viên, công nhân viên Trung tâm GDTX Thiệu Hóa đã động viên,

giúp đỡ và tạo điều kiện thuận lợi cho tôi trong quá trình học tập và nghiên cứu.

Đặc biệt, tôi xin bày tỏ lòng biết ơn sâu sắc GS.TS Vũ Đức Thi, người

thầy đã trực tiếp hướng dẫn và giúp đỡ tôi hoàn thành luận văn tốt nghiệp.

Xin được cảm ơn bố mẹ, anh chị em gia đình nội ngoại tạo điều kiện về

mọi mặt để bản thân hoàn thành tốt chương trình khóa học và bảo vệ luận văn

hôm nay.

Mặc dù đã có nhiều cố gắng, nhưng do thời gian có hạn và bản thân còn

những hạn chế nhất định nên luận văn không tránh khỏi thiếu sót. Mong nhận

được các ý kiến phê bình, góp ý của Hội đồng chấm luận văn, các thầy cô giáo

và đồng nghiệp để công trình nghiên cứu được hoàn chỉnh hơn.

Thái Nguyên, tháng 9 năm 2011

Tác giả

La Đức Dũng

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

II

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn này là công trình do tôi tổng hợp và nghiên cứu.

Trong luận văn có sử dụng một số tài liệu tham khảo như đã nêu trong phần

tài liệu tham khảo.

Tác giả Luận văn

La Đức Dũng

Tải ngay đi em, còn do dự, trời tối mất!