Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

các nghiên cứu tổng quan của em về Text Mining và các ứng dụng của nó về thu thập thông tin từ dữ
MIỄN PHÍ
Số trang
42
Kích thước
361.5 KB
Định dạng
PDF
Lượt xem
1461

các nghiên cứu tổng quan của em về Text Mining và các ứng dụng của nó về thu thập thông tin từ dữ

Nội dung xem thử

Mô tả chi tiết

MỤC LỤC

MỤC LỤC....................................................................................................................1

BẢNG DANH MỤC HÌNH HOẠ...............................................................................4

LỜI GIỚI THIỆU........................................................................................................5

I. Đặt vấn đề.................................................................................................................7

II. Cơ sở lý thuyết........................................................................................................8

1. Khái niệm Text Mining.......................................................................................8

a. Khai phá dữ liệu (Data Mining).....................................................................8

b. Khai phá dữ liệu văn bản (Text Mining)........................................................9

2. Bài toán phân loại văn bản (Text categorization).............................................11

a. Khái niệm phân loại văn bản .......................................................................11

b. Các phương pháp phân loại văn bản............................................................11

b.1. Sử dụng từ điển phân cấp chủ đề...........................................................12

b.1.1. Giải thuật phân lớp và phân cấp chủ đề.......................................12

b.1.2. Sự phù hợp và sự phân biệt của các trọng số...............................13

b.2. Phương pháp cây quyết định (Decision tree).........................................14

3. Bài toán thu thập thông tin (Information retrieval - IR)...................................15

a. Khái niệm thu thập thông tin........................................................................15

b. Các phương pháp thu thập thông tin............................................................17

b.1. Các phương pháp chuẩn.........................................................................17

b.1.1. Mô hình Boolean..........................................................................17

b.1.2. Mô hình không gian vec-tơ (Vector space model - VSM)..........19

b.2. Các phương pháp dựa trí tuệ nhân tạo (AI-based method)...................22

b.2.1 Kỹ thuật mạng Nơ-ron (Neural network)......................................23

4. Một số công cụ phân tích văn bản tiếng Anh...................................................27

III. Các giải pháp áp dụng cho Vietnamese Text Mining.........................................30

1. Đặc trưng của văn bản tiếng Việt.....................................................................30

a. Các đơn vị của tiếng Việt.............................................................................30

a.1. Tiếng và đặc điểm của tiếng...................................................................30

a.1.1. Tiếng và giá trị ngữ âm.................................................................30

a.1.2. Tiếng và giá trị ngữ nghĩa.............................................................30

a.1.3. Tiếng và giá trị ngữ pháp..............................................................30

a.2. Từ và các đặc điểm của từ......................................................................31

a.2.1. Từ là đơn vị nhỏ nhất để đặt câu..................................................31

a.2.2. Từ có nghĩa hoàn chỉnh và cấu tạo ổn định..................................31

a.3. Câu và các đặc điểm của câu..................................................................31

a.3.1. Câu có ý nghĩa hoàn chỉnh............................................................31

a.3.2. Câu có cấu tạo đa dạng.................................................................31

b. Các phương tiện ngữ pháp của tiếng việt....................................................32

b.1. Trong phạm vi cấu tạo từ........................................................................32

b.2. Trong phạm vi cấu tạo câu.....................................................................32

c. Từ tiếng việt..................................................................................................32

c.1. Từ đơn - từ ghép.....................................................................................32

c.2. Từ loại.....................................................................................................33

c.3. Dùng từ cấu tạo ngữ................................................................................34

d. Câu tiếng việt................................................................................................34

d.1. Câu đơn...................................................................................................35

d.2. Câu ghép.................................................................................................35

d.2.1. Câu ghép song song......................................................................36

d.2.2. Câu ghép qua lại...........................................................................36

d.2.3. Các thành phần câu.......................................................................36

e. Các đặc điểm chính tả và văn bản tiếng Việt...............................................36

2. Các giải pháp, đánh giá hiệu quả, đề ra giải pháp cho phân tích văn bản tiếng

Việt ....................................................................................................................................37

a. Bài toán phân loại văn bản tiếng Việt..........................................................37

b. Bài toán thu thập thông tin từ văn bản tiếng Việt........................................38

IV. Xây dựng thử chương trình tách thuật ngữ tiếng Việt theo phương pháp cổ điển

.................................................................................................................................................39

1. Chương trình và bài toán được giải quyết........................................................39

2. Kết quả chạy chương trình................................................................................39

TÀI LIỆU THAM KHẢO.........................................................................................40

PHỤ LỤC...................................................................................................................41

Các thông tin về báo cáo.......................................................................................41

Cách chạy chương trình demo..............................................................................41

2

TỪ ĐIỂN THUẬT NGỮ...........................................................................................42

3

BẢNG DANH MỤC HÌNH HOẠ

Hình 1: Một ví dụ về cây quyết định

Hình 2. Mô hình thu thập thông tin chuẩn

Hình 3. Đồ thị biểu diễn các vec-tơ của bài báo D1 và D2

Hình 4: Đồ thị biểu diễn quan hệ giữa truy vấn (query) và các tài liệu D1, D2

Hình 5. Mạng nơ-ron: toán tử AND (a) và toán tử OR (b)

Hình 6. Mạng nơ-ron với lớp ẩn: toán tử NOR

Hình 7: Mô hình biểu diễn mạng nơ-ron

Hình 8: Minh hoạ công cụ TextAnalyst

Hình 9: Minh hoạ công cụ TextAnalyst nhúng trên Internet Explorer

4

Tải ngay đi em, còn do dự, trời tối mất!