Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

TÍNH TOÁN ĐỘ TƯƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƯƠNG TỰ GIỮA TỪ VỚI TỪ
PREMIUM
Số trang
69
Kích thước
1.3 MB
Định dạng
PDF
Lượt xem
1622

TÍNH TOÁN ĐỘ TƯƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƯƠNG TỰ GIỮA TỪ VỚI TỪ

Nội dung xem thử

Mô tả chi tiết

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

-------------------------

Đỗ Thị Thanh Nga

TÍNH TOÁN ĐỘ TƯƠNG TỰ NGỮ NGHĨA VĂN BẢN

DỰA VÀO ĐỘ TƯƠNG TỰ GIỮA TỪ VỚI TỪ

LUẬN VĂN THẠC SĨ

HÀ NỘI - 2010

LỜI CẢM ƠN

Trước tiên, tôi xin được bày tỏ sự trân trọng và lòng biết ơn đối với TS. Nguyễn

Phương Thái, giảng viên Bộ môn Khoa học máy tính - Khoa Công nghệ thông tin -

Trường Đại học Công nghệ - ĐHQGHN. Trong thời gian làm luận văn tốt nghiệp, thầy

đã dành nhiều thời gian quí báu và tận tình chỉ bảo, hướng dẫn tôi trong việc nghiên

cứu, thực hiện luận văn.

Tôi xin được cảm ơn các GS, TS đã giảng dạy tôi trong quá trình học tập và làm

luận văn. Các thầy đã giúp tôi hiểu thấu đáo hơn lĩnh vực mà mình nghiên cứu để có

thể vận dụng các kiến thức đó vào trong công tác của mình.

Xin cảm ơn các bạn bè, đồng nghiệp và nhất là các thành viên trong gia đình đã

tạo mọi điều kiện tốt nhất, động viên, cổ vũ tôi trong suốt quá trình học tập và nghiên

cứu để hoàn thành tốt bản luận văn tốt nghiệp này.

Tuy đã có những cố gắng nhất định nhưng do thời gian và trình độ có hạn nên

chắc chắn luận văn này còn nhiều thiếu sót và hạn chế. Kính mong nhận được sự góp ý

của thầy cô và các bạn.

Hà Nội, ngày 20 tháng 09 năm 2010

Học viên

Đỗ Thị Thanh Nga

LỜI CAM ĐOAN

Tôi xin cam đoan rằng, đây là công trình nghiên cứu của tôi trong đó có sự giúp

đỡ rất lớn của thầy hướng dẫn và các đồng nghiệp ở cơ quan. Các nội dung nghiên cứu

và kết quả trong đề tài này là hoàn toàn trung thực.

Trong luận văn, tôi có tham khảo đến một số tài liệu của một số tác giả đã được

liệt kê tại phần Tài liệu tham khảo ở cuối luận văn.

Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định

cho lời cam đoan của mình.

Hà Nội, ngày 20 tháng 09 năm 2010

Học viên

Đỗ Thị Thanh Nga

MỤC LỤC

DANH MỤC CÁC BẢNG..................................................................................................... 1

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ................................................................................. 2

MỞ ĐẦU............................................................................................................................... 3

CHƯƠNG I. KHÁI NIỆM ĐỘ TƯƠNG TỰ.......................................................................... 5

1.1. Tổng quan về độ tương tự............................................................................................ 5

1.2. Khái niệm độ tương tự................................................................................................. 6

1.2.1. Định nghĩa độ tương tự (Definition of Similarity) ................................................ 7

1.2.2. Độ tương tự giữa các giá trị có thứ tự ưu tiên (ordinal values).............................. 8

1.2.3. Độ tương tự chuỗi (String Similarity-A case study).............................................. 9

1.3. Độ tương tự ngữ nghĩa............................................................................................... 10

CHƯƠNG II. ĐỘ TƯƠNG TỰ TỪ-TỪ............................................................................... 11

2.1. Khái niệm từ, thuật ngữ............................................................................................. 11

2.1.1. Từ và cấu trúc từ của tiếng Việt .......................................................................... 11

2.1.1.1. Định nghĩa từ............................................................................................... 11

2.1.1.2. Cấu trúc từ của tiếng Việt ............................................................................ 11

2.1.2. Nghĩa của từ ....................................................................................................... 12

2.1.3. Thuật ngữ (terms)............................................................................................... 12

2.2. Từ đồng nghĩa ........................................................................................................... 12

2.3. Các cách tiếp cận xử lý tài liệu theo ngữ nghĩa .......................................................... 14

2.3.1. Dựa trên trí tuệ nhân tạo (AI-based).................................................................... 14

2.3.2. Dựa trên Cơ sở tri thức (Knowledge-based)........................................................ 14

2.3.3. Dựa trên ngữ liệu (Corpus-based) ....................................................................... 14

2.4. Độ tương tự ngữ nghĩa từ-từ dựa trên cơ sở tri thức (từ điển WordNet)...................... 15

2.4.1. Khái quát về từ điển WordNet ............................................................................ 15

2.4.2. Độ tương tự từ-từ dựa trên từ điển WordNet....................................................... 16

2.5. Độ tương tự ngữ nghĩa từ-từ dựa trên ngữ liệu........................................................... 17

2.5.1. PMI (Pointwise Mutual Information) (Thông tin chung dựa trên điểm)............... 18

2.5.2. LSA (Latent Semantic Analysis) (Phân tích ngữ nghĩa ẩn).................................. 18

2.5.3. Phương pháp của Dekang Lin ............................................................................. 18

CHƯƠNG III. ĐỘ TƯƠNG TỰ VĂN BẢN-VĂN BẢN ..................................................... 21

3.1. Xử lý văn bản tiếng Việt............................................................................................ 21

3.1.1. Một số kết quả đã đạt được................................................................................. 21

3.1.2. Đặc trưng của cấu trúc ngữ pháp tiếng Việt ........................................................ 23

3.2. Tách từ trong văn bản tiếng Việt................................................................................ 23

3.3. Các hướng tiếp cận tách từ ........................................................................................ 24

3.3.1. Các hướng tiếp cận dựa trên “từ” ....................................................................... 24

3.3.2. Các hướng tiếp cận dựa trên ký tự...................................................................... 25

3.4. Một số phương pháp tách từ tiếng Việt hiện nay........................................................ 26

3.4.1. Phương pháp Maximum Matching: Forward/Backward ..................................... 26

3.4.2. Phương pháp Transformation-based Learning (TBL) ......................................... 27

3.4.3. Mô hình tách từ bằng WFST và mạng Neural .................................................... 27

3.4.3.1. Tầng WFST ................................................................................................. 27

3.4.3.2. Tầng mạng Neural ....................................................................................... 28

3.4.4. Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di

truyền........................................................................................................................... 28

3.4.4.1. Online Extractor........................................................................................... 28

3.4.4.2. GA Engine for Text Segmentation ............................................................... 29

3.4.5. Nhận xét............................................................................................................. 29

3.5. Độ tương tự văn bản-văn bản..................................................................................... 30

CHƯƠNG IV. TÍNH ĐỘ TƯƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƯƠNG

TỰ GIỮA TỪ VỚI TỪ........................................................................................................ 33

3.1. Phát biểu bài toán...................................................................................................... 33

3.2. Giải quyết bài toán .................................................................................................... 33

3.2.1. Chuẩn bị dữ liệu ................................................................................................. 33

3.2.2. Tách từ: Tách văn bản thành các từ ghép và danh từ riêng ................................. 36

3.2.2.1. Tách từ ghép trong văn bản.......................................................................... 36

3.2.2.2. Tách danh từ riêng trong văn bản ................................................................. 39

3.2.3. Tính toán độ tương tự văn bản ............................................................................ 41

3.3. Xây dựng hệ thống .................................................................................................... 44

3.3.1. Nhập trực tiếp 2 văn bản .................................................................................... 45

3.3.2. Nhập 2 văn bản từ file ........................................................................................ 46

3.3.3. Lấy nội dung 2 văn bản từ URL ......................................................................... 47

3.4. Kết quả thử nghiệm và đánh giá ................................................................................ 48

3.4.1. Một số ví dụ cụ thể ............................................................................................. 48

3.4.2. Kết quả thử nghiệm ............................................................................................ 54

3.4.2.1. Cách tiến hành ............................................................................................. 54

3.4.2.2. Kết quả thử nghiệm...................................................................................... 54

3.4.3. Đánh giá ............................................................................................................. 59

KẾT LUẬN ......................................................................................................................... 61

HƯỚNG PHÁT TRIỂN....................................................................................................... 62

TÀI LIỆU THAM KHẢO.................................................................................................... 63

1

DANH MỤC CÁC BẢNG

Bảng Trang

Bảng 1. Tần suất xuất hiện độ dài từ tiếng Việt trên trang Vdict.com 11

Bảng 2. Mô tả các bộ ba của từ “giàu” 19

Bảng 3. Các điểm khác biệt chính giữa tiếng Việt và tiếng Anh 24

Bảng 4. Địa chỉ của 20 tin tức trên một số trang Web 54

Bảng 5. Một số kết quả độ tương tự của hai file bất kỳ 55

Bảng 6. Kết quả đánh giá 20 tin tức do người và máy thực hiện 56

Bảng 7. Địa chỉ của 30 tin rao vặt trên các trang Web 56

Bảng 8. Một số kết quả độ tương tự của hai tin rao vặt bất kỳ 58

Bảng 9. Kết quả đánh giá 30 tin rao vặt do người và máy thực hiện 59

Tải ngay đi em, còn do dự, trời tối mất!