Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Tìm hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thị
PREMIUM
Số trang
80
Kích thước
2.8 MB
Định dạng
PDF
Lượt xem
1773

Tìm hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thị

Nội dung xem thử

Mô tả chi tiết

i

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

ĐÀO THÀNH CHUYÊN

TÌM HIỂU KỸ THUẬT TÓM TẮT ĐA VĂN BẢN TIẾNG VIỆT

SỬ DỤNG MÔ HÌNH ĐỒ THỊ

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN, 2018

ii

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

ĐÀO THÀNH CHUYÊN

TÌM HIỂU KỸ THUẬT TÓM TẮT ĐA VĂN BẢN TIẾNG VIỆT

SỬ DỤNG MÔ HÌNH ĐỒ THỊ

Chuyên ngành khoa học máy tính

Mã số: 8 4 8 0 1 0 1

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS. Nguyễn Ngọc Cương

THÁI NGUYÊN, 2018

i

LỜI CAM ĐOAN

Em xin cam đoan tất cả các kết quả được trình bày trong luận văn: “Tìm

hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thị” là công

trình nghiên cứu của riêng em, không sao chép nguyên bản từ bất kỳ một công

trình nào khác. Các số liệu, kết quả nghiên cứu trong luận văn được sử dụng là

trung thực, đã được kiểm chứng và chưa được công bố trong bất kỳ công trình

của tác giả nào khác.

Nếu sai em xin hoàn toàn chịu trách nhiệm.

Thái Nguyên, ngày tháng năm 2018

Học viên

Đào Thành Chuyên

ii

LỜI CẢM ƠN

Trước hết em xin bày tỏ lòng biết ơn sâu sắc đến thầy giáo TS. Nguyễn

Ngọc Cương – Phó Cục trưởng cục Công nghệ thông tin, Bộ Công an là người

đã trực tiếp hướng dẫn, Nhóm của TS. Nguyễn Thị Thu Hà – Phó trưởng khoa

công nghệ thông tin, Đại học Điện lực đã chỉ bảo tận tình và hết lòng giúp đỡ

em trong suốt thời gian làm luận văn này.

Xin trân trọng cảm ơn tới Ban giám hiệu, các thầy cô giáo trường Đại

học Công nghệ thông tin và truyền thông Thái Nguyên đã chia sẻ và động viên

giúp đỡ em vượt qua mọi khó khăn để hoàn thành tốt công việc nghiên cứu của

mình.

Xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp và những người đã

luôn ủng hộ, quan tâm, giúp đỡ, động viên, tạo điều kiện tốt nhất và là chỗ dựa

vững chắc giúp em có thể hoàn thành luận văn.

Cuối cùng em xin gửi lời chúc sức khỏe và thành công tới tất cả quý thầy

cô và gia đình cùng toàn thể các bạn.

Thái Nguyên, ngày tháng năm 2018

Học viên

Đào Thành Chuyên

iii

MỤC LỤC

LỜI CAM ĐOAN .............................................................................................i

LỜI CẢM ƠN..................................................................................................ii

DANH MỤC CÁC TỪ VIẾT TẮT................................................................ v

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ.......................................................vi

DANH MỤC CÁC BẢNG BIỂU .................................................................vii

MỞ ĐẦU .......................................................................................................... 1

CHƯƠNG 1: TỔNG QUAN CÁC KỸ THUẬT TÓM TẮT ĐA VĂN BẢN

TIẾNG VIỆT................................................................................................... 6

1.1. Bài toán tóm tắt đa văn bản .................................................................... 6

1.1.1. Các khái niệm cơ bản.............................................................................. 6

1.1.2. Phân loại bài toán tóm tắt....................................................................... 6

1.2. Kỹ thuật tóm tắt đa văn bản tiếng Anh ................................................. 9

1.2.1. Tóm tắt đơn văn bản tiếng Anh............................................................... 9

1.2.2. Tóm tắt đa văn bản tiếng Anh ............................................................... 10

1.3. Kỹ thuật tóm tắt đa văn bản tiếng Việt................................................ 10

1.3.1. Tóm tắt đơn văn bản tiếng Việt............................................................. 10

1.3.2. Tóm tắt đa văn bản tiếng Việt ............................................................... 15

1.4. Kết luận chương I................................................................................... 16

CHƯƠNG 2: PHƯƠNG PHÁP TÓM TẮT VĂN BẢN DỰA TRÊN MÔ

HÌNH ĐỒ THỊ............................................................................................... 17

2.1. Hướng tiếp cận của bài toán tóm tắt đa văn bản................................ 17

2.2. Các thách thức của quá trình tóm tắt đa văn bản .............................. 18

2.3. Phân cụm các văn bản ........................................................................... 22

2.4. Xây dựng mô hình chủ đề...................................................................... 27

2.5. Tóm tắt văn bản tiếng Việt dựa trên mô hình đồ thị.......................... 31

iv

2.5.1 Trọng số câu........................................................................................... 31

2.5.2 Độ tương đồng câu................................................................................. 32

2.6. Xây dựng đồ thị tóm tắt văn bản.......................................................... 34

2.7. Phân tích thuật toán............................................................................... 38

2.8. Kết luận chương 2 .................................................................................. 43

CHƯƠNG III: XÂY DỰNG CHƯƠNG TRÌNH VÀ THỰC NGHIỆM. 44

3.1. Xây dựng chương trình ......................................................................... 44

3.1.1. Xây dựng chương trình tóm tắt văn bản tiếng Việt sử dụng mô hình đồ

thị..................................................................................................................... 44

3.1.2. Xây dựng chương trình bằng ngôn ngữ C# .......................................... 47

3.2. Thực nghiệm và đánh giá kết quả ........................................................ 53

3.2.1. Kịch bản và dữ liệu thực nghiệm .......................................................... 53

3.2.2. Kết quả thử nghiệm............................................................................... 56

3.3. Kết luận chương 3 .................................................................................. 58

KẾT LUẬN.................................................................................................... 59

1. Kết luận...................................................................................................... 59

2. Khuyến nghị............................................................................................... 60

TÀI LIỆU THAM KHẢO ............................................................................ 61

PHỤ LỤC....................................................................................................... 64

v

DANH MỤC CÁC TỪ VIẾT TẮT

Từ viết tắt Từ gốc Nghĩa tiếng việt

MMR Maximal Maginal Relevance Tối đa

Q&A Question and Answering Hệ thống hỏi đáp tự động

DUC

Document Understanding

Conferences

Hội nghi chuyên về hiểu

văn bản

TF Term Frequency

Tần suất từ/cụm từ trong

văn bản

CST

Crossdocument Structure

Theory

Taxonomy mối quan hệ

xuyên văn bản

PMI Pointwise Mutual Information Độ đo tương hỗ giữa các từ

LSI Latent Semantic Indexing Chỉ số ngữ nghĩa ẩn

vi

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1. Các cách tiếp cận trong tóm tắt văn bản ........................................ 11

Hình 1.2. Mô hình đồ thị vô hướng................................................................. 13

Hình 2.1. Tập văn bản chưa xử lý bị nhiễu..................................................... 23

Hình 2.2. Các tập chủ đề được đặt tên và tính được xác suất........................ 24

Hình 2.3. Văn bản sau khi sử dụng công cụ tách từ ....................................... 25

Hình 2.4. Quy trình xử lý phân cụm văn bản.................................................. 26

Hình 2.5. Mô hình chủ đề dựa trên xác xuất................................................... 29

Hình 2.6. Quy trình tóm tắt văn bản tiếng Việt............................................... 34

Hình 2.7. Mô hình đồ thị trong tóm tắt văn bản tiếng Việt............................. 37

Hình 3.1. Cơ sở dữ liệu hệ thống .................................................................... 45

Hình 3.2. Chương trình tách từ Vntagger....................................................... 46

Hình 3.3. Bảng gồm các thuật ngữ được tách ra từ tập dữ liệu văn bản ....... 47

Hình 3.4. Công cụ tách từ Vntagger............................................................... 48

Hình 3.5. Các file định dạng xml được tạo ra khi thực hiện tách từ .............. 48

Hình 3.6. Kết quả của một file định dạng xml cụ thể...................................... 49

Hình 3.7. Giao diện chính của hệ thống tóm tắt văn bản tiếng Việt............... 49

Hình 3.8. Giao diện tạo tập từ chủ đề (Tập từ lõi)......................................... 50

Hình 3.9. Giao diện module từ điển................................................................ 50

Hình 3.10. Giao diện module huấn luyện ....................................................... 51

Hình 3.11. Giao diện module tóm tắt văn bản................................................ 52

Hình 3.12. Giao diện thông tin của câu.......................................................... 52

Hình 3.13. Giao diện thông tin độ tương đồng của câu ................................. 53

Hình 3.14. Những văn bản không cho ra kết quả tóm tắt............................... 54

Hình 3.15. Độ tương đồng không thể hiện khi không có kết quả tóm tắt ....... 55

Hình 3.16. Thông tin câu thể hiện rõ các thông số khi có kết quả tóm tắt..... 55

Tải ngay đi em, còn do dự, trời tối mất!