Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Tìm hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thị
Nội dung xem thử
Mô tả chi tiết
i
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
ĐÀO THÀNH CHUYÊN
TÌM HIỂU KỸ THUẬT TÓM TẮT ĐA VĂN BẢN TIẾNG VIỆT
SỬ DỤNG MÔ HÌNH ĐỒ THỊ
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN, 2018
ii
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
ĐÀO THÀNH CHUYÊN
TÌM HIỂU KỸ THUẬT TÓM TẮT ĐA VĂN BẢN TIẾNG VIỆT
SỬ DỤNG MÔ HÌNH ĐỒ THỊ
Chuyên ngành khoa học máy tính
Mã số: 8 4 8 0 1 0 1
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: TS. Nguyễn Ngọc Cương
THÁI NGUYÊN, 2018
i
LỜI CAM ĐOAN
Em xin cam đoan tất cả các kết quả được trình bày trong luận văn: “Tìm
hiểu kỹ thuật tóm tắt đa văn bản tiếng Việt sử dụng mô hình đồ thị” là công
trình nghiên cứu của riêng em, không sao chép nguyên bản từ bất kỳ một công
trình nào khác. Các số liệu, kết quả nghiên cứu trong luận văn được sử dụng là
trung thực, đã được kiểm chứng và chưa được công bố trong bất kỳ công trình
của tác giả nào khác.
Nếu sai em xin hoàn toàn chịu trách nhiệm.
Thái Nguyên, ngày tháng năm 2018
Học viên
Đào Thành Chuyên
ii
LỜI CẢM ƠN
Trước hết em xin bày tỏ lòng biết ơn sâu sắc đến thầy giáo TS. Nguyễn
Ngọc Cương – Phó Cục trưởng cục Công nghệ thông tin, Bộ Công an là người
đã trực tiếp hướng dẫn, Nhóm của TS. Nguyễn Thị Thu Hà – Phó trưởng khoa
công nghệ thông tin, Đại học Điện lực đã chỉ bảo tận tình và hết lòng giúp đỡ
em trong suốt thời gian làm luận văn này.
Xin trân trọng cảm ơn tới Ban giám hiệu, các thầy cô giáo trường Đại
học Công nghệ thông tin và truyền thông Thái Nguyên đã chia sẻ và động viên
giúp đỡ em vượt qua mọi khó khăn để hoàn thành tốt công việc nghiên cứu của
mình.
Xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp và những người đã
luôn ủng hộ, quan tâm, giúp đỡ, động viên, tạo điều kiện tốt nhất và là chỗ dựa
vững chắc giúp em có thể hoàn thành luận văn.
Cuối cùng em xin gửi lời chúc sức khỏe và thành công tới tất cả quý thầy
cô và gia đình cùng toàn thể các bạn.
Thái Nguyên, ngày tháng năm 2018
Học viên
Đào Thành Chuyên
iii
MỤC LỤC
LỜI CAM ĐOAN .............................................................................................i
LỜI CẢM ƠN..................................................................................................ii
DANH MỤC CÁC TỪ VIẾT TẮT................................................................ v
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ.......................................................vi
DANH MỤC CÁC BẢNG BIỂU .................................................................vii
MỞ ĐẦU .......................................................................................................... 1
CHƯƠNG 1: TỔNG QUAN CÁC KỸ THUẬT TÓM TẮT ĐA VĂN BẢN
TIẾNG VIỆT................................................................................................... 6
1.1. Bài toán tóm tắt đa văn bản .................................................................... 6
1.1.1. Các khái niệm cơ bản.............................................................................. 6
1.1.2. Phân loại bài toán tóm tắt....................................................................... 6
1.2. Kỹ thuật tóm tắt đa văn bản tiếng Anh ................................................. 9
1.2.1. Tóm tắt đơn văn bản tiếng Anh............................................................... 9
1.2.2. Tóm tắt đa văn bản tiếng Anh ............................................................... 10
1.3. Kỹ thuật tóm tắt đa văn bản tiếng Việt................................................ 10
1.3.1. Tóm tắt đơn văn bản tiếng Việt............................................................. 10
1.3.2. Tóm tắt đa văn bản tiếng Việt ............................................................... 15
1.4. Kết luận chương I................................................................................... 16
CHƯƠNG 2: PHƯƠNG PHÁP TÓM TẮT VĂN BẢN DỰA TRÊN MÔ
HÌNH ĐỒ THỊ............................................................................................... 17
2.1. Hướng tiếp cận của bài toán tóm tắt đa văn bản................................ 17
2.2. Các thách thức của quá trình tóm tắt đa văn bản .............................. 18
2.3. Phân cụm các văn bản ........................................................................... 22
2.4. Xây dựng mô hình chủ đề...................................................................... 27
2.5. Tóm tắt văn bản tiếng Việt dựa trên mô hình đồ thị.......................... 31
iv
2.5.1 Trọng số câu........................................................................................... 31
2.5.2 Độ tương đồng câu................................................................................. 32
2.6. Xây dựng đồ thị tóm tắt văn bản.......................................................... 34
2.7. Phân tích thuật toán............................................................................... 38
2.8. Kết luận chương 2 .................................................................................. 43
CHƯƠNG III: XÂY DỰNG CHƯƠNG TRÌNH VÀ THỰC NGHIỆM. 44
3.1. Xây dựng chương trình ......................................................................... 44
3.1.1. Xây dựng chương trình tóm tắt văn bản tiếng Việt sử dụng mô hình đồ
thị..................................................................................................................... 44
3.1.2. Xây dựng chương trình bằng ngôn ngữ C# .......................................... 47
3.2. Thực nghiệm và đánh giá kết quả ........................................................ 53
3.2.1. Kịch bản và dữ liệu thực nghiệm .......................................................... 53
3.2.2. Kết quả thử nghiệm............................................................................... 56
3.3. Kết luận chương 3 .................................................................................. 58
KẾT LUẬN.................................................................................................... 59
1. Kết luận...................................................................................................... 59
2. Khuyến nghị............................................................................................... 60
TÀI LIỆU THAM KHẢO ............................................................................ 61
PHỤ LỤC....................................................................................................... 64
v
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt Từ gốc Nghĩa tiếng việt
MMR Maximal Maginal Relevance Tối đa
Q&A Question and Answering Hệ thống hỏi đáp tự động
DUC
Document Understanding
Conferences
Hội nghi chuyên về hiểu
văn bản
TF Term Frequency
Tần suất từ/cụm từ trong
văn bản
CST
Crossdocument Structure
Theory
Taxonomy mối quan hệ
xuyên văn bản
PMI Pointwise Mutual Information Độ đo tương hỗ giữa các từ
LSI Latent Semantic Indexing Chỉ số ngữ nghĩa ẩn
vi
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1. Các cách tiếp cận trong tóm tắt văn bản ........................................ 11
Hình 1.2. Mô hình đồ thị vô hướng................................................................. 13
Hình 2.1. Tập văn bản chưa xử lý bị nhiễu..................................................... 23
Hình 2.2. Các tập chủ đề được đặt tên và tính được xác suất........................ 24
Hình 2.3. Văn bản sau khi sử dụng công cụ tách từ ....................................... 25
Hình 2.4. Quy trình xử lý phân cụm văn bản.................................................. 26
Hình 2.5. Mô hình chủ đề dựa trên xác xuất................................................... 29
Hình 2.6. Quy trình tóm tắt văn bản tiếng Việt............................................... 34
Hình 2.7. Mô hình đồ thị trong tóm tắt văn bản tiếng Việt............................. 37
Hình 3.1. Cơ sở dữ liệu hệ thống .................................................................... 45
Hình 3.2. Chương trình tách từ Vntagger....................................................... 46
Hình 3.3. Bảng gồm các thuật ngữ được tách ra từ tập dữ liệu văn bản ....... 47
Hình 3.4. Công cụ tách từ Vntagger............................................................... 48
Hình 3.5. Các file định dạng xml được tạo ra khi thực hiện tách từ .............. 48
Hình 3.6. Kết quả của một file định dạng xml cụ thể...................................... 49
Hình 3.7. Giao diện chính của hệ thống tóm tắt văn bản tiếng Việt............... 49
Hình 3.8. Giao diện tạo tập từ chủ đề (Tập từ lõi)......................................... 50
Hình 3.9. Giao diện module từ điển................................................................ 50
Hình 3.10. Giao diện module huấn luyện ....................................................... 51
Hình 3.11. Giao diện module tóm tắt văn bản................................................ 52
Hình 3.12. Giao diện thông tin của câu.......................................................... 52
Hình 3.13. Giao diện thông tin độ tương đồng của câu ................................. 53
Hình 3.14. Những văn bản không cho ra kết quả tóm tắt............................... 54
Hình 3.15. Độ tương đồng không thể hiện khi không có kết quả tóm tắt ....... 55
Hình 3.16. Thông tin câu thể hiện rõ các thông số khi có kết quả tóm tắt..... 55