Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Tóm tắt văn bản dựa vào trích xuất câu
PREMIUM
Số trang
57
Kích thước
1.4 MB
Định dạng
PDF
Lượt xem
781

Tóm tắt văn bản dựa vào trích xuất câu

Nội dung xem thử

Mô tả chi tiết

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NÔNG TIẾN CÔNG

TÓM TẮT VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

LẠNG SƠN, 2018

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NÔNG TIẾN CÔNG

TÓM TẮT VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU

Chuyên ngành: Khoa học máy tính

Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: PGS-TS Đoàn Văn Ban

LẠNG SƠN, 2018

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn là sản phẩm nghiên cứu, tìm hiểu của cá nhân

tôi. Những điều được trình bày trong luận văn hoặc là của cá nhân tôi hoặc là

được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất

xứ rõ ràng và được trích dẫn hợp pháp.

Tôi xin hoàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định

cho lời cam đoan của mình.

Lạng Sơn, tháng 4 năm 2018

TÁC GIẢ LUẬN VĂN

Nông Tiến Công

i

MỤC LỤC

MỤC LỤC..........................................................................................................i

DANH MỤC CÁC HÌNH................................................................................iii

DANH MỤC CÁC BẢNG...............................................................................iv

MỞ ĐẦU........................................................................................................... 1

Chương 1 TÓM TẮT VĂN BẢN TIẾNG VIỆT.............................................. 2

1.1. Bài toán tóm tắt văn bản ................................................................. 2

1.1.1. Phân loại tóm tắt ....................................................................... 2

1.1.3. Mô hình tóm tắt văn bản và một số phương pháp tiếp cận ...... 5

1.2. Các phương pháp đánh giá ............................................................. 9

1.2.1. Các phương pháp đánh giá trong........................................... 10

1.2.2. Các phương pháp đánh giá ngoài ........................................... 11

1.3. Tóm tắt văn bản tiếng Việt dựa vào trích xuất câu và một số vấn đề

liên quan........................................................................................ 12

1.3.1. Đặc điểm ngôn ngữ trong văn bản tiếng Việt......................... 12

1.3.2. Một số hướng tiếp cận bài toán tóm tắt văn bản tiếng Việt ... 15

1.3.3. Mô hình tóm tắt văn bản tiếng Việt dựa vào trích xuất câu ... 17

1.4. Tổng kết chương ........................................................................... 18

Chương 2 PHƯƠNG PHÁP TÓM TẮT VĂN BẢN DỰA TRÊN ĐỘ TƯƠNG

ĐỒNG CÂU........................................................................................ 19

2.1. Một số khái niệm và phương pháp tính độ tương đồng câu ......... 19

2.1.1. Độ tương đồng ........................................................................ 19

ii

2.1.2. Độ tương đồng ngữ nghĩa và phương pháp trích xuất câu dựa

trên độ tương đồng ngữ nghĩa câu. ........................................................... 20

2.1.3. Tính độ tương đồng theo độ đo Cosine .................................. 21

2.1.4. Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn ...... 22

2.1.5. Phương pháp tính độ tương đồng câu dựa vào mạng Wikipedia

................................................................................................................... 25

2.2. Mô hình tóm tắt văn bản tiếng Việt dựa trên trích xuất câu quan

trọng theo phương pháp tính độ tương đồng câu.......................... 28

2.2.1. Giai đoạn tiền xử lý ................................................................ 29

2.2.2. Giai tạo danh sách câu khả dụng ............................................ 32

2.2.3. Giai đoạn sinh văn bản tóm tắt ............................................... 34

2.3. Tổng kết chương ........................................................................... 34

Chương 3 THỰC NGHIỆM MÔ HÌNH TÓM TẮT VĂN BẢN TIẾNG VIỆT

............................................................................................................. 35

3.1. Môi trường thực nghiệm............................................................... 35

3.2. Chương trình tóm tắt văn bản ....................................................... 35

3.3. Tiến hành thực nghiệm ................................................................. 37

3.3.1. Cơ sở dữ liệu tổng thể............................................................. 37

3.3.2. Mô hình suy luận chủ đề ẩn.................................................... 37

3.3.3. Dữ liệu thực nghiệm ............................................................... 38

3.3.4. Đánh giá độ chính xác của mô hình tóm tắt văn bản ............. 38

3.4. Tổng kết chương ........................................................................... 46

KẾT LUẬN..................................................................................................... 47

TÀI LIỆU THAM KHẢO............................................................................... 48

Tải ngay đi em, còn do dự, trời tối mất!