Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nghiên Cứu Các Phương Pháp Tính Toán Độ Tương Tự Của Văn Bản Luật Tiếng Việt
PREMIUM
Số trang
53
Kích thước
1.7 MB
Định dạng
PDF
Lượt xem
1110

Nghiên Cứu Các Phương Pháp Tính Toán Độ Tương Tự Của Văn Bản Luật Tiếng Việt

Nội dung xem thử

Mô tả chi tiết

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN ĐÌNH MẠNH

NGHIÊN CỨU CÁC PHƯƠNG PHÁP

TÍNH TOÁN ĐỘ TƯƠNG TỰ CỦA VĂN BẢN LUẬT

TIẾNG VIỆT

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

HÀ NỘI, 12/2020

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN ĐÌNH MẠNH

NGHIÊN CỨU CÁC PHƯƠNG PHÁP

TÍNH TOÁN ĐỘ TƯƠNG TỰ CỦA VĂN BẢN LUẬT

TIẾNG VIỆT

Ngành: Khoa học máy tính

Chuyên ngành: Khoa học máy tính

Mã Số: 8480101.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN PHƯƠNG THÁI

HÀ NỘI, 12/2020

MỤC LỤC

MỤC LỤC.......................................................................................................................3

LỜI CẢM ƠN .................................................................................................................6

LỜI CAM ĐOAN ...........................................................................................................7

DANH MỤC KÝ HIỆU, VIẾT TẮT..............................................................................8

DANH MỤC CÁC BẢNG .............................................................................................9

DANH MỤC ĐỒ THỊ, HÌNH VẼ ................................................................................10

MỞ ĐẦU.......................................................................................................................11

CHƯƠNG 1. GIỚI THIỆU...........................................................................................12

1.1. Lý do chọn đề tài.........................................................................................12

1.2. Mục đích đề tài............................................................................................12

1.3. Đối tượng đề tài...........................................................................................13

1.4. Phương pháp nghiên cứu.............................................................................13

CHƯƠNG 2. KIẾN THỨC NỀN TẢNG .....................................................................14

2.1. Đặc điểm của văn bản tiếng Việt ................................................................14

2.1.1. Cấu tạo từ tiếng Việt.............................................................................14

2.1.2. Biến hình từ tiếng Việt .........................................................................15

2.1.3. Từ đồng nghĩa.......................................................................................15

2.1.4. Đặc điểm chính tả.................................................................................15

2.2. Đặc điểm của văn bản Luật tiếng Việt........................................................16

2.3. Sự khác nhau giữa văn bản tiếng Việt và văn bản luật tiếng Việt ..............17

2.4. Tổng quan về bài toán đô độ tương tự văn bản...........................................17

2.4.1. Khái niệm về độ tương tự văn bản .......................................................17

2.4.2. Ứng dụng của bài toán đo độ tương tự giữa hai văn bản. ....................18

2.5. Phương pháp dựa trên thống kê. .................................................................18

4

2.5.1. Khái niệm .............................................................................................18

2.5.2. Độ đo tương tự Jaccard ........................................................................19

2.5.3. Độ đo TF-IDF.......................................................................................19

2.6. Phương pháp dựa trên mạng nơron học sâu................................................19

2.6.1. Khái niệm học sâu ................................................................................19

2.6.2. Một số ứng dụng của học sâu (Deep Learning) ...................................20

2.6.3. Một số phương pháp theo hướng tiếp cận học sâu...............................22

2.6.3.1. Mô hình biểu diễn từ bằng vector (Word2Vec). ..................................22

2.6.3.2. Học chuyển (Transfer Learning)..........................................................29

CHƯƠNG 3. CÁC PHƯƠNG PHÁP ĐO ĐỘ TƯƠNG TỰ GIỮA CÁC VĂN BẢN 33

3.1. Tiền xử lý dữ liệu ........................................................................................33

3.2. Vector hóa văn bản và tính độ tương tự văn bản ........................................33

3.2.1. Mộ số phương pháp theo tiếp cận thống kê .........................................33

3.2.2. Phương pháp học sâu............................................................................38

3.2.2.1. Sử dụng Word2Vec ..............................................................................38

3.2.2.2. Học biểu diễn vector cho các văn bản..................................................39

3.2.2.3. Áp dụng học chuyển (transfer learning) để tăng chất lượng vector biểu

diễn văn bản.............................................................................................................40

3.3. Đánh giá mô hình ........................................................................................40

CHƯƠNG 4. THỰC NGHIỆM VÀ KẾT QUẢ...........................................................42

4.1. Môi trường thực nghiệm và các công cụ sử dụng trong thực nghiệm ........42

4.2. Dữ liệu.........................................................................................................42

4.2.1. Thu thập dữ liệu....................................................................................42

4.2.2. Xử lý dữ liệu.........................................................................................43

4.3. Thực nghiệm ...............................................................................................43

5

4.3.1. Thực nghiệm với Phương pháp Jacard.................................................44

4.3.2. Thực nghiệm với phương pháp TF-IDF...............................................44

4.3.3. Thực nghiệm với phương pháp Word2Vec..........................................44

4.3.4. Thực nghiệm với phương pháp Doc2Vec ............................................45

4.3.5. Phương pháp học chuyển .....................................................................45

4.4. Kết quả ........................................................................................................45

4.4.1. Đánh giá các phương pháp trên văn bản tiếng Anh .............................45

4.4.2. Đánh giá các phương pháp với truy vấn là 1 văn bản ..........................45

4.4.3. Đánh giá các phương pháp với truy vấn là 1 đoạn văn ngắn. ..............49

CHƯƠNG 5: KẾT LUẬN VÀ CÔNG VIỆC TRONG TƯƠNG LAI.........................51

5.1. Kết luận .......................................................................................................51

5.2. Công việc trong tương lai............................................................................51

TÀI LIỆU THAM KHẢO.............................................................................................52

Tải ngay đi em, còn do dự, trời tối mất!