Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Cải Tiến Chất Lượng Dịch Máy Thống Kê Anh Việt Dựa Vào Đảo Trật Tự Từ Theo Cây Cú Pháp Phụ Thuộc
PREMIUM
Số trang
146
Kích thước
6.5 MB
Định dạng
PDF
Lượt xem
1982

Cải Tiến Chất Lượng Dịch Máy Thống Kê Anh Việt Dựa Vào Đảo Trật Tự Từ Theo Cây Cú Pháp Phụ Thuộc

Nội dung xem thử

Mô tả chi tiết

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

———————

TRẦN HỒNG VIỆT

CẢI TIẾN CHẤT LƯỢNG DỊCH MÁY

THỐNG KÊ ANH-VIỆT DỰA VÀO ĐẢO TRẬT TỰ TỪ

THEO CÂY CÚ PHÁP PHỤ THUỘC

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Hà Nội - 2019

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

———————

TRẦN HỒNG VIỆT

CẢI TIẾN CHẤT LƯỢNG DỊCH MÁY

THỐNG KÊ ANH-VIỆT DỰA VÀO ĐẢO TRẬT TỰ TỪ

THEO CÂY CÚ PHÁP PHỤ THUỘC

Chuyên ngành: Khoa học máy tính

Mã số: 9 48 01 01 01

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1. TS. Nguyễn Văn Vinh

2. PGS.TS. Nguyễn Lê Minh

Hà Nội - 2019

Lời cam đoan

Tôi xin cam đoan luận án này là kết quả nghiên cứu của tôi, được thực hiện

dưới sự hướng dẫn của TS. Nguyễn Văn Vinh và PGS.TS. Nguyễn Lê Minh.

Các nội dung trích dẫn từ các nghiên cứu của các tác giả khác trình bày trong

luận án này được ghi rõ nguồn trong phần tài liệu tham khảo.

Trần Hồng Việt

TÓM TẮT

Đảo trật tự từ là một trong các vấn đề quan trọng của dịch máy liên

quan đến việc làm thế nào để sinh ra thứ tự các từ (cụm từ) chính xác trong

ngôn ngữ đích. Trong hệ dịch máy thống kê dựa trên cụm từ (Phrase-Based

Statistical Machine Translation - PBSMT)(Koehn và cộng sự, 2003; Och và

Ney, 2004) [59, 89], việc đảo cụm từ vẫn còn đơn giản và chất lượng chưa cao.

Bên cạnh đó, do các ngôn ngữ có nhiều đặc điểm khác nhau (đặc biệt sự khác

nhau về thứ tự từ trong các ngôn ngữ) dẫn tới không thể mô hình hóa chính

xác trong quá trình dịch [89]. Nhiều hướng nghiên cứu giải quyết vấn đề sắp

xếp lại trật tự từ bên trong hệ thống dịch máy thống kê dựa trên cụm từ. Một

số nghiên cứu theo hướng tiếp cận tiền xử lý cho vấn đề sắp xếp lại trật tự từ

cho kết quả tốt, đảm bảo cân bằng giữa chất lượng dịch và thời gian giải mã

qua thực hiện tiền xử lý quá trình sắp xếp lại.

Với ưu điểm của cấu trúc cây cú pháp phụ thuộc: kết nối tất cả các từ trong

một câu với khả năng nắm bắt phụ thuộc giữa các từ xa nhau với các cấu trúc

phụ thuộc địa phương cũng như sự tương ứng chặt chẽ với ngữ nghĩa, luận

án tập trung nghiên cứu đề tài: "Cải tiến chất lượng dịch máy thống kê

Anh-Việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc".

Luận án tập trung giải quyết các tồn tại đã nêu thông qua bài toán: sắp

xếp lại các từ của câu cần dịch trong ngôn ngữ nguồn theo thứ tự gần nhất

có thể với câu được dịch trong ngôn ngữ đích. Các đề xuất này thực hiện như

bước tiền xử lý sử dụng cây cú pháp phụ thuộc đối với ngôn ngữ nguồn để

đưa vào hệ dịch thống kê dựa trên cụm từ nhằm cải tiến chất lượng dịch máy.

Kết quả dịch từ tiếng Anh sang tiếng Việt với bộ dữ liệu IWSLT 2015 trên hệ

thống của chúng tôi tốt hơn hai hệ thống dịch phổ biến nhất hiện nay là NMT

và PBSMT.

Đóng góp của luận án cụ thể như sau:

2

• Thứ nhất, luận án đề xuất các luật đảo trật tự từ thủ công từ việc lựa

chọn các đặc trưng về ngôn ngữ trên cây cú pháp phụ thuộc. Từ đó áp

dụng phương pháp đảo trật tự từ để nâng cao chất lượng hệ thống dịch

máy Anh-Việt.

• Thứ hai, luận án đề xuất phương pháp xây dựng luật đảo trật tự từ tự

động. Chúng tôi coi việc xây dựng luật đảo trật tự từ như vấn đề học

máy trong việc dự đoán chính xác vị trí các thành phần của luật để đoán

thứ tự đúng các câu trong ngôn ngữ nguồn tương ứng với thứ tự câu ở

ngôn ngữ đích. Với hai đề xuất gồm:

– Khai thác các đặc trưng về ngôn ngữ và đề xuất phương pháp sử

dụng các bộ phân lớp để giải quyết bài toán đảo trật tự từ. Cụ thể

là xác định thứ tự đúng của các phân lớp quan hệ giữa cụm cha-con

trên cây phân tích phụ thuộc biểu diễn câu đầu vào.

– Bằng việc khai thác quan hệ các cặp từ trên cây phân tích phụ thuộc

và ưu điểm của việc biểu diễn dưới dạng word embedding, luận án

đề xuất phương pháp sử dụng mạng nơ-ron để giải quyết bài toán

đảo trật tự từ câu nguồn theo thứ tự từ câu đích trước khi đưa vào

hệ dịch để nâng cao chất lượng dịch.

• Thứ ba, luận án đưa ra phân tích ảnh hưởng của các lỗi phân tích cú

pháp đến chất lượng dịch qua việc áp dụng các luật đảo trật tự từ đối

với câu nguồn. Các phân tích này mang lại lợi ích cho việc cải tiến các

phương pháp đảo trật tự từ dựa trên cú pháp và phát triển việc phân tích

cú pháp phụ thuộc, đặc biệt với ngôn ngữ tiếng Việt.

Từ khóa: dịch máy, dịch máy thống kê, tiền xử lý cú pháp, cú pháp phụ

thuộc, dịch máy thống kê dựa trên cụm từ.

3

Mục lục

Lời cảm ơn 8

Danh mục các chữ viết tắt 9

Danh sách hình vẽ 10

Danh sách bảng 13

Lời mở đầu 16

1 Tổng quan các vấn đề liên quan luận án 22

1.1 Tổng quan về dịch máy . . . . . . . . . . . . . . . . . . . . . . . . 22

1.2 Dịch máy thống kê . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1.2.1 Cơ sở toán học . . . . . . . . . . . . . . . . . . . . . . . . 25

1.2.2 Cấu trúc hệ thống dịch máy . . . . . . . . . . . . . . . . . 27

1.3 Dịch máy mạng nơ-ron . . . . . . . . . . . . . . . . . . . . . . . . 29

1.4 Phân tích cú pháp phụ thuộc . . . . . . . . . . . . . . . . . . . . 31

1.5 Vấn đề đảo trật tự từ trong dịch máy . . . . . . . . . . . . . . . 35

1.5.1 Sự khác nhau về thứ tự từ giữa các ngôn ngữ . . . . . . . 35

1.5.2 Đảo trật tự từ trong dịch máy . . . . . . . . . . . . . . . 36

1.6 Bài toán đảo trật tự từ trong mô hình dịch máy dựa trên cụm từ 37

1.6.1 Mô hình dịch máy dựa trên cụm từ . . . . . . . . . . . . 37

1.6.2 Bài toán đảo trật từ tự dựa trên tiền xử lý . . . . . . . . 39

4

1.7 Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . 43

1.7.1 Sử dụng các luật thủ công cho vấn đề tiền xử lý . . . . . 44

1.7.2 Sử dụng các luật tự động cho vấn đề tiền xử lý . . . . . . 45

1.8 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

2 Phương pháp dựa vào luật thủ công cho bài toán đảo trật tự

từ trong dịch máy thống kê 48

2.1 Phương pháp tiền xử lý cho bài toán đảo trật tự từ trong dịch

máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2.2 Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . 50

2.3 Tiền xử lý cú pháp phụ thuộc cho dịch máy thống kê . . . . . . 52

2.3.1 Phân tích hiện tượng ngôn ngữ và vấn đề sắp xếp lại . . 52

2.3.2 Luật chuyển đổi trật tự từ . . . . . . . . . . . . . . . . . . 55

2.3.3 Tập các luật đảo trật tự từ thủ công . . . . . . . . . . . . 57

2.3.4 Tập dữ liệu và cài đặt thực nghiệm . . . . . . . . . . . . . 59

2.3.5 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . 62

2.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3 Phương pháp sử dụng luật trích xuất tự động bằng các bộ

phân lớp quan hệ 65

3.1 Tiền xử lý dựa trên phân lớp cho dịch máy dựa trên cụm từ . . 65

3.1.1 Vấn đề tiền xử lý dựa trên phân lớp . . . . . . . . . . . . 66

3.1.2 Đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

3.1.3 Mô hình phân lớp . . . . . . . . . . . . . . . . . . . . . . . 70

3.2 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

3.2.1 Tập dữ liệu và cấu hình thực nghiệm . . . . . . . . . . . . 73

3.2.2 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . 74

3.3 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5

4 Phương pháp sử dụng mạng nơ-ron kết hợp các thông tin ngữ

cảnh 79

4.1 Thông tin ngữ cảnh từ word embedding . . . . . . . . . . . . . . 79

4.2 Mô hình đảo dựa trên mạng nơ-ron sử dụng cây cú pháp phụ

thuộc cho dịch máy thống kê . . . . . . . . . . . . . . . . . . . . . 81

4.2.1 Đặc trưng cho phân lớp và huấn luyện mô hình . . . . . 82

4.2.2 Khung làm việc cho đảo trật tự từ . . . . . . . . . . . . . 87

4.3 Thực nghiệm về phương pháp sử dụng mạng nơ-ron kết hợp

thông tin ngữ cảnh . . . . . . . . . . . . . . . . . . . . . . . . . . 90

4.4 Phân tích và thảo luận . . . . . . . . . . . . . . . . . . . . . . . . 93

4.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

5 Ảnh hưởng của cây cú pháp phụ thuộc đến chất lượng dịch

máy Anh-Việt 96

5.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

5.2 Phân tích cú pháp phụ thuộc . . . . . . . . . . . . . . . . . . . . 97

5.2.1 Bài toán phân tích cú pháp phụ thuộc . . . . . . . . . . . 98

5.2.2 Định dạng dữ liệu theo chuẩn CoNLL . . . . . . . . . . . 98

5.2.3 Sử dụng tập nhãn cho cú pháp phụ thuộc . . . . . . . . . 100

5.3 Ảnh hưởng của lỗi phân tích cú pháp phụ thuộc tới chất lượng

dịch máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

5.3.1 Phương pháp phân tích lỗi . . . . . . . . . . . . . . . . . . 102

5.3.2 Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

5.3.3 Phân tích nguyên nhân gây lỗi đảo trật tự từ . . . . . . . 108

5.4 Đánh giá kết quả dịch và độ chính xác cây cú pháp phụ thuộc . 110

5.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

Kết luận 114

6

Danh mục công trình khoa học của tác giả liên quan đến luận án117

Tài liệu tham khảo 119

7

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn sâu sắc đến TS. Nguyễn Văn Vinh và PGS.TS. Nguyễn

Lê Minh, hai Thầy đã trực tiếp hướng dẫn, chỉ bảo tận tình, luôn hỗ trợ và

tạo những điều kiện tốt nhất cho tôi trong quá trình học tập và nghiên cứu.

Tôi xin gửi lời cảm ơn đến các Thầy/Cô giáo ở Khoa Công nghệ thông tin,

Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, đặc biệt là các Thầy/Cô

giáo ở Bộ môn Khoa học máy tính, những người đã trực tiếp giảng dạy và giúp

đỡ tôi trong quá trình học tập và nghiên cứu ở trường.

Tôi xin gửi cảm ơn đến GS.TS. Nguyễn Thanh Thủy, PGS. TS. Lê Sỹ

Vinh, PGS.TS. Nguyễn Phương Thái, PGS.TS. Phan Xuân Hiếu, TS. Trần

Quốc Long, TS. Bùi Ngọc Thăng (Trường Đại học Công nghệ, Đại học Quốc

gia Hà Nội), PGS.TS. Lê Thanh Hương (Trường Đại học Bách khoa Hà Nội),

TS. Nguyễn Thị Minh Huyền (Trường Đại học Khoa học Tự nhiên, Đại học

Quốc gia Hà Nội), TS. Ngô Xuân Bách (Học viện Công nghệ Bưu chính Viễn

thông), TS. Nguyễn Việt Anh (Viện Công nghệ thông tin, Viện Hàn lâm Khoa

học và Công nghệ Việt Nam) các Thầy/Cô đã có những góp ý chỉnh sửa để tôi

hoàn thiện luận án.

Tôi xin gửi lời cảm ơn đến tất cả anh, chị, em và bạn bè đồng nghiệp ở Bộ

môn Khoa học máy tính (Khoa Công nghệ thông tin, Trường Đại học Công

nghệ, Đại học Quốc gia Hà Nội) đã giúp đỡ tôi trong thời gian làm nghiên cứu

sinh.

Cuối cùng, tôi xin gửi lời cảm ơn đến tất cả các thành viên trong gia đình

đã luôn ủng hộ, chia sẻ, động viên và khích lệ tôi học tập, nghiên cứu.

8

Danh mục các chữ viết tắt

MT Machine Translation (Dịch máy)

NLP Natural Language Processing (Xử lý ngôn ngữ tự nhiên)

POS-tags Part Of Speech tags (Nhãn từ loại)

SMT Statistical Machine Translation (Dịch máy thống kê)

PBSMT Phrase-Based Statistical Machine Translation

(Dịch máy dựa trên cụm từ)

NMT Neural Machine Translation (Dịch máy mạng nơ-ron)

BLEU BiLingual Evaluation Understudy (Đánh giá độ hiểu ngữ liệu)

SVM Support Vector Machine (Máy véc-tơ hỗ trợ)

ME Maximum Entropy (Độ hỗn loạn cực đại)

WEKA Waikato Environment for Knowledge Analysis

(Môi trường Waikato cho phân tích tri thức)

9

Danh sách hình vẽ

1.1 Sơ đồ hình tháp thể hiện các hệ thống dịch máy khác nhau. . . 23

1.2 Kiến trúc cơ bản của hệ thống dịch máy thống kê . . . . . . . . 27

1.3 Các bước xây dựng hệ thống dịch máy thống kê dựa trên cụm từ 28

1.4 Hệ thống dịch máy mạng nơ-ron . . . . . . . . . . . . . . . . . . 30

1.5 Biểu diễn đồ thị cây phân tích phụ thuộc với các nhãn quan hệ. 33

1.6 Biểu diễn dạng cây với dữ liệu phụ thuộc định dạng CoNLL. . . 33

1.7 Ví dụ về mô hình dịch máy dựa trên cụm từ cho dịch từ ngôn

ngữ tiếng Pháp sang tiếng Anh. . . . . . . . . . . . . . . . . . . . 37

1.8 Kiến trúc của mô hình dịch dựa trên cụm từ . . . . . . . . . . . 38

1.9 Ví dụ về việc chuyển đổi các gióng hàng từ với việc đảo trật tự từ. 40

1.10 Các bước thực hiện trong hệ thống áp dụng phương pháp tiền

xử lý. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

1.11 Kiến trúc hệ thống trong luận án. . . . . . . . . . . . . . . . . . . 43

2.1 Ví dụ về tiền xử lý cho cặp ngôn ngữ Anh-Việt. . . . . . . . . . 49

2.2 Ví dụ về POS tags và phân tích cú pháp phụ thuộc cho tiếng Anh. 50

2.3 Ví dụ về POS tags và phân tích cú pháp phụ thuộc cho tiếng Việt. 51

2.4 Ví dụ về phân tích cú pháp phụ thuộc cho câu tiếng Anh sử

dụng công cụ phân tích của Stanford. . . . . . . . . . . . . . . . 51

2.5 Một số ví dụ về đặc trưng ngôn ngữ tiếng Việt. . . . . . . . . . . 53

10

2.6 Ví dụ về hiện tượng ngôn ngữ trong cụm danh từ với amod và

det. Trong ví dụ này, danh từ “computer” được đảo với tính từ

“personal” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.7 Ví dụ về hiện tượng ngôn ngữ trong cụm tính từ với advmod và

det . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

2.8 Ví dụ cây phân tích tiếng Việt với thông tin từ loại POS tags,

các nhãn phụ thuộc và gióng hàng từ. . . . . . . . . . . . . . . . 55

2.9 Ví dụ áp dụng luật đảo trật tự từ thủ công trong việc sắp xếp

lại thứ tự từ trong câu. . . . . . . . . . . . . . . . . . . . . . . . . 57

2.10 Một phần khảo sát về vị trí từ loại và các nhãn trong việc sắp

xếp lại thứ tự từ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

2.11 Thuật toán sinh luật đảo trật tự từ sử dụng Pos-tags và nhãn

phụ thuộc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

2.12 Các luật thủ công cho việc đảo trật tự từ tiếng Anh sang tiếng

Việt sử dụng tiền xử lý trên cây cú pháp phụ thuộc. . . . . . . . 61

3.1 Ví dụ về mô hình học máy dựa trên phân lớp. . . . . . . . . . . 66

3.2 Một ví dụ về quan hệ giữa các cụm trên cây phân tích phụ thuộc. 67

3.3 Cây phân tích phụ thuộc tiếng Anh. . . . . . . . . . . . . . . . . 68

3.4 Thuật toán trích xuất tự động các luật sử dụng cây cú pháp phụ

thuộc các câu nguồn và cặp gióng hàng từ . . . . . . . . . . . . . 72

3.5 Thuật toán sắp xếp lại câu nguồn sử dụng các luật trích xuất

tự động. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

3.6 Thống kê về quan hệ giữa nút cha với nút con trên ngữ liệu song

ngữ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

3.7 Thống kê về quan hệ giữa nút cha với hai nút con trên ngữ liệu

song ngữ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

4.1 Một ví dụ về về biểu diễn word embedding . . . . . . . . . . . . 80

11

4.2 Ví dụ về mô hình phân lớp quan hệ. . . . . . . . . . . . . . . . . 82

4.3 Mô hình đảo cho dịch máy thống kê Anh-Việt sử dụng mạng

nơ-ron với cây phân tích phụ thuộc . . . . . . . . . . . . . . . . . 83

4.4 Các đặc trưng cho quan hệ head-child trong mô hình phân lớp . 84

4.5 Các đặc trưng cho quan hệ sibling trong mô hình phân lớp . . . 85

4.6 Khung làm việc cho quá trình tiền xử lý câu nguồn từ dữ liệu

song ngữ Anh-Việt. . . . . . . . . . . . . . . . . . . . . . . . . . . 86

4.7 Thuật toán xây dựng mô hình huấn luyện cho mạng. . . . . . . 88

4.8 Thuật toán sắp xếp lại để xây dựng đảo trật tự từ câu nguồn. . 89

4.9 Quá trình sắp xếp lại sau khi áp dụng phương pháp phân lớp. . 90

5.1 Mô hình bài toán tổng quát về phân tích cú pháp phụ thuộc . . 98

5.2 So sánh tập nhãn phụ thuộc giữa tiếng Việt và tiếng Anh. . . . 103

5.3 Mô tả phương pháp phân tích lỗi. . . . . . . . . . . . . . . . . . . 104

5.4 Kết quả đánh giá dựa trên độ đo Kendall’s tau . . . . . . . . . . 107

5.5 Bảng thống kê độ chính xác phân tích cú pháp phụ thuộc tiếng

Việt sử dụng công cụ phân tích cú pháp phụ thuộc JPTDP. . . 109

5.6 Ví dụ về lỗi từ loại khi so sánh dữ liệu thống kê giữa cây được

sinh ra với cây được sinh từ dữ liệu chuẩn. . . . . . . . . . . . . 110

5.7 Ví dụ về lỗi do xác định sai loại phụ thuộc nút gốc khi so sánh

dữ liệu thống kê giữa cây được sinh ra với cây được sinh từ dữ

liệu chuẩn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

5.8 Ảnh hưởng của cây cú pháp phụ thuộc đến chất lượng hệ dịch

trên kho ngữ liệu song ngữ Anh-Việt. . . . . . . . . . . . . . . . . 112

5.9 Thống kê các ngôn ngữ SVO (chủ ngữ, động từ, tân ngữ) . . . . 134

5.10 Thống kê các ngôn ngữ với từ loại Tính từ, Danh từ . . . . . . . 135

5.11 Thống kê các ngôn ngữ với cụm từ bổ nghĩa, cụm danh từ . . . 136

5.12 Thống kê các ngôn ngữ với Danh từ, mệnh đề quan hệ . . . . . 136

12

Tải ngay đi em, còn do dự, trời tối mất!