Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Cải Tiến Chất Lượng Dịch Máy Thống Kê Anh Việt Dựa Vào Đảo Trật Tự Từ Theo Cây Cú Pháp Phụ Thuộc
Nội dung xem thử
Mô tả chi tiết
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
———————
TRẦN HỒNG VIỆT
CẢI TIẾN CHẤT LƯỢNG DỊCH MÁY
THỐNG KÊ ANH-VIỆT DỰA VÀO ĐẢO TRẬT TỰ TỪ
THEO CÂY CÚ PHÁP PHỤ THUỘC
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Hà Nội - 2019
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
———————
TRẦN HỒNG VIỆT
CẢI TIẾN CHẤT LƯỢNG DỊCH MÁY
THỐNG KÊ ANH-VIỆT DỰA VÀO ĐẢO TRẬT TỰ TỪ
THEO CÂY CÚ PHÁP PHỤ THUỘC
Chuyên ngành: Khoa học máy tính
Mã số: 9 48 01 01 01
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. TS. Nguyễn Văn Vinh
2. PGS.TS. Nguyễn Lê Minh
Hà Nội - 2019
Lời cam đoan
Tôi xin cam đoan luận án này là kết quả nghiên cứu của tôi, được thực hiện
dưới sự hướng dẫn của TS. Nguyễn Văn Vinh và PGS.TS. Nguyễn Lê Minh.
Các nội dung trích dẫn từ các nghiên cứu của các tác giả khác trình bày trong
luận án này được ghi rõ nguồn trong phần tài liệu tham khảo.
Trần Hồng Việt
TÓM TẮT
Đảo trật tự từ là một trong các vấn đề quan trọng của dịch máy liên
quan đến việc làm thế nào để sinh ra thứ tự các từ (cụm từ) chính xác trong
ngôn ngữ đích. Trong hệ dịch máy thống kê dựa trên cụm từ (Phrase-Based
Statistical Machine Translation - PBSMT)(Koehn và cộng sự, 2003; Och và
Ney, 2004) [59, 89], việc đảo cụm từ vẫn còn đơn giản và chất lượng chưa cao.
Bên cạnh đó, do các ngôn ngữ có nhiều đặc điểm khác nhau (đặc biệt sự khác
nhau về thứ tự từ trong các ngôn ngữ) dẫn tới không thể mô hình hóa chính
xác trong quá trình dịch [89]. Nhiều hướng nghiên cứu giải quyết vấn đề sắp
xếp lại trật tự từ bên trong hệ thống dịch máy thống kê dựa trên cụm từ. Một
số nghiên cứu theo hướng tiếp cận tiền xử lý cho vấn đề sắp xếp lại trật tự từ
cho kết quả tốt, đảm bảo cân bằng giữa chất lượng dịch và thời gian giải mã
qua thực hiện tiền xử lý quá trình sắp xếp lại.
Với ưu điểm của cấu trúc cây cú pháp phụ thuộc: kết nối tất cả các từ trong
một câu với khả năng nắm bắt phụ thuộc giữa các từ xa nhau với các cấu trúc
phụ thuộc địa phương cũng như sự tương ứng chặt chẽ với ngữ nghĩa, luận
án tập trung nghiên cứu đề tài: "Cải tiến chất lượng dịch máy thống kê
Anh-Việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc".
Luận án tập trung giải quyết các tồn tại đã nêu thông qua bài toán: sắp
xếp lại các từ của câu cần dịch trong ngôn ngữ nguồn theo thứ tự gần nhất
có thể với câu được dịch trong ngôn ngữ đích. Các đề xuất này thực hiện như
bước tiền xử lý sử dụng cây cú pháp phụ thuộc đối với ngôn ngữ nguồn để
đưa vào hệ dịch thống kê dựa trên cụm từ nhằm cải tiến chất lượng dịch máy.
Kết quả dịch từ tiếng Anh sang tiếng Việt với bộ dữ liệu IWSLT 2015 trên hệ
thống của chúng tôi tốt hơn hai hệ thống dịch phổ biến nhất hiện nay là NMT
và PBSMT.
Đóng góp của luận án cụ thể như sau:
2
• Thứ nhất, luận án đề xuất các luật đảo trật tự từ thủ công từ việc lựa
chọn các đặc trưng về ngôn ngữ trên cây cú pháp phụ thuộc. Từ đó áp
dụng phương pháp đảo trật tự từ để nâng cao chất lượng hệ thống dịch
máy Anh-Việt.
• Thứ hai, luận án đề xuất phương pháp xây dựng luật đảo trật tự từ tự
động. Chúng tôi coi việc xây dựng luật đảo trật tự từ như vấn đề học
máy trong việc dự đoán chính xác vị trí các thành phần của luật để đoán
thứ tự đúng các câu trong ngôn ngữ nguồn tương ứng với thứ tự câu ở
ngôn ngữ đích. Với hai đề xuất gồm:
– Khai thác các đặc trưng về ngôn ngữ và đề xuất phương pháp sử
dụng các bộ phân lớp để giải quyết bài toán đảo trật tự từ. Cụ thể
là xác định thứ tự đúng của các phân lớp quan hệ giữa cụm cha-con
trên cây phân tích phụ thuộc biểu diễn câu đầu vào.
– Bằng việc khai thác quan hệ các cặp từ trên cây phân tích phụ thuộc
và ưu điểm của việc biểu diễn dưới dạng word embedding, luận án
đề xuất phương pháp sử dụng mạng nơ-ron để giải quyết bài toán
đảo trật tự từ câu nguồn theo thứ tự từ câu đích trước khi đưa vào
hệ dịch để nâng cao chất lượng dịch.
• Thứ ba, luận án đưa ra phân tích ảnh hưởng của các lỗi phân tích cú
pháp đến chất lượng dịch qua việc áp dụng các luật đảo trật tự từ đối
với câu nguồn. Các phân tích này mang lại lợi ích cho việc cải tiến các
phương pháp đảo trật tự từ dựa trên cú pháp và phát triển việc phân tích
cú pháp phụ thuộc, đặc biệt với ngôn ngữ tiếng Việt.
Từ khóa: dịch máy, dịch máy thống kê, tiền xử lý cú pháp, cú pháp phụ
thuộc, dịch máy thống kê dựa trên cụm từ.
3
Mục lục
Lời cảm ơn 8
Danh mục các chữ viết tắt 9
Danh sách hình vẽ 10
Danh sách bảng 13
Lời mở đầu 16
1 Tổng quan các vấn đề liên quan luận án 22
1.1 Tổng quan về dịch máy . . . . . . . . . . . . . . . . . . . . . . . . 22
1.2 Dịch máy thống kê . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.2.1 Cơ sở toán học . . . . . . . . . . . . . . . . . . . . . . . . 25
1.2.2 Cấu trúc hệ thống dịch máy . . . . . . . . . . . . . . . . . 27
1.3 Dịch máy mạng nơ-ron . . . . . . . . . . . . . . . . . . . . . . . . 29
1.4 Phân tích cú pháp phụ thuộc . . . . . . . . . . . . . . . . . . . . 31
1.5 Vấn đề đảo trật tự từ trong dịch máy . . . . . . . . . . . . . . . 35
1.5.1 Sự khác nhau về thứ tự từ giữa các ngôn ngữ . . . . . . . 35
1.5.2 Đảo trật tự từ trong dịch máy . . . . . . . . . . . . . . . 36
1.6 Bài toán đảo trật tự từ trong mô hình dịch máy dựa trên cụm từ 37
1.6.1 Mô hình dịch máy dựa trên cụm từ . . . . . . . . . . . . 37
1.6.2 Bài toán đảo trật từ tự dựa trên tiền xử lý . . . . . . . . 39
4
1.7 Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . 43
1.7.1 Sử dụng các luật thủ công cho vấn đề tiền xử lý . . . . . 44
1.7.2 Sử dụng các luật tự động cho vấn đề tiền xử lý . . . . . . 45
1.8 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2 Phương pháp dựa vào luật thủ công cho bài toán đảo trật tự
từ trong dịch máy thống kê 48
2.1 Phương pháp tiền xử lý cho bài toán đảo trật tự từ trong dịch
máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.2 Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . 50
2.3 Tiền xử lý cú pháp phụ thuộc cho dịch máy thống kê . . . . . . 52
2.3.1 Phân tích hiện tượng ngôn ngữ và vấn đề sắp xếp lại . . 52
2.3.2 Luật chuyển đổi trật tự từ . . . . . . . . . . . . . . . . . . 55
2.3.3 Tập các luật đảo trật tự từ thủ công . . . . . . . . . . . . 57
2.3.4 Tập dữ liệu và cài đặt thực nghiệm . . . . . . . . . . . . . 59
2.3.5 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . 62
2.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3 Phương pháp sử dụng luật trích xuất tự động bằng các bộ
phân lớp quan hệ 65
3.1 Tiền xử lý dựa trên phân lớp cho dịch máy dựa trên cụm từ . . 65
3.1.1 Vấn đề tiền xử lý dựa trên phân lớp . . . . . . . . . . . . 66
3.1.2 Đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.1.3 Mô hình phân lớp . . . . . . . . . . . . . . . . . . . . . . . 70
3.2 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.2.1 Tập dữ liệu và cấu hình thực nghiệm . . . . . . . . . . . . 73
3.2.2 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . 74
3.3 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5
4 Phương pháp sử dụng mạng nơ-ron kết hợp các thông tin ngữ
cảnh 79
4.1 Thông tin ngữ cảnh từ word embedding . . . . . . . . . . . . . . 79
4.2 Mô hình đảo dựa trên mạng nơ-ron sử dụng cây cú pháp phụ
thuộc cho dịch máy thống kê . . . . . . . . . . . . . . . . . . . . . 81
4.2.1 Đặc trưng cho phân lớp và huấn luyện mô hình . . . . . 82
4.2.2 Khung làm việc cho đảo trật tự từ . . . . . . . . . . . . . 87
4.3 Thực nghiệm về phương pháp sử dụng mạng nơ-ron kết hợp
thông tin ngữ cảnh . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.4 Phân tích và thảo luận . . . . . . . . . . . . . . . . . . . . . . . . 93
4.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5 Ảnh hưởng của cây cú pháp phụ thuộc đến chất lượng dịch
máy Anh-Việt 96
5.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.2 Phân tích cú pháp phụ thuộc . . . . . . . . . . . . . . . . . . . . 97
5.2.1 Bài toán phân tích cú pháp phụ thuộc . . . . . . . . . . . 98
5.2.2 Định dạng dữ liệu theo chuẩn CoNLL . . . . . . . . . . . 98
5.2.3 Sử dụng tập nhãn cho cú pháp phụ thuộc . . . . . . . . . 100
5.3 Ảnh hưởng của lỗi phân tích cú pháp phụ thuộc tới chất lượng
dịch máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.3.1 Phương pháp phân tích lỗi . . . . . . . . . . . . . . . . . . 102
5.3.2 Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5.3.3 Phân tích nguyên nhân gây lỗi đảo trật tự từ . . . . . . . 108
5.4 Đánh giá kết quả dịch và độ chính xác cây cú pháp phụ thuộc . 110
5.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Kết luận 114
6
Danh mục công trình khoa học của tác giả liên quan đến luận án117
Tài liệu tham khảo 119
7
LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc đến TS. Nguyễn Văn Vinh và PGS.TS. Nguyễn
Lê Minh, hai Thầy đã trực tiếp hướng dẫn, chỉ bảo tận tình, luôn hỗ trợ và
tạo những điều kiện tốt nhất cho tôi trong quá trình học tập và nghiên cứu.
Tôi xin gửi lời cảm ơn đến các Thầy/Cô giáo ở Khoa Công nghệ thông tin,
Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, đặc biệt là các Thầy/Cô
giáo ở Bộ môn Khoa học máy tính, những người đã trực tiếp giảng dạy và giúp
đỡ tôi trong quá trình học tập và nghiên cứu ở trường.
Tôi xin gửi cảm ơn đến GS.TS. Nguyễn Thanh Thủy, PGS. TS. Lê Sỹ
Vinh, PGS.TS. Nguyễn Phương Thái, PGS.TS. Phan Xuân Hiếu, TS. Trần
Quốc Long, TS. Bùi Ngọc Thăng (Trường Đại học Công nghệ, Đại học Quốc
gia Hà Nội), PGS.TS. Lê Thanh Hương (Trường Đại học Bách khoa Hà Nội),
TS. Nguyễn Thị Minh Huyền (Trường Đại học Khoa học Tự nhiên, Đại học
Quốc gia Hà Nội), TS. Ngô Xuân Bách (Học viện Công nghệ Bưu chính Viễn
thông), TS. Nguyễn Việt Anh (Viện Công nghệ thông tin, Viện Hàn lâm Khoa
học và Công nghệ Việt Nam) các Thầy/Cô đã có những góp ý chỉnh sửa để tôi
hoàn thiện luận án.
Tôi xin gửi lời cảm ơn đến tất cả anh, chị, em và bạn bè đồng nghiệp ở Bộ
môn Khoa học máy tính (Khoa Công nghệ thông tin, Trường Đại học Công
nghệ, Đại học Quốc gia Hà Nội) đã giúp đỡ tôi trong thời gian làm nghiên cứu
sinh.
Cuối cùng, tôi xin gửi lời cảm ơn đến tất cả các thành viên trong gia đình
đã luôn ủng hộ, chia sẻ, động viên và khích lệ tôi học tập, nghiên cứu.
8
Danh mục các chữ viết tắt
MT Machine Translation (Dịch máy)
NLP Natural Language Processing (Xử lý ngôn ngữ tự nhiên)
POS-tags Part Of Speech tags (Nhãn từ loại)
SMT Statistical Machine Translation (Dịch máy thống kê)
PBSMT Phrase-Based Statistical Machine Translation
(Dịch máy dựa trên cụm từ)
NMT Neural Machine Translation (Dịch máy mạng nơ-ron)
BLEU BiLingual Evaluation Understudy (Đánh giá độ hiểu ngữ liệu)
SVM Support Vector Machine (Máy véc-tơ hỗ trợ)
ME Maximum Entropy (Độ hỗn loạn cực đại)
WEKA Waikato Environment for Knowledge Analysis
(Môi trường Waikato cho phân tích tri thức)
9
Danh sách hình vẽ
1.1 Sơ đồ hình tháp thể hiện các hệ thống dịch máy khác nhau. . . 23
1.2 Kiến trúc cơ bản của hệ thống dịch máy thống kê . . . . . . . . 27
1.3 Các bước xây dựng hệ thống dịch máy thống kê dựa trên cụm từ 28
1.4 Hệ thống dịch máy mạng nơ-ron . . . . . . . . . . . . . . . . . . 30
1.5 Biểu diễn đồ thị cây phân tích phụ thuộc với các nhãn quan hệ. 33
1.6 Biểu diễn dạng cây với dữ liệu phụ thuộc định dạng CoNLL. . . 33
1.7 Ví dụ về mô hình dịch máy dựa trên cụm từ cho dịch từ ngôn
ngữ tiếng Pháp sang tiếng Anh. . . . . . . . . . . . . . . . . . . . 37
1.8 Kiến trúc của mô hình dịch dựa trên cụm từ . . . . . . . . . . . 38
1.9 Ví dụ về việc chuyển đổi các gióng hàng từ với việc đảo trật tự từ. 40
1.10 Các bước thực hiện trong hệ thống áp dụng phương pháp tiền
xử lý. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
1.11 Kiến trúc hệ thống trong luận án. . . . . . . . . . . . . . . . . . . 43
2.1 Ví dụ về tiền xử lý cho cặp ngôn ngữ Anh-Việt. . . . . . . . . . 49
2.2 Ví dụ về POS tags và phân tích cú pháp phụ thuộc cho tiếng Anh. 50
2.3 Ví dụ về POS tags và phân tích cú pháp phụ thuộc cho tiếng Việt. 51
2.4 Ví dụ về phân tích cú pháp phụ thuộc cho câu tiếng Anh sử
dụng công cụ phân tích của Stanford. . . . . . . . . . . . . . . . 51
2.5 Một số ví dụ về đặc trưng ngôn ngữ tiếng Việt. . . . . . . . . . . 53
10
2.6 Ví dụ về hiện tượng ngôn ngữ trong cụm danh từ với amod và
det. Trong ví dụ này, danh từ “computer” được đảo với tính từ
“personal” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.7 Ví dụ về hiện tượng ngôn ngữ trong cụm tính từ với advmod và
det . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.8 Ví dụ cây phân tích tiếng Việt với thông tin từ loại POS tags,
các nhãn phụ thuộc và gióng hàng từ. . . . . . . . . . . . . . . . 55
2.9 Ví dụ áp dụng luật đảo trật tự từ thủ công trong việc sắp xếp
lại thứ tự từ trong câu. . . . . . . . . . . . . . . . . . . . . . . . . 57
2.10 Một phần khảo sát về vị trí từ loại và các nhãn trong việc sắp
xếp lại thứ tự từ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.11 Thuật toán sinh luật đảo trật tự từ sử dụng Pos-tags và nhãn
phụ thuộc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.12 Các luật thủ công cho việc đảo trật tự từ tiếng Anh sang tiếng
Việt sử dụng tiền xử lý trên cây cú pháp phụ thuộc. . . . . . . . 61
3.1 Ví dụ về mô hình học máy dựa trên phân lớp. . . . . . . . . . . 66
3.2 Một ví dụ về quan hệ giữa các cụm trên cây phân tích phụ thuộc. 67
3.3 Cây phân tích phụ thuộc tiếng Anh. . . . . . . . . . . . . . . . . 68
3.4 Thuật toán trích xuất tự động các luật sử dụng cây cú pháp phụ
thuộc các câu nguồn và cặp gióng hàng từ . . . . . . . . . . . . . 72
3.5 Thuật toán sắp xếp lại câu nguồn sử dụng các luật trích xuất
tự động. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.6 Thống kê về quan hệ giữa nút cha với nút con trên ngữ liệu song
ngữ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.7 Thống kê về quan hệ giữa nút cha với hai nút con trên ngữ liệu
song ngữ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.1 Một ví dụ về về biểu diễn word embedding . . . . . . . . . . . . 80
11
4.2 Ví dụ về mô hình phân lớp quan hệ. . . . . . . . . . . . . . . . . 82
4.3 Mô hình đảo cho dịch máy thống kê Anh-Việt sử dụng mạng
nơ-ron với cây phân tích phụ thuộc . . . . . . . . . . . . . . . . . 83
4.4 Các đặc trưng cho quan hệ head-child trong mô hình phân lớp . 84
4.5 Các đặc trưng cho quan hệ sibling trong mô hình phân lớp . . . 85
4.6 Khung làm việc cho quá trình tiền xử lý câu nguồn từ dữ liệu
song ngữ Anh-Việt. . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.7 Thuật toán xây dựng mô hình huấn luyện cho mạng. . . . . . . 88
4.8 Thuật toán sắp xếp lại để xây dựng đảo trật tự từ câu nguồn. . 89
4.9 Quá trình sắp xếp lại sau khi áp dụng phương pháp phân lớp. . 90
5.1 Mô hình bài toán tổng quát về phân tích cú pháp phụ thuộc . . 98
5.2 So sánh tập nhãn phụ thuộc giữa tiếng Việt và tiếng Anh. . . . 103
5.3 Mô tả phương pháp phân tích lỗi. . . . . . . . . . . . . . . . . . . 104
5.4 Kết quả đánh giá dựa trên độ đo Kendall’s tau . . . . . . . . . . 107
5.5 Bảng thống kê độ chính xác phân tích cú pháp phụ thuộc tiếng
Việt sử dụng công cụ phân tích cú pháp phụ thuộc JPTDP. . . 109
5.6 Ví dụ về lỗi từ loại khi so sánh dữ liệu thống kê giữa cây được
sinh ra với cây được sinh từ dữ liệu chuẩn. . . . . . . . . . . . . 110
5.7 Ví dụ về lỗi do xác định sai loại phụ thuộc nút gốc khi so sánh
dữ liệu thống kê giữa cây được sinh ra với cây được sinh từ dữ
liệu chuẩn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5.8 Ảnh hưởng của cây cú pháp phụ thuộc đến chất lượng hệ dịch
trên kho ngữ liệu song ngữ Anh-Việt. . . . . . . . . . . . . . . . . 112
5.9 Thống kê các ngôn ngữ SVO (chủ ngữ, động từ, tân ngữ) . . . . 134
5.10 Thống kê các ngôn ngữ với từ loại Tính từ, Danh từ . . . . . . . 135
5.11 Thống kê các ngôn ngữ với cụm từ bổ nghĩa, cụm danh từ . . . 136
5.12 Thống kê các ngôn ngữ với Danh từ, mệnh đề quan hệ . . . . . 136
12