Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Một cách tiếp cận tích hợp trí thức về ngôn ngữ vào hệ dịch máy thống kê
Nội dung xem thử
Mô tả chi tiết
Nguyễn Văn Vinh và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 113(13): 107 - 113
107
MỘT CÁCH TIẾP CẬN TÍCH HỢP TRÍ THỨC VỀ NGÔN NGỮ
VÀO HỆ DỊCH MÁY THỐNG KÊ
Nguyễn Văn Vinh1
, Lê Thu Trang2,*, Nguyễn Thị Xuân Hương3
1
Trường Đại học Công nghệ – ĐH Quốc Gia Hà Nội
2
Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên
3
Trường Đại học Dân lập Hải Phòng
TÓM TẮT
Mô hình dịch thống kê dựa vào cụm (MHTKC) [6] là một trong những mô hình dịch tự động tốt nhất
hiện nay. Tuy nhiên sự hạn chế của mô hình MHTKC là nó xem xét các cụm như là dãy liên tiếp các
từ và nó hoàn toàn bỏ qua bất cứ thông tin về ngôn ngữ (thông tin cú pháp, thông tin ngữ nghĩa,…).
Để giải quyết vấn đề này, trong bài báo này, chúng tôi tập trung vào nghiên cứu cải tiến mô hình đảo
trật tự từ vựng. Chúng tôi mở rộng mô hình đảo trật tự cụm có phân cấp [2] sử dụng mô hình
Maximum Entropy (ME) để đoán hướng và ước lượng xác suất. Với mô hình này, chúng ta có thể
tích hợp thông tin giàu tri thức ngôn ngữ vào như các thuộc tính địa phương cũng như là toàn cục.
Hơn nữa, xác suất được ước lượng bằng mô hình ME sẽ chính xác và mịn hơn so với ước lượng dựa
vào cách tiếp cần tần suất tương đối. Kết quả thử nghiệm với cặp ngôn ngữ Anh-Việt cho thấy cách
tiếp cận của chúng tôi tốt hơn so với cách tiếp cận sử dụng mô hình từ vựng phân cấp [2].
Từ khóa: Mô hình dịch thống kê, trí thức về ngôn ngữ.
ĐẶT VẤN ĐỀ*
Những năm gần đây, sự bùng nổ của cách tiếp
cận dịch máy thống kê dựa vào cụm đã tạo ra
các sản phẩm thương mại được sử dụng rộng
rãi trên thế giới (hệ dịch của google,
microsoft, …) [14][15]. Một trong những vấn
đề quan trọng của dịch máy thống kê dựa vào
cụm liên quan đến việc là làm thế nào để sinh
ra thứ tự các từ (cụm) chính xác trong ngôn
ngữ đích.
Hình 1. Hướng của cụm (M, S, D) cho ví dụ dịch
Anh-Việt
Để giải quyết vấn đề trên, gần đây, trong
[4][5], mô hình đảo trật tự từ vựng (LRMs) đã
phát triển để dự đoán hướng của cặp cụm dựa
vào cụm đích liền kề. Những mô hình này
phân biệt ba hướng của cặp cụm hiện tại theo
*
Tel: 0925009989
cụm đích phía trước: (1) monotone (M) – cụm
nguồn phía trước là liền kề trước cụm nguồn
hiện tại, (2) swap (S) – cụm nguồn phía trước
là liền kề sau cụm nguồn hiện tại và (3)
discontinuous (D) – không phải là S và M.
Hình 1 (1) biểu diễn ví dụ mà ở đây mô hình
hiệu quả trong việc swap cụm tính từ “nice
new” và cụm “house” và cụm “a” là
monotone với cụm “This is”. Những mô hình
đảo trật tự từ vựng này cho chất lượng tốt hơn
so với MHTKC. Tuy nhiên những mô hình
này giải quyết đảo trật tự từ của các cụm cạnh
nhau, chúng thường thất bại khi cụm từ mà vị
trị đảo nằm xa nhau. Ví dụ trong hình 1 (2),
hướng của cụm “Tom’s” nên được swap với
phần còn lại của cụm danh từ, tuy nhiên LRM
đoán hướng là discontinuous (D).
Galley and Manning [2] đã mở rộng mô hình
LRMs bằng cách đề xuất mô hình đảo cụm
phân cấp (HRM). Mô hình này dựa vào cấu
trúc phân cấp và có thể giải quyết được
trường hợp đảo vị trí của các cụm xa nhau. Ví
dụ trong hình 1(2) mô hình của họ có thể giải
quyết được cụm liền kề “two” và “blue
books” như là một cụm và sự thay thế của
“Tom’s” theo cụm này được giải quyết như là
swap(S). Tuy nhiên, mô hình của họ cũng có
vài nhược điểm như sau: