Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Một cách tiếp cận tích hợp trí thức về ngôn ngữ vào hệ dịch máy thống kê
MIỄN PHÍ
Số trang
7
Kích thước
171.6 KB
Định dạng
PDF
Lượt xem
1229

Một cách tiếp cận tích hợp trí thức về ngôn ngữ vào hệ dịch máy thống kê

Nội dung xem thử

Mô tả chi tiết

Nguyễn Văn Vinh và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 113(13): 107 - 113

107

MỘT CÁCH TIẾP CẬN TÍCH HỢP TRÍ THỨC VỀ NGÔN NGỮ

VÀO HỆ DỊCH MÁY THỐNG KÊ

Nguyễn Văn Vinh1

, Lê Thu Trang2,*, Nguyễn Thị Xuân Hương3

1

Trường Đại học Công nghệ – ĐH Quốc Gia Hà Nội

2

Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên

3

Trường Đại học Dân lập Hải Phòng

TÓM TẮT

Mô hình dịch thống kê dựa vào cụm (MHTKC) [6] là một trong những mô hình dịch tự động tốt nhất

hiện nay. Tuy nhiên sự hạn chế của mô hình MHTKC là nó xem xét các cụm như là dãy liên tiếp các

từ và nó hoàn toàn bỏ qua bất cứ thông tin về ngôn ngữ (thông tin cú pháp, thông tin ngữ nghĩa,…).

Để giải quyết vấn đề này, trong bài báo này, chúng tôi tập trung vào nghiên cứu cải tiến mô hình đảo

trật tự từ vựng. Chúng tôi mở rộng mô hình đảo trật tự cụm có phân cấp [2] sử dụng mô hình

Maximum Entropy (ME) để đoán hướng và ước lượng xác suất. Với mô hình này, chúng ta có thể

tích hợp thông tin giàu tri thức ngôn ngữ vào như các thuộc tính địa phương cũng như là toàn cục.

Hơn nữa, xác suất được ước lượng bằng mô hình ME sẽ chính xác và mịn hơn so với ước lượng dựa

vào cách tiếp cần tần suất tương đối. Kết quả thử nghiệm với cặp ngôn ngữ Anh-Việt cho thấy cách

tiếp cận của chúng tôi tốt hơn so với cách tiếp cận sử dụng mô hình từ vựng phân cấp [2].

Từ khóa: Mô hình dịch thống kê, trí thức về ngôn ngữ.

ĐẶT VẤN ĐỀ*

Những năm gần đây, sự bùng nổ của cách tiếp

cận dịch máy thống kê dựa vào cụm đã tạo ra

các sản phẩm thương mại được sử dụng rộng

rãi trên thế giới (hệ dịch của google,

microsoft, …) [14][15]. Một trong những vấn

đề quan trọng của dịch máy thống kê dựa vào

cụm liên quan đến việc là làm thế nào để sinh

ra thứ tự các từ (cụm) chính xác trong ngôn

ngữ đích.

Hình 1. Hướng của cụm (M, S, D) cho ví dụ dịch

Anh-Việt

Để giải quyết vấn đề trên, gần đây, trong

[4][5], mô hình đảo trật tự từ vựng (LRMs) đã

phát triển để dự đoán hướng của cặp cụm dựa

vào cụm đích liền kề. Những mô hình này

phân biệt ba hướng của cặp cụm hiện tại theo

*

Tel: 0925009989

cụm đích phía trước: (1) monotone (M) – cụm

nguồn phía trước là liền kề trước cụm nguồn

hiện tại, (2) swap (S) – cụm nguồn phía trước

là liền kề sau cụm nguồn hiện tại và (3)

discontinuous (D) – không phải là S và M.

Hình 1 (1) biểu diễn ví dụ mà ở đây mô hình

hiệu quả trong việc swap cụm tính từ “nice

new” và cụm “house” và cụm “a” là

monotone với cụm “This is”. Những mô hình

đảo trật tự từ vựng này cho chất lượng tốt hơn

so với MHTKC. Tuy nhiên những mô hình

này giải quyết đảo trật tự từ của các cụm cạnh

nhau, chúng thường thất bại khi cụm từ mà vị

trị đảo nằm xa nhau. Ví dụ trong hình 1 (2),

hướng của cụm “Tom’s” nên được swap với

phần còn lại của cụm danh từ, tuy nhiên LRM

đoán hướng là discontinuous (D).

Galley and Manning [2] đã mở rộng mô hình

LRMs bằng cách đề xuất mô hình đảo cụm

phân cấp (HRM). Mô hình này dựa vào cấu

trúc phân cấp và có thể giải quyết được

trường hợp đảo vị trí của các cụm xa nhau. Ví

dụ trong hình 1(2) mô hình của họ có thể giải

quyết được cụm liền kề “two” và “blue

books” như là một cụm và sự thay thế của

“Tom’s” theo cụm này được giải quyết như là

swap(S). Tuy nhiên, mô hình của họ cũng có

vài nhược điểm như sau:

Tải ngay đi em, còn do dự, trời tối mất!