Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

xây dựng giải thuật tối ưu cho việc xác nhận chuỗi ảnh chập bằng phương pháp tiệm cận miền tần số
Nội dung xem thử
Mô tả chi tiết
ỨNG DỤNG XỬ LÝ NGÔN NGỮ TỰ NHIÊN
TRONG DỊCH MÁY
TS. Nguyễn Chí Hiếu
Khoa CN Thông tin – Trường ĐH Công nghiệp Tp. HCM
TÓM TẮT
Bài báo này đề xuất một mô hình nhận biết và rút trích tự động cụm danh từ song
ngữ từ ngữ liệu song ngữ Anh-Việt bằng các công cụ nổi tiếng như GIZA++ -2003 [10]
và GATE – 2005 [1]. Bài báo cũng trình bày phương pháp cải thiện chất lượng đối sánh
từ trong bước tiền xử lý bằng cách chuyển đổi cấu trúc câu nguồn theo trật tự của câu
đích để rút trích cụm danh từ song ngữ, đề xuất phương pháp xây dựng bảng từ và cụm
từ song ngữ từ ngữ liệu song ngữ với các nét ngữ nghĩa, xác suất xuất hiện và luật
chuyển đổi [8]. Ngoài ra, các thành phần cơ bản của một hệ thống dịch máy trên cơ sở
cụm từ cũng được trình bày trong bài báo này. Thực nghiệm ban đầu cho kết quả khả
quan.
ABSTRACT
This paper proposes the method Extracting English – Vietnamese Noun Phrases
automatically which is building from Bilingual Corpus by well-known tools as GIZA++ -
2003 [10], GATE – 2005 [1]. In this method, the paper presents methods to improve the
quality of word alignment in the pre-processing phase of Machine Translation by
transferring sentence structures from the source language to target language and then
using heuristics to extract noun phases. It also proposes the method of building the Phase
and Word tables from Bilingual Corpus including semantics, probability and transfer
rules [8]. The other components of the English – Vietnamese machine translation also
are described in this paper. The result of the experiment was satisfactory.
MỘT SỐ TỪ VIẾT TẮT
NLP: Natural Language Processing
MT: Machine Translation
RBMT: Rule Based Machine Translation
EBMT: Example Based Machine Translation
SMT: Statistical Machine Translation
PBMT: Phrase Based Machine Translation
1. GIỚI THIỆU
Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu nhằm giúp cho các hệ thống
máy tính hiểu và xử lý được ngôn ngữ con người. Dịch máy là một trong những ứng dụng
chính của xử lý ngôn ngữ tự nhiên. Mặc dù dịch máy đã được nghiên cứu và phát triển
hơn 50 năm qua, song vẫn tồn tại nhiều vấn đề cần nghiên cứu. Ở Việt nam, dịch máy đã
được nghiên cứu hơn 20 năm, nhưng các sản phẩm dịch máy hiện tại cho chất lượng dịch
còn nhiều hạn chế [5]. Hiện nay, dịch máy được phân chia thành một số phương pháp