Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

xây dựng giải thuật tối ưu cho việc xác nhận chuỗi ảnh chập bằng phương pháp tiệm cận miền tần số
MIỄN PHÍ
Số trang
14
Kích thước
177.9 KB
Định dạng
PDF
Lượt xem
1627

xây dựng giải thuật tối ưu cho việc xác nhận chuỗi ảnh chập bằng phương pháp tiệm cận miền tần số

Nội dung xem thử

Mô tả chi tiết

ỨNG DỤNG XỬ LÝ NGÔN NGỮ TỰ NHIÊN

TRONG DỊCH MÁY

TS. Nguyễn Chí Hiếu

Khoa CN Thông tin – Trường ĐH Công nghiệp Tp. HCM

TÓM TẮT

Bài báo này đề xuất một mô hình nhận biết và rút trích tự động cụm danh từ song

ngữ từ ngữ liệu song ngữ Anh-Việt bằng các công cụ nổi tiếng như GIZA++ -2003 [10]

và GATE – 2005 [1]. Bài báo cũng trình bày phương pháp cải thiện chất lượng đối sánh

từ trong bước tiền xử lý bằng cách chuyển đổi cấu trúc câu nguồn theo trật tự của câu

đích để rút trích cụm danh từ song ngữ, đề xuất phương pháp xây dựng bảng từ và cụm

từ song ngữ từ ngữ liệu song ngữ với các nét ngữ nghĩa, xác suất xuất hiện và luật

chuyển đổi [8]. Ngoài ra, các thành phần cơ bản của một hệ thống dịch máy trên cơ sở

cụm từ cũng được trình bày trong bài báo này. Thực nghiệm ban đầu cho kết quả khả

quan.

ABSTRACT

This paper proposes the method Extracting English – Vietnamese Noun Phrases

automatically which is building from Bilingual Corpus by well-known tools as GIZA++ -

2003 [10], GATE – 2005 [1]. In this method, the paper presents methods to improve the

quality of word alignment in the pre-processing phase of Machine Translation by

transferring sentence structures from the source language to target language and then

using heuristics to extract noun phases. It also proposes the method of building the Phase

and Word tables from Bilingual Corpus including semantics, probability and transfer

rules [8]. The other components of the English – Vietnamese machine translation also

are described in this paper. The result of the experiment was satisfactory.

MỘT SỐ TỪ VIẾT TẮT

NLP: Natural Language Processing

MT: Machine Translation

RBMT: Rule Based Machine Translation

EBMT: Example Based Machine Translation

SMT: Statistical Machine Translation

PBMT: Phrase Based Machine Translation

1. GIỚI THIỆU

Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu nhằm giúp cho các hệ thống

máy tính hiểu và xử lý được ngôn ngữ con người. Dịch máy là một trong những ứng dụng

chính của xử lý ngôn ngữ tự nhiên. Mặc dù dịch máy đã được nghiên cứu và phát triển

hơn 50 năm qua, song vẫn tồn tại nhiều vấn đề cần nghiên cứu. Ở Việt nam, dịch máy đã

được nghiên cứu hơn 20 năm, nhưng các sản phẩm dịch máy hiện tại cho chất lượng dịch

còn nhiều hạn chế [5]. Hiện nay, dịch máy được phân chia thành một số phương pháp

Tải ngay đi em, còn do dự, trời tối mất!