Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Một đề xuất cho việc phát triển hệ thống truy xuất thông tin hỗ trợ tiếng việt
Nội dung xem thử
Mô tả chi tiết
241
MỘT ĐỀ XUẤT CHO VIỆC PHÁT TRIỂN
HỆ THỐNG TRUY XUẤT THÔNG TIN HỖ TRỢ TIẾNG VIỆT
(A Proposal for Vietnamese Information Retrieval System Development)
Nguyễn Quang Châu, Nguyễn Chánh Thành
[email protected], [email protected]
TÓM TẮT
Trong bài báo này, chúng tôi trình bày một giải pháp phát triển hệ thống truy xuất
thông tin hỗ trợ tiếng Việt. Hệ thống này bao gồm các công đoạn (a) Phân đoạn từ tiếng Việt
và gán nhãn từ loại, (b) Rút trích cụm danh từ đặc trưng ngữ nghĩa trong tiếng Việt, (c)
Chuyển ngữ cụm danh từ tiếng Việt sang tiếng Anh, (d) Tạo các truy vấn tiếng Anh tương ứng
và xử lý nhập nhằng cho cụm danh từ tiếng Anh, (e) Mở rộng truy vấn tiếng Anh.
Abstract
In the paper, we propose a novel method for Vietnamese Information Retrieval System
Development. The system includes the following stages: (a) Vietnamese word segmentation
and POS tagging, (b) Vietnamese key noun phrases (KNP) extraction, (c) Translate
Vietnamese KNPs into English KNPs, (d) English query building and resolving query
translation ambiguity, (e) English query expansion.
Keywords: Ontology, key property, key member, query expansion, CLIR, noun phrase
translation, key phrase extraction, word segmentation, pos-of-tagging, LBK
1. GIỚI THIỆU
Hiện nay, việc truy xuất thông tin (Information Retrieval, IR) thường được người dùng
sử dụng tiếng Anh. Không phải tất cả người sử dụng đều có thể diễn đạt nội dung cần truy vấn
của họ ở dạng tiếng Anh, nên họ luôn mong muốn có thể sử dụng bản ngữ để thực hiện truy
vấn trên môi trường WWW. Việc phát triển hệ thống truy xuất thông tin xuyên ngôn ngữ
(Cross-Language Information Retrieval, CLIR) sẽ mang lại sự tiện dụng và tạo sự thuận lợi
rất lớn cho người sử dụng.
Người sử dụng Việt Nam mong muốn có một hệ thống truy xuất thông tin có hỗ trợ
bằng tiếng Việt. Vì vậy việc xây dựng và phát triển một hệ thống CLIR hỗ trợ tiếng Việt thực
sự là cần thiết và mang tính thực tế trong việc triển khai ứng dụng.
Trong phạm vi nghiên cứu của đề xuất, chúng tôi sẽ xây dựng chương trình trợ giúp
truy xuất thông tin bằng tiếng Việt trong lĩnh vực tin học. Chương trình này phải có khả năng
chuyển ngữ các truy vấn tiếng Việt sang tiếng Anh, để các hệ thống tìm kiếm hiện hành có thể
truy xuất các thông tin tiếng Anh trên mạng. Vấn đề này thật sự không đơn giản bởi vì nó đòi
hỏi một loạt các bài toán phải giải quyết, cụ thể:
- Phải xác định được các cụm từ đặc trưng ngữ nghĩa của truy vấn tiếng Việt (kết hợp
các phương pháp luật, thống kê và ontology để xác định cụm từ đặc trưng).