Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Một đề xuất cho việc phát triển hệ thống truy xuất thông tin hỗ trợ tiếng việt
MIỄN PHÍ
Số trang
16
Kích thước
378.3 KB
Định dạng
PDF
Lượt xem
1897

Một đề xuất cho việc phát triển hệ thống truy xuất thông tin hỗ trợ tiếng việt

Nội dung xem thử

Mô tả chi tiết

241

MỘT ĐỀ XUẤT CHO VIỆC PHÁT TRIỂN

HỆ THỐNG TRUY XUẤT THÔNG TIN HỖ TRỢ TIẾNG VIỆT

(A Proposal for Vietnamese Information Retrieval System Development)

Nguyễn Quang Châu, Nguyễn Chánh Thành

[email protected], [email protected]

TÓM TẮT

Trong bài báo này, chúng tôi trình bày một giải pháp phát triển hệ thống truy xuất

thông tin hỗ trợ tiếng Việt. Hệ thống này bao gồm các công đoạn (a) Phân đoạn từ tiếng Việt

và gán nhãn từ loại, (b) Rút trích cụm danh từ đặc trưng ngữ nghĩa trong tiếng Việt, (c)

Chuyển ngữ cụm danh từ tiếng Việt sang tiếng Anh, (d) Tạo các truy vấn tiếng Anh tương ứng

và xử lý nhập nhằng cho cụm danh từ tiếng Anh, (e) Mở rộng truy vấn tiếng Anh.

Abstract

In the paper, we propose a novel method for Vietnamese Information Retrieval System

Development. The system includes the following stages: (a) Vietnamese word segmentation

and POS tagging, (b) Vietnamese key noun phrases (KNP) extraction, (c) Translate

Vietnamese KNPs into English KNPs, (d) English query building and resolving query

translation ambiguity, (e) English query expansion.

Keywords: Ontology, key property, key member, query expansion, CLIR, noun phrase

translation, key phrase extraction, word segmentation, pos-of-tagging, LBK

1. GIỚI THIỆU

Hiện nay, việc truy xuất thông tin (Information Retrieval, IR) thường được người dùng

sử dụng tiếng Anh. Không phải tất cả người sử dụng đều có thể diễn đạt nội dung cần truy vấn

của họ ở dạng tiếng Anh, nên họ luôn mong muốn có thể sử dụng bản ngữ để thực hiện truy

vấn trên môi trường WWW. Việc phát triển hệ thống truy xuất thông tin xuyên ngôn ngữ

(Cross-Language Information Retrieval, CLIR) sẽ mang lại sự tiện dụng và tạo sự thuận lợi

rất lớn cho người sử dụng.

Người sử dụng Việt Nam mong muốn có một hệ thống truy xuất thông tin có hỗ trợ

bằng tiếng Việt. Vì vậy việc xây dựng và phát triển một hệ thống CLIR hỗ trợ tiếng Việt thực

sự là cần thiết và mang tính thực tế trong việc triển khai ứng dụng.

Trong phạm vi nghiên cứu của đề xuất, chúng tôi sẽ xây dựng chương trình trợ giúp

truy xuất thông tin bằng tiếng Việt trong lĩnh vực tin học. Chương trình này phải có khả năng

chuyển ngữ các truy vấn tiếng Việt sang tiếng Anh, để các hệ thống tìm kiếm hiện hành có thể

truy xuất các thông tin tiếng Anh trên mạng. Vấn đề này thật sự không đơn giản bởi vì nó đòi

hỏi một loạt các bài toán phải giải quyết, cụ thể:

- Phải xác định được các cụm từ đặc trưng ngữ nghĩa của truy vấn tiếng Việt (kết hợp

các phương pháp luật, thống kê và ontology để xác định cụm từ đặc trưng).

Tải ngay đi em, còn do dự, trời tối mất!