Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nghiên cứu phương pháp tự động phát hiện lỗi trong kho dữ liệu tiếng việt được chú giải từ loại
Nội dung xem thử
Mô tả chi tiết
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
----------------------------------------
NHỮ VĂN KIÊN
NGHIÊN CỨU PHƯƠNG PHÁP TỰ ĐỘNG PHÁT HIỆN LỖI TRONG
KHO DỮ LIỆU TIẾNG VIỆT ĐƯỢC CHÚ GIẢI TỪ LOẠI
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
Người hướng dẫn khoa học: TS NGUYỄN PHƯƠNG THÁI
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI – 2013
1
MỞ ĐẦU
Gán nhãn từ loại (Part-of-speech tagging –POS tagging) và
tự động phát hiện lỗi chú giải (nhãn) từ loại (Detecting Errors in Partof-Speech Annotation) là hai bài toán quan trọng trong xử lý ngôn
ngữ tự nhiên. Tuy nhiên các nghiên cứu tại Việt Nam về hai vấn đề
này vẫn còn ở giai đoạn đầu, trong đó phương pháp tự động phát hiện
lỗi chú giải từ loại trong kho ngữ liệu tiếng Việt còn chưa có nhiều
tài liệu tham khảo và các công trình nghiên cứu. Do đó, nhu cầu cả về
cơ sở khoa học và xây dựng công cụ thực hiện sẵn dùng. Thực tế cho
thấy, hai quá trình này liên quan mật thiết với nhau và ảnh hưởng đến
chất lượng một hệ chung. Vì thế, trong luận văn này chúng tôi
“Nghiên cứu phƣơng pháp tự động phát hiện lỗi trong kho ngữ
liệu tiếng Việt đƣợc chú giải từ loại”. Đóng góp của luận luận văn
là việc tìm hiểu, nghiên cứu và đề xuất mô hình thực hiện gán nhãn
từ loại và phương pháp tự động phát hiện lỗi chú giải từ loại trong
kho ngữ liệu tiếng Việt; sử dụng công cụ vnTagger thực hiện gán
nhãn từ loại; bên cạnh đó chúng tôi tiến hành xây dựng một công cụ
tự động phát hiện lỗi chú giải từ loại tiếng Việt trên kho ngữ liệu
VietTreeBank có 10.165 câu với khoảng hơn 230.000 từ. Luận văn
tiến hành thực nghiệm trên kho ngữ liệu VietTreeBank áp dụng mô
hình entropy cực đại và thuật toán variaion n-gram đã cho kết quả
thực nghiệm khả quan, có độ chính xác cao. Các kết quả này sẽ hữu
ích cho các nghiên cứu ở mức cao hơn như dịch máy, tự động sửa lỗi
chú giải, tóm tắt văn bản,…