Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nghiên cứu phương pháp tự động phát hiện lỗi trong kho dữ liệu tiếng việt được chú giải từ loại
MIỄN PHÍ
Số trang
23
Kích thước
911.1 KB
Định dạng
PDF
Lượt xem
1428

Nghiên cứu phương pháp tự động phát hiện lỗi trong kho dữ liệu tiếng việt được chú giải từ loại

Nội dung xem thử

Mô tả chi tiết

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

----------------------------------------

NHỮ VĂN KIÊN

NGHIÊN CỨU PHƯƠNG PHÁP TỰ ĐỘNG PHÁT HIỆN LỖI TRONG

KHO DỮ LIỆU TIẾNG VIỆT ĐƯỢC CHÚ GIẢI TỪ LOẠI

Chuyên ngành: Khoa học máy tính

Mã số: 60.48.01.01

Người hướng dẫn khoa học: TS NGUYỄN PHƯƠNG THÁI

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI – 2013

1

MỞ ĐẦU

Gán nhãn từ loại (Part-of-speech tagging –POS tagging) và

tự động phát hiện lỗi chú giải (nhãn) từ loại (Detecting Errors in Part￾of-Speech Annotation) là hai bài toán quan trọng trong xử lý ngôn

ngữ tự nhiên. Tuy nhiên các nghiên cứu tại Việt Nam về hai vấn đề

này vẫn còn ở giai đoạn đầu, trong đó phương pháp tự động phát hiện

lỗi chú giải từ loại trong kho ngữ liệu tiếng Việt còn chưa có nhiều

tài liệu tham khảo và các công trình nghiên cứu. Do đó, nhu cầu cả về

cơ sở khoa học và xây dựng công cụ thực hiện sẵn dùng. Thực tế cho

thấy, hai quá trình này liên quan mật thiết với nhau và ảnh hưởng đến

chất lượng một hệ chung. Vì thế, trong luận văn này chúng tôi

“Nghiên cứu phƣơng pháp tự động phát hiện lỗi trong kho ngữ

liệu tiếng Việt đƣợc chú giải từ loại”. Đóng góp của luận luận văn

là việc tìm hiểu, nghiên cứu và đề xuất mô hình thực hiện gán nhãn

từ loại và phương pháp tự động phát hiện lỗi chú giải từ loại trong

kho ngữ liệu tiếng Việt; sử dụng công cụ vnTagger thực hiện gán

nhãn từ loại; bên cạnh đó chúng tôi tiến hành xây dựng một công cụ

tự động phát hiện lỗi chú giải từ loại tiếng Việt trên kho ngữ liệu

VietTreeBank có 10.165 câu với khoảng hơn 230.000 từ. Luận văn

tiến hành thực nghiệm trên kho ngữ liệu VietTreeBank áp dụng mô

hình entropy cực đại và thuật toán variaion n-gram đã cho kết quả

thực nghiệm khả quan, có độ chính xác cao. Các kết quả này sẽ hữu

ích cho các nghiên cứu ở mức cao hơn như dịch máy, tự động sửa lỗi

chú giải, tóm tắt văn bản,…

Tải ngay đi em, còn do dự, trời tối mất!