Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi đáp danh sách tiếng việt
Nội dung xem thử
Mô tả chi tiết
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thanh Sơn
PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG
KẾT QUẢ TRẢ LỜI CHO
HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ Thông tin
HÀ NỘI - 2010
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thanh Sơn
PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG
KẾT QUẢ TRẢ LỜI CHO
HỆ THỐNG HỎI ĐÁP DANH SÁCH TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ Thông tin
Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy
Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ
HÀ NỘI - 2010
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư
Tiến sĩ Hà Quang Thụy, Thạc sĩ Trần Mai Vũ và Cử nhân Lê Hoàng Quỳnh – những
người đã tận tình chỉ bảo và hướng dẫn tôi trong quá trình thực hiện khoá luận tốt
nghiệp.
Tôi chân thành cảm ơn các thầy, cô và cán bộ của trường Đại Học Công Nghệ đã
tạo cho tôi những điều kiện thuận lợi để học tập và nghiên cứu.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong phòng thí
nghiệm Sislab đã giúp tôi rất nhiều trong việc thu thập và xử lý dữ liệu.
Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình và bạn bè, những người thân yêu
luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn!
Sinh viên
Nguyễn Thanh Sơn
Tóm tắt
Nhờ khả năng hỗ trợ người dùng trong việc khai thác các tài nguyên trên Internet
một cách hiệu quả và dễ dàng, hệ thống hỏi đáp nói chung đã được quan tâm nghiên
cứu từ khá lâu, tuy nhiên các dạng hệ thống hỏi đáp đặc biệt, trong đó có hệ thống hỏi
đáp danh sách vẫn còn đang ở bước đầu phát triển. Hệ thống hỏi đáp danh sách là hệ
thống hỏi đáp, nhận đầu vào là câu hỏi dưới dạng ngôn ngữ tự nhiên và trả về câu trả
lời dưới dạng một danh sách. Tại Việt Nam, các nghiên cứu về hệ thống hỏi đáp nói
chung, cũng như về hệ thống hỏi đáp danh sách nói riêng tập trung cho miền dữ liệu
tiếng Việt còn rất nhiều hạn chế. Một trong những lý do chính là chúng ta còn thiếu
các công cụ xử lý tiếng Việt, các tài nguyên ngôn ngữ học, …
Khóa luận Phương pháp nâng cao chất lượng kết quả trả lời cho hệ thống hỏi
đáp danh sách tiếng Việt tập trung nghiên cứu các phương pháp xây dựng hệ thống hỏi
đáp danh sách đã được áp dụng trên thế giới cũng như một số phương pháp nâng cao
chất lượng kết quả trả lời cho dạng hệ thống hỏi đáp này. Trên cơ sở các nghiên cứu
nói trên, kết hợp với việc khảo sát điều kiện thực tế của các công cụ xử lý ngôn ngữ
tiếng Việt, khóa luận đề xuất mô hình nâng cao chất lượng kết quả trả lời cho hệ thống
hỏi đáp danh sách tiếng Việt sử dụng luật Wrapper và luật ngữ nghĩa. Thực nghiệm
mô hình cho kết quả khá khả quan, đạt độ chính xác cho câu trả lời chứa 5 kết quả là
93.87% so với độ chính xác 82.11% của pha hỏi đáp danh sách, đồng thời hứa hẹn
nhiều tiềm năng nghiên cứu mới.
Mục lục
Lời mở đầu ..................................................................................................................1
Chương 1. Giới thiệu hệ thống hỏi đáp danh sách ........................................................3
1.1. Hệ thống hỏi đáp ...............................................................................................3
1.1.1. Giới thiệu chung..........................................................................................3
1.1.2. Một số vấn đề cần quan tâm ........................................................................4
1.1.3. Các bước xử lý chung..................................................................................5
1.1.4. Tiêu chuẩn đánh giá.....................................................................................6
1.1.5. Phân loại......................................................................................................7
1.2. Hệ thống hỏi đáp danh sách .............................................................................10
1.2.1. Giới thiệu ..................................................................................................10
1.2.2. Một số hướng tiếp cận xây dựng hệ thống hỏi đáp danh sách.....................10
1.2.3. Những vấn đề cần giải quyết khi xây dựng hệ hỏi đáp danh sách...............11
Chương 2. Các nghiên cứu liên quan .........................................................................13
2.1. Một số hệ thống hỏi đáp danh sách điển hình...................................................13
2.1.1. Hệ thống hỏi đáp danh sách FADA ...........................................................16
2.1.2. Hệ thống hỏi đáp Ephyra ...........................................................................20
2.2. Nâng cao chất lượng trả lời cho hệ thống hỏi đáp danh sách ............................23
Chương 3: Đề xuất mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh
sách tiếng Việt...........................................................................................................28
3.1. Mô hình nâng cao chất lượng câu trả lời cho hệ thống hỏi đáp danh sách tiếng
Việt ........................................................................................................................28
3.2. Pha 1: Hỏi đáp danh sách tiếng Việt ................................................................29
3.2.1. Tìm kiếm câu trả lời dựa vào các mẫu quan hệ thượng hạ danh .................29
3.2.2. Mô hình pha 1: Hệ thống hỏi đáp danh sách ..............................................30
3.3. Pha 2: Mở rộng thực thể ..................................................................................32
3.3.1. Xây dựng các luật Wrapper ......................................................................33
3.3.2. Các phương pháp xếp hạng được sử dụng..................................................35
3.3.3. Mô hình pha 2: mở rộng thực thể...............................................................35
Chương 4. Thực nghiệm và đánh giá .........................................................................39
4.1. Thực nghiệm pha hỏi đáp danh sách ................................................................39
4.1.1. Dữ liệu thực nghiệm..................................................................................39
4.1.2. Kết quả thực nghiệm..................................................................................40
4.2. Thực nghiệm đánh giá kết quả mô hình nâng cao chất lượng câu trả lời cho hệ
thống hỏi đáp danh sách tiếng việt..........................................................................42
Kết luận .....................................................................................................................47
Phụ lục.......................................................................................................................49
Tài liệu tham khảo .....................................................................................................51