Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

mở rộng bộ dữ liệu huấn luyện cho quá trình xử lý nhập nhằng nghĩa của từ
Nội dung xem thử
Mô tả chi tiết
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Vũ Minh Đức
MỞ RỘNG BỘ DỮ LIỆU HUẤN LUYỆN CHO QUÁ
TRÌNH XỬ LÝ NHẬP NHẰNG NGHĨA CỦA TỪ
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2010
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Vũ Minh Đức
MỞ RỘNG BỘ DỮ LIỆU HUẤN LUYỆN CHO QUÁ
TRÌNH XỬ LÝ NHẬP NHẰNG NGHĨA CỦA TỪ
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hƣớng dẫn: Tiến sĩ Nguyễn Phƣơng Thái
HÀ NỘI - 2010
Mở rộng bộ dữ liệu cho quá trình xử lý nhập nhằng nghĩa của từ
i
LỜI CẢM ƠN
Lời đầu tiên, tôi xin bày tỏ lòng biết ơn chân thành đến các thầy cô giáo trƣờng Đại
học Công Nghệ, Đại học Quốc Gia Hà Nội nói chung và các thầy cô trong bộ môn Khoa
học Máy Tính nói riêng. Trong suốt bốn năm học tập trong trƣờng, các thầy cô không
những tận tình truyền đạt kiến thức mà còn luôn động viên giúp đỡ tôi trong học tập cũng
nhƣ trong cuộc sống.
Đặc biệt, tôi muốn gửi lời cảm ơn sâu sắc đến thầy giáo, tiến sĩ Nguyễn Phƣơng
Thái, ngƣời đã tận tình chỉ bảo, hƣớng dẫn tôi trong suốt quá trình nghiên cứu và hoàn
thiện khóa luận tốt nghiệp.
Tôi cũng xin cảm ơn các bạn sinh viên K51, đã luôn cùng tôi nghiên cứu và học tập,
đã cho tôi những ý kiến đóng góp giá trị trong suốt thời gian học tập cũng nhƣ trong quá
trình nghiên cứu đề tài khóa luận tốt nghiệp.
Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc đến gia đình và bạn bè, những ngƣời luôn
động viên giúp đỡ tôi vƣợt qua những khó khăn trong cuộc sống.
Hà Nội, ngày 21 tháng 5 năm 2010
Sinh viên
Vũ Minh Đức
Mở rộng bộ dữ liệu cho quá trình xử lý nhập nhằng nghĩa của từ
ii
TÓM TẮT KHÓA LUẬN
Trong các chủ đề thuộc lĩnh vực xử lý ngôn ngữ tự nhiên, xử lý nhập nhằng nghĩa
của từ là một chủ đề dành đƣợc nhiều sự quan tâm chú ý của những nhà nghiên cứu, phát
triển, ứng dụng khoa học máy tính. Lý do là mặc dù nếu đứng một mình, xử lý nhập
nhằng nghĩa của từ ít đem lại lợi ích cụ thể trong đời sống hàng ngày, nhƣng nó lại có một
vai trò quan trọng trong nhiều ứng dụng xử lý ngôn ngữ tự nhiên hữu ích khác nhƣ dịch
máy, tìm kiếm thông tin, khai phá dữ liệu, … Do vậy đã có rất nhiều cách tiếp cận để giải
quyết vấn đề xử lý nhập nhằng nghĩa của từ đƣợc đƣa ra nhƣ sử dụng bộ cở sở tri thức, áp
dụng các luật để xử lý nhập nhằng, hoặc sử dụng các thuật toán học máy có giám sát để
phân lớp nghĩa của từ … Trong tất cả các cách tiếp cận trên, lớp phƣơng pháp dựa vào
các thuật toán học máy có giám sát tỏ ra là có đƣợc một kết quả xử lý nhập nhằng tốt
nhất. Tuy vậy lớp phƣơng pháp này có một nhƣợc điểm đó là yêu cầu một bộ dữ liệu huấn
luyện (thƣờng là lớn) các trƣờng hợp xuất hiện của từ đã đƣợc gán nhãn nghĩa sẵn. Nếu
phải chuẩn bị bộ dữ liệu huấn luyện này một cách thủ công thì ta phải tốn rất nhiều công
sức, thời gian và chi phí do vậy tìm kiếm một giải pháp cho phép tự động hóa giai đoạn
này là một nhu cầu thực tế. Nắm bắt đƣợc nhu cầu trên, đề tài khóa luận của tôi đƣợc thực
hiện nhằm mục đích tìm hiểu phƣơng pháp xây dựng một hệ thống xử lý nhập nhằng
nghĩa của từ, đóng vai trò nhƣ một công cụ cho phép mở rộng bộ dữ liệu nhỏ đã gán
nghĩa cho các trƣờng hợp xuất hiện của từ đang cần mở rộng dữ liệu huấn luyện thành
một bộ dữ liệu huấn luyện đủ lớn nhƣng chỉ đòi hỏi rất ít công sức của con ngƣời, hỗ trợ
cho quá trình xử lý nhập nhằng nghĩa của những từ mang nội dung trong ngôn ngữ tự
nhiên.
Mở rộng bộ dữ liệu cho quá trình xử lý nhập nhằng nghĩa của từ
iii
MỤC LỤC
LỜI CẢM ƠN........................................................................................................................i
TÓM TẮT KHÓA LUẬN....................................................................................................ii
MỤC LỤC.......................................................................................................................... iii
DANH MỤC HÌNH VẼ ......................................................................................................vi
DANH MỤC BẢNG BIỂU................................................................................................vii
Chƣơng 1: Mở đầu................................................................................................................1
1.1. Đặt vấn đề ...............................................................................................................1
1.2. Mục tiêu đề tài ........................................................................................................2
1.3. Đối tƣợng và phƣơng pháp nghiên cứu ..................................................................3
1.4. Cấu trúc khóa luận ..................................................................................................5
Chƣơng 2: Các đặc tính của từ liên quan đến mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa
của từ ....................................................................................................................................7
2.1. Một nghĩa trong một nhóm từ đồng xuất hiện ........................................................7
2.2. Một nghĩa trong một văn bản..................................................................................8
Chƣơng 3: Các thuật toán trong phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng.......10
3.1. Thuật toán học máy có giám sát Naive Bayes.........................................................10
3.1.1. Giới thiệu về Naïve Bayes.................................................................................10
3.1.2. Ƣớc lƣợng xác suất............................................................................................11
3.2. Thuật toán mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa của từ ...............................13
3.2.1. Giới thiệu ...........................................................................................................13
3.2.2. Các bƣớc của thuật toán.....................................................................................14
3.3. Lựa chọn từ cho nhóm từ đồng xuất hiện trên quan điểm lý thuyết........................18
3.3.1. Khoảng cách lân cận của từ đang cần xử lý nhập nhằng nghĩa.........................19
3.3.2. Xử lý từ trong nhóm từ đồng xuất hiện .............................................................19