Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

mở rộng bộ dữ liệu huấn luyện cho quá trình xử lý nhập nhằng nghĩa của từ
PREMIUM
Số trang
51
Kích thước
772.2 KB
Định dạng
PDF
Lượt xem
1078

mở rộng bộ dữ liệu huấn luyện cho quá trình xử lý nhập nhằng nghĩa của từ

Nội dung xem thử

Mô tả chi tiết

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

Vũ Minh Đức

MỞ RỘNG BỘ DỮ LIỆU HUẤN LUYỆN CHO QUÁ

TRÌNH XỬ LÝ NHẬP NHẰNG NGHĨA CỦA TỪ

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

HÀ NỘI - 2010

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

Vũ Minh Đức

MỞ RỘNG BỘ DỮ LIỆU HUẤN LUYỆN CHO QUÁ

TRÌNH XỬ LÝ NHẬP NHẰNG NGHĨA CỦA TỪ

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

Cán bộ hƣớng dẫn: Tiến sĩ Nguyễn Phƣơng Thái

HÀ NỘI - 2010

Mở rộng bộ dữ liệu cho quá trình xử lý nhập nhằng nghĩa của từ

i

LỜI CẢM ƠN

Lời đầu tiên, tôi xin bày tỏ lòng biết ơn chân thành đến các thầy cô giáo trƣờng Đại

học Công Nghệ, Đại học Quốc Gia Hà Nội nói chung và các thầy cô trong bộ môn Khoa

học Máy Tính nói riêng. Trong suốt bốn năm học tập trong trƣờng, các thầy cô không

những tận tình truyền đạt kiến thức mà còn luôn động viên giúp đỡ tôi trong học tập cũng

nhƣ trong cuộc sống.

Đặc biệt, tôi muốn gửi lời cảm ơn sâu sắc đến thầy giáo, tiến sĩ Nguyễn Phƣơng

Thái, ngƣời đã tận tình chỉ bảo, hƣớng dẫn tôi trong suốt quá trình nghiên cứu và hoàn

thiện khóa luận tốt nghiệp.

Tôi cũng xin cảm ơn các bạn sinh viên K51, đã luôn cùng tôi nghiên cứu và học tập,

đã cho tôi những ý kiến đóng góp giá trị trong suốt thời gian học tập cũng nhƣ trong quá

trình nghiên cứu đề tài khóa luận tốt nghiệp.

Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc đến gia đình và bạn bè, những ngƣời luôn

động viên giúp đỡ tôi vƣợt qua những khó khăn trong cuộc sống.

Hà Nội, ngày 21 tháng 5 năm 2010

Sinh viên

Vũ Minh Đức

Mở rộng bộ dữ liệu cho quá trình xử lý nhập nhằng nghĩa của từ

ii

TÓM TẮT KHÓA LUẬN

Trong các chủ đề thuộc lĩnh vực xử lý ngôn ngữ tự nhiên, xử lý nhập nhằng nghĩa

của từ là một chủ đề dành đƣợc nhiều sự quan tâm chú ý của những nhà nghiên cứu, phát

triển, ứng dụng khoa học máy tính. Lý do là mặc dù nếu đứng một mình, xử lý nhập

nhằng nghĩa của từ ít đem lại lợi ích cụ thể trong đời sống hàng ngày, nhƣng nó lại có một

vai trò quan trọng trong nhiều ứng dụng xử lý ngôn ngữ tự nhiên hữu ích khác nhƣ dịch

máy, tìm kiếm thông tin, khai phá dữ liệu, … Do vậy đã có rất nhiều cách tiếp cận để giải

quyết vấn đề xử lý nhập nhằng nghĩa của từ đƣợc đƣa ra nhƣ sử dụng bộ cở sở tri thức, áp

dụng các luật để xử lý nhập nhằng, hoặc sử dụng các thuật toán học máy có giám sát để

phân lớp nghĩa của từ … Trong tất cả các cách tiếp cận trên, lớp phƣơng pháp dựa vào

các thuật toán học máy có giám sát tỏ ra là có đƣợc một kết quả xử lý nhập nhằng tốt

nhất. Tuy vậy lớp phƣơng pháp này có một nhƣợc điểm đó là yêu cầu một bộ dữ liệu huấn

luyện (thƣờng là lớn) các trƣờng hợp xuất hiện của từ đã đƣợc gán nhãn nghĩa sẵn. Nếu

phải chuẩn bị bộ dữ liệu huấn luyện này một cách thủ công thì ta phải tốn rất nhiều công

sức, thời gian và chi phí do vậy tìm kiếm một giải pháp cho phép tự động hóa giai đoạn

này là một nhu cầu thực tế. Nắm bắt đƣợc nhu cầu trên, đề tài khóa luận của tôi đƣợc thực

hiện nhằm mục đích tìm hiểu phƣơng pháp xây dựng một hệ thống xử lý nhập nhằng

nghĩa của từ, đóng vai trò nhƣ một công cụ cho phép mở rộng bộ dữ liệu nhỏ đã gán

nghĩa cho các trƣờng hợp xuất hiện của từ đang cần mở rộng dữ liệu huấn luyện thành

một bộ dữ liệu huấn luyện đủ lớn nhƣng chỉ đòi hỏi rất ít công sức của con ngƣời, hỗ trợ

cho quá trình xử lý nhập nhằng nghĩa của những từ mang nội dung trong ngôn ngữ tự

nhiên.

Mở rộng bộ dữ liệu cho quá trình xử lý nhập nhằng nghĩa của từ

iii

MỤC LỤC

LỜI CẢM ƠN........................................................................................................................i

TÓM TẮT KHÓA LUẬN....................................................................................................ii

MỤC LỤC.......................................................................................................................... iii

DANH MỤC HÌNH VẼ ......................................................................................................vi

DANH MỤC BẢNG BIỂU................................................................................................vii

Chƣơng 1: Mở đầu................................................................................................................1

1.1. Đặt vấn đề ...............................................................................................................1

1.2. Mục tiêu đề tài ........................................................................................................2

1.3. Đối tƣợng và phƣơng pháp nghiên cứu ..................................................................3

1.4. Cấu trúc khóa luận ..................................................................................................5

Chƣơng 2: Các đặc tính của từ liên quan đến mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa

của từ ....................................................................................................................................7

2.1. Một nghĩa trong một nhóm từ đồng xuất hiện ........................................................7

2.2. Một nghĩa trong một văn bản..................................................................................8

Chƣơng 3: Các thuật toán trong phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng.......10

3.1. Thuật toán học máy có giám sát Naive Bayes.........................................................10

3.1.1. Giới thiệu về Naïve Bayes.................................................................................10

3.1.2. Ƣớc lƣợng xác suất............................................................................................11

3.2. Thuật toán mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa của từ ...............................13

3.2.1. Giới thiệu ...........................................................................................................13

3.2.2. Các bƣớc của thuật toán.....................................................................................14

3.3. Lựa chọn từ cho nhóm từ đồng xuất hiện trên quan điểm lý thuyết........................18

3.3.1. Khoảng cách lân cận của từ đang cần xử lý nhập nhằng nghĩa.........................19

3.3.2. Xử lý từ trong nhóm từ đồng xuất hiện .............................................................19

Tải ngay đi em, còn do dự, trời tối mất!