Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

LUẬN VĂN: PHÂN LỚP TÀI LIỆU WEB ĐỘC LẬP NGÔN NGỮ pdf
PREMIUM
Số trang
50
Kích thước
819.8 KB
Định dạng
PDF
Lượt xem
1010

LUẬN VĂN: PHÂN LỚP TÀI LIỆU WEB ĐỘC LẬP NGÔN NGỮ pdf

Nội dung xem thử

Mô tả chi tiết

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Thị Thuỳ Linh

PHÂN LỚP TÀI LIỆU WEB

ĐỘC LẬP NGÔN NGỮ

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

Cán bộ hướng dẫn: NCS. Phan Xuân Hiếu

Cán bộ đồng hướng dẫn: TS. Hà Quang Thuỵ

HÀ NỘI – 2006

LỜI CẢM ƠN

Em xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới Tiến sĩ Hà Quang

Thuỵ (Trường Đại học Công Nghệ) và Nghiên cứu sinh Phan Xuân Hiếu (Japan

Advanced Institute of Science and Technology) đã chỉ bảo và hướng dẫn tận tình cho

tôi trong suốt quá trình nghiên cứu Khoa học và quá trình thực hiện khoá luận này.

Em xin gửi lời cảm ơn và biết ơn sâu sắc tới các thày, cô đã dạy dỗ em trong

suốt quá trình học tập tại trường Đại học Công Nghệ. Những kiến thức các thày, cô

dạy tôi là hành trang để tôi vững bước vào đời.

Em cũng xin chân thành cảm ơn các thày, cô, anh, chị trong Bộ môn Các hệ

thống thông tin đã tạo điều kiện, giúp đỡ và động viên tinh thần cho em trong quá trình

làm khoá luận.

Tôi xin gửi lời cảm ơn tới các bạn sinh viên trong nhóm seminar “Khai phá dữ

liệu và khám phá tri thức” đã ủng hộ và khuyến khích tôi trong quá trình nghiên cứu

và làm khoá luận này.

Và cuối cùng, con xin gửi lời cảm ơn và biết ơn vô hạn tới bố, mẹ, cảm ơn em

trai tôi, những người thân yêu của tôi, đã nuôi nấng, dạy dỗ và luôn động viên, làm chỗ

dựa tinh thần cho tôi trong cuộc sống cũng như trong học tập và làm việc.

Xin chân thành cảm ơn!

Hà Nội, ngày 25 tháng 05 năm 2006

Sinh viên

Nguyễn Thị Thuỳ Linh

i

TÓM TẮT NỘI DUNG

Phân lớp văn bản là một trong những bài toán cơ bản và quan trọng nhất của

lĩnh vực xử lý ngôn ngữ tự nhiên. Nó có ứng dụng rất nhiều trong các bài toán thực tế

ví dụ như: ứng dụng lọc nội dung văn bản (lọc thư rác, lọc trang web có nội dung phản

động, trang web có nội dung không lành mạnh,…), bài toán phân lớp văn bản sau tìm

kiếm,… Hiện nay có rất nhiều bộ phân lớp đạt được độ chính xác cao (đều xấp xỉ

90%), tuy nhiên các bộ phân lớp này hầu hết chỉ áp dụng cho một ngôn ngữ cụ thể.

Thực tế cho thấy, đối với bài toán lọc nội dung trang Web thì một vấn đề đặt ra là phải

xử lý trên nhiều ngôn ngữ khác nhau. Một trong hướng nghiên cứu phân lớp văn bản

được quan tâm gần đây là phân lớp đa ngôn ngữ [7]. Khoá luận này nghiên cứu và đề

xuất một phương pháp phân lớp nội dung Web độc lập ngôn ngữ. Phương pháp này

cho phép tích hợp thêm các ngôn ngữ mới vào bộ phân lớp và giải quyết vấn đề bùng

nổ đặc trưng thông qua hướng tiếp cận entropy cực đại và sử dụng chiến lược tối ưu

hoá hàm nhiều biến rất hiệu quả. Các kết quả thực nghiệm cho thấy hướng tiếp cận của

khoá luận rất khả quan, cụ thể, khi huấn luyện riêng biệt trên từng ngôn ngữ đều nhận

được kết quả rất cao (Anh trên 98%, Việt trên 91%), còn khi có sự kết hợp của hai

ngôn ngữ kết quả đạt được cũng rất khả quan (Anh-Việt xấp xỉ 95%). Đặc biệt khi cho

mô hình kiểm tra trên một tập dữ liệu hoàn toàn mới kết quả cũng rất khả quan (độ

chính xác Anh-Việt xấp xỉ 84%). Bên cạnh đó, khoá luận cũng đã phân tích các vấn đề

cơ bản của bài toán phân lớp văn bản độc lập ngôn ngữ đó là sự nhập nhằng ngôn ngữ

và sự bùng nổ đặc trưng, sau đó đã đưa ra các phương pháp khắc phục khá hiệu quả.

Một đề xuất mới mà khoá luận đưa ra là mô hình dựa trên cây phân lớp thông minh.

Đề xuất này có nhiều triển vọng cho các ứng dụng nhỏ cần phân loại văn bản và nhận

diện được ngôn ngữ.

ii

MỤC LỤC

LỜI CẢM ƠN.................................................................................................................. i

TÓM TẮT NỘI DUNG................................................................................................... i

MỤC LỤC ...................................................................................................................... ii

BẢNG KÍ HIỆU VIẾT TẮT ......................................................................................... iv

DANH MỤC BẢNG SỐ LIỆU.......................................................................................v

DANH MỤC HÌNH ẢNH............................................................................................. vi

MỞ ĐẦU .........................................................................................................................1

CHƯƠNG 1. KHÁI QUÁT VỀ PHÂN LỚP VĂN BẢN ĐỘC LẬP NGÔN NGỮ......3

1.1. Bài toán phân lớp văn bản ...................................................................................3

1.1.1. Tổng quan......................................................................................................3

1.2. Phân lớp văn bản độc lập ngôn ngữ .....................................................................4

1.2.1. Đặt vấn đề......................................................................................................4

1.2.2. Phân lớp văn bản độc lập ngôn ngữ ..............................................................5

1.2.3. Ý nghĩa và ứng dụng .....................................................................................5

CHƯƠNG 2. CÁC MÔ HÌNH VÀ THUẬT TOÁN PHÂN LỚP VĂN BẢN...............7

2.1. Giới thiệu.............................................................................................................7

2.2. Mô hình Maximum Entropy................................................................................7

2.2.1. Giới thiệu.......................................................................................................7

2.2.2. Xây dựng mô hình .........................................................................................9

2.3. Tổng kết chương.................................................................................................16

CHƯƠNG 3. PHÂN LỚP TÀI LIỆU WEB ĐỘC LẬP NGÔN NGỮ VỚI MÔ HÌNH

ENTROPY CỰC ĐẠI ...................................................................................................17

3.1 Giới thiệu............................................................................................................17

3.2. Bài toán phân lớp văn bản độc lập ngôn ngữ ....................................................17

3.2.1. Vấn đề nhập nhằng ngôn ngữ......................................................................17

3.2.2. Vấn đề bùng nổ đặc trưng ...........................................................................18

3.3. Quy trình xây dựng bộ phân lớp........................................................................19

3.3.1. Tiền xử lý dữ liệu ........................................................................................19

3.3.2. Xây dựng đặc trưng .....................................................................................20

3.3.3. Lựa chọn đặc trưng......................................................................................21

3.3.4. Huấn luyện mô hình ....................................................................................23

3.3.5. Phân lớp văn bản mới..................................................................................23

3.4. Đánh giá độ chính xác của bộ phân lớp ............................................................24

iii

3.4.1. Các độ đo.....................................................................................................24

3.4.2. Áp dụng phương pháp ước lượng chéo trên k tập con ................................25

3.5. Xây dựng bộ phân lớp trên cây phân lớp thông minh.......................................25

3.5.1. Bản chất bài toán .........................................................................................26

3.5.2. Phân lớp cho văn bản mới ...........................................................................26

3.5.3. Thảo luận.....................................................................................................27

3.6. Tổng kết chương................................................................................................27

CHƯƠNG 4. KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ .........................................28

4.1. Môi trường thử nghiệm ......................................................................................28

4.1.1. Môi trường phần cứng.................................................................................28

4.1.2. Công cụ phần mềm......................................................................................28

4.2. Dữ liệu kiểm thử.................................................................................................29

4.2.1. Tiền xử lý dữ liệu ........................................................................................29

4.2.2. Cây phân lớp................................................................................................30

4.3. Kết quả thử nghiệm ............................................................................................31

4.3.1. Quá trình huấn luyện ...................................................................................31

4.3.2. Lần lặp cho độ chính xác cao nhất ..............................................................34

4.3.3. Kết quả kiểm tra trên dữ liệu mới ...............................................................35

4.4. Tổng kết chương.................................................................................................36

KẾT LUẬN ...................................................................................................................37

PHỤ LỤC. DANH SÁCH STOP-WORD ....................................................................38

TÀI LIỆU THAM KHẢO .............................................................................................41

Tải ngay đi em, còn do dự, trời tối mất!