Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Phân loại thư rác bằng phương pháp học máy
PREMIUM
Số trang
67
Kích thước
2.2 MB
Định dạng
PDF
Lượt xem
1058

Phân loại thư rác bằng phương pháp học máy

Nội dung xem thử

Mô tả chi tiết

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

-------o0o-------

PHẠM THỊ KIM DUNG

PHÂN LOẠI THƯ RÁC

BẰNG PHƯƠNG PHÁP HỌC MÁY

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái nguyên, 2015

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

-------o0o-------

PHẠM THỊ KIM DUNG

PHÂN LOẠI THƯ RÁC

BẰNG PHƯƠNG PHÁP HỌC MÁY

Chuyên ngành: Khoa học máy tính

Mã số: 60 48 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC

PGS. TS ĐỖ TRUNG TUẤN

Thái nguyên, 2015

ii

MỤC LỤC

MỤC LỤC.......................................................................................................................ii

LỜI CAM KẾT ..............................................................................................................iv

LỜI CẢM ƠN .................................................................................................................v

DANH MỤC CÁC TỪ VIẾT TẮT ...............................................................................vi

DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU ..................................................................vii

MỞ ĐẦU.......................................................................................................................vii

CHƯƠNG 1.TỔNG QUAN VỀ HỌC MÁY VÀ THƯ RÁC........................................3

1.1. Tổng quan về hoc ṃ áy .........................................................................................3

1.1.1 Trí

tuê ̣nhân tạo ..............................................................................................3

1.1.2. Học máy ........................................................................................................4

1.1.3. Các kĩ thuật học máy.....................................................................................5

1.1.4. Một số ứng dụng của học máy ......................................................................7

1.1.5. Học có giám sát.............................................................................................7

1.2. Tổng quan về thư rác..........................................................................................12

1.2.1. Định nghĩa về thư rác và các đặc trưng của thư rác....................................12

1.2.2. Phân loại thư rác..........................................................................................15

1.2.3. Đặc điểm thư rác .........................................................................................15

1.2.4. Tác hại của thư rác ......................................................................................16

1.2.5. Quy trình và thủ đoạn gửi thư rác ............................................................17

1.3. Biểu diễn phân loại thư rác dựa trên học máy có giám sát ................................20

1.3.1. Nhu cầu phân loại thư rác ...........................................................................20

1.3.2. Cách biểu diễn nội dung thư rác .................................................................23

1.4. Kết luận chương .................................................................................................27

CHƯƠNG 2. PHÂN LOẠI THƯ RÁC BẰNG MỘT SỐ THUẬT TOÁN HỌC

MÁY CÓ GIÁM SÁT...................................................................................................28

2.1. Thuật toán Naïve Bayes.....................................................................................28

2.1.1.Giới thiệu Thuật toán Naïve Bayes..............................................................28

2.1.2. Mô tả thuật toán ..........................................................................................28

2.1.3. Áp dụng trong phân loại thư rác .................................................................33

iii

2.2. Học máy theo phương pháp máy vec tơ tựa SVM.............................................36

2.2.1. Giới thiệu SVM...........................................................................................36

2.2.2. Mô tả thuật toán ..........................................................................................37

2.2.2. Huấn luyện SVM.........................................................................................40

2.2.3. Ứng dụng trong phân loại thư rác ...............................................................40

2.3. Xây dựng mô hình lọc thư rác dựa trên học máy có giám sát ...........................41

2.3.1. Lựa chọn mô hình và thuật toán..................................................................41

2.3.2. Xây dựng hệ thống......................................................................................41

2.4. Kết luận chương .................................................................................................46

CHƯƠNG 3.CÀI ĐẶT THỬ NGHỆM VIỆC PHÂN LOẠI THƯ RÁC.....................47

3.1. Bài toán phân loại thư rác ..................................................................................47

3.2. Cài đặt thử nghiệm và kết quả............................................................................50

3.2.1. Bộ dữ liệu thử nghiệm.................................................................................50

3.2.2. Môi trường cài đặt.......................................................................................52

3.2.3. Giao diện của chương trình thử nghiệm......................................................52

3.2.4. Kết quả thử nghiệm.....................................................................................54

3.3. Đánh giá thử nghiệm..........................................................................................55

3.4. Kết luận chương .................................................................................................56

KẾT LUẬN...................................................................................................................57

Các kết quả đạt được .............................................................................................57

Hướng phát triển luận văn.....................................................................................57

DANH MỤC TÀI LIỆU THAM KHẢO......................................................................58

iv

LỜI CAM KẾT

Dưới sự giúp đỡ nhiệt tình và chỉ bảo chi tiết của giáo viên hướng dẫn, tôi đã

hoàn thành luận văn của mình. Tôi xin cam kết luận văn này là của bản thân tôi làm

và nghiên cứu, không hề trùng hay sao chép của bất kỳ ai.

Tài liệu được sử dụng trong luận văn được thu thập từ các nguồn kiến

thức hợp pháp.

Tác giả luận văn

Phạm Thị Kim Dung

v

LỜI CẢM ƠN

Để hoàn thành chương trình cao học và viết luận văn này, em đã nhận được

sự giúp đỡ và đóng góp nhiệt tình của các thầy cô trường Đại học Công nghệ thông

tin và Truyền thông, Đại học Thái Nguyên.

Trước hết, em xin chân thành cảm ơn các thầy cô trong khoa Đào tạo sau đại

học, đã tận tình giảng dạy, trang bị cho em những kiến thức quý báu trong suốt

những năm học qua.

Xin chân thành cảm ơn gia đình, bạn bè đã nhiệt tình ủng hộ, giúp đỡ, động

viên cả về vật chất lẫn tinh thần trong thời gian học tập và nghiên cứu.

Trong quá trình thực hiện luận văn, mặc dù đã rất cố gắng nhưng cũng không

tránh khỏi những thiếu sót. Kính mong nhận được sự cảm thông và tận tình chỉ bảo

của các thầy cô và các bạn.

Tải ngay đi em, còn do dự, trời tối mất!