Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Phân loại thư rác bằng phương pháp học máy
Nội dung xem thử
Mô tả chi tiết
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
-------o0o-------
PHẠM THỊ KIM DUNG
PHÂN LOẠI THƯ RÁC
BẰNG PHƯƠNG PHÁP HỌC MÁY
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái nguyên, 2015
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
-------o0o-------
PHẠM THỊ KIM DUNG
PHÂN LOẠI THƯ RÁC
BẰNG PHƯƠNG PHÁP HỌC MÁY
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS. TS ĐỖ TRUNG TUẤN
Thái nguyên, 2015
ii
MỤC LỤC
MỤC LỤC.......................................................................................................................ii
LỜI CAM KẾT ..............................................................................................................iv
LỜI CẢM ƠN .................................................................................................................v
DANH MỤC CÁC TỪ VIẾT TẮT ...............................................................................vi
DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU ..................................................................vii
MỞ ĐẦU.......................................................................................................................vii
CHƯƠNG 1.TỔNG QUAN VỀ HỌC MÁY VÀ THƯ RÁC........................................3
1.1. Tổng quan về hoc ṃ áy .........................................................................................3
1.1.1 Trí
tuê ̣nhân tạo ..............................................................................................3
1.1.2. Học máy ........................................................................................................4
1.1.3. Các kĩ thuật học máy.....................................................................................5
1.1.4. Một số ứng dụng của học máy ......................................................................7
1.1.5. Học có giám sát.............................................................................................7
1.2. Tổng quan về thư rác..........................................................................................12
1.2.1. Định nghĩa về thư rác và các đặc trưng của thư rác....................................12
1.2.2. Phân loại thư rác..........................................................................................15
1.2.3. Đặc điểm thư rác .........................................................................................15
1.2.4. Tác hại của thư rác ......................................................................................16
1.2.5. Quy trình và thủ đoạn gửi thư rác ............................................................17
1.3. Biểu diễn phân loại thư rác dựa trên học máy có giám sát ................................20
1.3.1. Nhu cầu phân loại thư rác ...........................................................................20
1.3.2. Cách biểu diễn nội dung thư rác .................................................................23
1.4. Kết luận chương .................................................................................................27
CHƯƠNG 2. PHÂN LOẠI THƯ RÁC BẰNG MỘT SỐ THUẬT TOÁN HỌC
MÁY CÓ GIÁM SÁT...................................................................................................28
2.1. Thuật toán Naïve Bayes.....................................................................................28
2.1.1.Giới thiệu Thuật toán Naïve Bayes..............................................................28
2.1.2. Mô tả thuật toán ..........................................................................................28
2.1.3. Áp dụng trong phân loại thư rác .................................................................33
iii
2.2. Học máy theo phương pháp máy vec tơ tựa SVM.............................................36
2.2.1. Giới thiệu SVM...........................................................................................36
2.2.2. Mô tả thuật toán ..........................................................................................37
2.2.2. Huấn luyện SVM.........................................................................................40
2.2.3. Ứng dụng trong phân loại thư rác ...............................................................40
2.3. Xây dựng mô hình lọc thư rác dựa trên học máy có giám sát ...........................41
2.3.1. Lựa chọn mô hình và thuật toán..................................................................41
2.3.2. Xây dựng hệ thống......................................................................................41
2.4. Kết luận chương .................................................................................................46
CHƯƠNG 3.CÀI ĐẶT THỬ NGHỆM VIỆC PHÂN LOẠI THƯ RÁC.....................47
3.1. Bài toán phân loại thư rác ..................................................................................47
3.2. Cài đặt thử nghiệm và kết quả............................................................................50
3.2.1. Bộ dữ liệu thử nghiệm.................................................................................50
3.2.2. Môi trường cài đặt.......................................................................................52
3.2.3. Giao diện của chương trình thử nghiệm......................................................52
3.2.4. Kết quả thử nghiệm.....................................................................................54
3.3. Đánh giá thử nghiệm..........................................................................................55
3.4. Kết luận chương .................................................................................................56
KẾT LUẬN...................................................................................................................57
Các kết quả đạt được .............................................................................................57
Hướng phát triển luận văn.....................................................................................57
DANH MỤC TÀI LIỆU THAM KHẢO......................................................................58
iv
LỜI CAM KẾT
Dưới sự giúp đỡ nhiệt tình và chỉ bảo chi tiết của giáo viên hướng dẫn, tôi đã
hoàn thành luận văn của mình. Tôi xin cam kết luận văn này là của bản thân tôi làm
và nghiên cứu, không hề trùng hay sao chép của bất kỳ ai.
Tài liệu được sử dụng trong luận văn được thu thập từ các nguồn kiến
thức hợp pháp.
Tác giả luận văn
Phạm Thị Kim Dung
v
LỜI CẢM ƠN
Để hoàn thành chương trình cao học và viết luận văn này, em đã nhận được
sự giúp đỡ và đóng góp nhiệt tình của các thầy cô trường Đại học Công nghệ thông
tin và Truyền thông, Đại học Thái Nguyên.
Trước hết, em xin chân thành cảm ơn các thầy cô trong khoa Đào tạo sau đại
học, đã tận tình giảng dạy, trang bị cho em những kiến thức quý báu trong suốt
những năm học qua.
Xin chân thành cảm ơn gia đình, bạn bè đã nhiệt tình ủng hộ, giúp đỡ, động
viên cả về vật chất lẫn tinh thần trong thời gian học tập và nghiên cứu.
Trong quá trình thực hiện luận văn, mặc dù đã rất cố gắng nhưng cũng không
tránh khỏi những thiếu sót. Kính mong nhận được sự cảm thông và tận tình chỉ bảo
của các thầy cô và các bạn.