Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nghiên Cứu Các Phương Pháp Lọc Thư Rác Tại Việt Nam Và Trên Thế Giới Xây Dựng Và Đề Xuất Phương Án Lọc Thư Rác Tiếng Việt
Nội dung xem thử
Mô tả chi tiết
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LÂM TĂNG DOAN
NGHIÊN CỨU CÁC PHƯƠNG PHÁP LỌC THƯ RÁC
TẠI VIỆT NAM VÀ TRÊN THẾ GIỚI, XÂY DỰNG VÀ
ĐỀ XUẤT PHƯƠNG ÁN LỌC THƯ RÁC TIẾNG VIỆT
Ngành: Công nghệ Thông tin
Chuyên ngành: Quản lý hệ thống thông tin
Mã Số: 8480205.01
LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Nguyễn Hà Nam
Hà nội – 11/2020
i
Mục lục
LỜI CẢM ƠN................................................................................................ iii
LỜI CAM ĐOAN...........................................................................................iv
DANH MỤC HÌNH VẼ..................................................................................v
Chương 1: Giới thiệu......................................................................................1
1.1. Mục tiêu của nghiên cứu..............................................................1
1.2. Phương pháp nghiên cứu.............................................................2
1.3. Cấu trúc luận văn .........................................................................2
1.4. Tổng quan về thư rác ...................................................................2
1.4.1. Định nghĩa.........................................................................2
1.4.2. Thống kê và tác hại của thư rác......................................3
1.4.3. Phương pháp phân loại thư rác ......................................6
1.4.4. Các loại thư rác.................................................................7
1.4.5. Mô hình lọc thư rác ........................................................10
1.4.6. Quy trình hoạt động của lọc thư rác ............................13
1.4.7. Quy trình lọc thư điện tử sử dụng học máy.................14
1.4.8. Mô hình lọc thư rác của Zimbra...................................14
Chương 2. Các kỹ thuật lọc thư rác thư rác ..............................................19
2.1. Các kỹ thuật giảm thiểu thư rác ................................................19
2.1.1. Lọc IP...............................................................................19
2.1.2. Danh sách xám và phản hồi - thách thức .....................20
2.1.3. Cải thiện xác thực thư để phòng chống thư rác ..........20
2.1.4. Bảo vệ địa chỉ ..................................................................22
2.2. Các kỹ thuật lọc thư rác.............................................................22
2.2.1. Phương thức trích xuất thư điện tử..............................23
2.2.2. Các kỹ thuật lọc thư rác cơ bản....................................32
2.2.3. Các kỹ thuật lọc thư rác thông minh............................35
2.3. Các nghiên cứu về lọc thư rác trên thế giới .............................40
2.4. Một số nghiên cứu về thư rác tại Việt Nam .............................42
ii
Chương 3. Đề xuất và Thực nghiệm ...........................................................44
3.1. Đề xuất giải pháp lọc thư rác ....................................................44
3.1.1. Mô hình thực nghiệm vật lý...........................................45
3.1.2. Lọc thư rác sử dụng SVM và Naïve Bayes...................46
3.1.3. Xây dựng quy tắc lọc tiếng Việt....................................48
3.2. Thực nghiệm ...............................................................................55
3.2.1. Dữ liệu huấn luyện .........................................................55
3.2.2. Kiểm thử hệ thống khi chưa cài Naïve Bayes..............55
3.2.3. Kiểm thử hệ thống chỉ có Naïve Bayes.........................56
3.2.4. Tỉ lệ lọc sau khi tích hợp SVM-NB...............................59
3.2.5. Kiểm tra các quy tắc tự xây dựng.................................61
KẾT LUẬN....................................................................................................64
TÀI LIỆU THAM KHẢO............................................................................65
iii
LỜI CẢM ƠN
Trước tiên tôi xin dành lời cảm ơn chân thành và sâu sắc đến thầy giáo,
PGS. TS. Nguyễn Hà Nam – người đã hướng dẫn, khuyến khích, chỉ bảo và
tạo cho tôi những điều kiện tốt nhất từ khi bắt đầu cho tới khi hoàn thành công
việc của mình.
Tôi xin dành lời cảm ơn chân thành tới các thầy cô giáo khoa Công nghệ
thông tin, trường Đại học Công nghệ, ĐHQGHN đã tận tình huấn luyện, cung
cấp cho tôi những kiến thức vô cùng quý giá và đã tạo điều kiện tốt nhất cho
tôi trong suốt quá trình học tập, nghiên cứu tại trường.
Đồng thời tôi xin cảm ơn tất cả những người thân yêu trong gia đình tôi
cùng toàn thể bạn bè những người đã luôn giúp đỡ, động viên tôi những khi
vấp phải những khó khăn, bế tắc.
Cuối cùng, tôi xin chân thành cảm ơn các đồng nghiệp của tôi tại Trường
Đại Học Kinh tế - Đại học Quốc Gia Hà Nội đã giúp đỡ, tạo điều kiện thuận
lợi cho tôi học tập và nghiên cứu chương trình thạc sĩ tại Đại học Công nghệ,
Đại học Quốc Gia Hà Nội.
iv
LỜI CAM ĐOAN
Tôi xin cam đoan rằng luận văn thạc sĩ công nghệ thông tin “Nghiên cứu
các phương pháp lọc thư rác tại việt nam và trên thế giới, xây dựng và đề xuất
phương án lọc thư rác tiếng Việt” là công trình nghiên cứu của riêng tôi, không
sao chép lại của người khác. Trong toàn bộ nội dung của luận văn, những điều
đã được trình bày hoặc là của chính cá nhân tôi hoặc là được tổng hợp từ nhiều
nguồn tài liệu. Tất cả các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và
hợp pháp.
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo
quy định cho lời cam đoan này.
Hà Nội, ngày 20 tháng 12 năm 2020.
Lâm Tăng Doan
v
DANH MỤC HÌNH VẼ
Hình 1.1. Tỉ lệ thư rác điện tử từ năm 2012 đến 2018 [3].................................................................3
Hình 1.2. Thống kê phân loại các nội dung của thư rác năm 2020 [5]..............................................7
Hình 1.3. Mô hình khái quát về gửi, nhận thư điện tử....................................................................10
Hình 1.4. Mô hình lọc thư rác [9]....................................................................................................12
Hình 1.8. Quy trình lọc nội dung thư rác [9]...................................................................................13
Hình 1.9. Quy trình lọc nội dung thư điện tử [9].............................................................................14
Hình 1.5. Mô hình xử lý thư của Zimbra.........................................................................................15
Hình 1.6. Chi tiết điểm số trên tiêu đề thư rác được đánh dấu bởi Spamassassin ...........................17
Hình 1.7. Thành phần chính của mô đun lọc của Spamassassin [11]..............................................17
Hình 3.1. Kiến trúc mô hình lọc thư rác ..........................................................................................45
Hình 3.2. Tỉ lệ xuất hiện của các cụm từ .........................................................................................51
Hình 3.3. Thống kê các cụm từ tiếng Việt xuất hiện nhiều nhất trong dữ liệu huấn luyện .............51
Hình 3.4. Các quy tắc tạo ra để ổn định hệ thống lọc......................................................................54
Hình 3.5. Quá trì huấn luyện dữ liệu mẫu của Naïve Bayes............................................................55
Hình 3.6. Thư rác chưa được phân loại đúng khi chưa được huấn luyện Naïve Bayes...................56
Hình 3.7 Thư rác được phân loại là thư rác sau khi huấn luyện Naïve Bayes.................................56
Hình 3.8. Kết quả kiểm tra mass-check...........................................................................................57
Hình 3.9. Phân bổ điểm của tập thư rác...........................................................................................57
Hình 3.10. Điểm của 1 thư rác đã có lọc Naïve Bayes....................................................................58
Hình 3.11. Thống kê khả năng lọc thư của hệ thống .......................................................................59
Hình 3.12. Tỉ lệ nhận định thư rác đúng..........................................................................................59
Hình 3.13. Tỉ lệ chính xác của lọc thư rác hợp lệ ............................................................................60
Hình 3.14.Thư rác kiểm thử các quy tắc đã tạo ...............................................................................62
Hình 3.15. Chi tiết tính điểm cho 1 thư đáp ứng quy tắc được tạo..................................................62
1
Chương 1: Giới thiệu
Mạng Internet ra đời đã mở ra nhiều phương thức liên lạc mới, cho phép
liên lạc cách xa hàng nghìn kilomet. Một trong những phương tiện được sử
dụng nhiều nhất để giao tiếp trong công việc cũng như cá nhân đó là thư điện
tử. Thư điện tử cho phép người dùng tiếp cận hàng trăm nghìn người trong
vòng vài giây và hầu như miễn phí. Do đó, số lượng người sử dụng thư điện tử
cho công việc và giao tiếp ngày càng nhiều. Tuy nhiên, do khả năng tiếp cận
nhiều người dễ dàng và miễn phí nên phương thức liên lạc này hay bị lợi dụng
cho mục đích xấu. Trong vài năm gần đây, thư rác (hay còn gọi là spam) đã trở
thành một vấn đề đáng lưu tâm đối với doanh nghiệp và người dùng cá nhân.
Một số thư rác có mục đích thương mại, một số khác để để bày tỏ ý kiến chính
trị hoặc tôn giáo, hoặc lừa đảo khán giả hoặc phát tán virus.
Thư rác đã trở thành một công cụ phổ biến phục vụ cho mục đích xấu
do thư rác dễ triển khai, có khả năng gửi hàng loạt, chi phí thấp và khả năng
tiếp cận người dùng cao. Hơn nữa do trở ngại về công nghệ với cơ sở hạ tầng
thư điện tử, để theo dõi hoặc truy vết cá nhân hoặc nhóm gửi thư rác rất khó và
tốn thời gian. Ngoài ra, những kẻ gửi thư rác thường hay che giấu hoặc giả mạo
địa chỉ của thông điệp. Ngay cả khi chúng được truy tìm, kiến trúc phi tập trung
của Internet gây khó khăn cho việc thực hiện các biện pháp bảo vệ pháp lý.
Tại các trường đại học, các cán bộ công nhân viên cũng như sinh viên
đều đang sử dụng thư điện tử để trao đổi công việc, học tập. Do đó, việc ngăn
chặn thư rác, để làm tăng đường truyền băng thông cho người dùng, giảm lưu
trữ trên máy chủ thư điện tử ngăn chặn phát tán thư độc hại, nội dung tuyên
truyền phản động, phản cảm hay những hành vi lừa đảo trên mạng là vô cùng
cần thiết.
Thực tế và qua quá trình thư thập dữ liệu thư tiếng Việt cho thấy có rất
nhiều thư rác Tiếng Anh ở hòm thư người dùng Việt, thậm chí nhiều hơn thư
rác tiếng Việt. Do đó, ta cần triển khai một bộ lọc thư rác có thể lọc cả thư rác
Tiếng Việt và Tiếng Anh.
1.1. Mục tiêu của nghiên cứu
Dựa theo bối cảnh trên, căn cứ nhu cầu thực tế, đề tài nghiên cứu và triển
khai được hình thành nhằm xây dựng một hệ thống lọc thư rác tiếng Việt. Hiện
nay các hệ thống lọc thư rác được tích hợp sẵn đã lọc thư rác khá hiệu quả đối
với thư điện tử Tiếng Anh và tuy nhiên chưa được tối ưu hóa đối với các thư