Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nghiên Cứu Các Phương Pháp Lọc Thư Rác Tại Việt Nam Và Trên Thế Giới Xây Dựng Và Đề Xuất Phương Án Lọc Thư Rác Tiếng Việt
PREMIUM
Số trang
73
Kích thước
2.1 MB
Định dạng
PDF
Lượt xem
1663

Nghiên Cứu Các Phương Pháp Lọc Thư Rác Tại Việt Nam Và Trên Thế Giới Xây Dựng Và Đề Xuất Phương Án Lọc Thư Rác Tiếng Việt

Nội dung xem thử

Mô tả chi tiết

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LÂM TĂNG DOAN

NGHIÊN CỨU CÁC PHƯƠNG PHÁP LỌC THƯ RÁC

TẠI VIỆT NAM VÀ TRÊN THẾ GIỚI, XÂY DỰNG VÀ

ĐỀ XUẤT PHƯƠNG ÁN LỌC THƯ RÁC TIẾNG VIỆT

Ngành: Công nghệ Thông tin

Chuyên ngành: Quản lý hệ thống thông tin

Mã Số: 8480205.01

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Nguyễn Hà Nam

Hà nội – 11/2020

i

Mục lục

LỜI CẢM ƠN................................................................................................ iii

LỜI CAM ĐOAN...........................................................................................iv

DANH MỤC HÌNH VẼ..................................................................................v

Chương 1: Giới thiệu......................................................................................1

1.1. Mục tiêu của nghiên cứu..............................................................1

1.2. Phương pháp nghiên cứu.............................................................2

1.3. Cấu trúc luận văn .........................................................................2

1.4. Tổng quan về thư rác ...................................................................2

1.4.1. Định nghĩa.........................................................................2

1.4.2. Thống kê và tác hại của thư rác......................................3

1.4.3. Phương pháp phân loại thư rác ......................................6

1.4.4. Các loại thư rác.................................................................7

1.4.5. Mô hình lọc thư rác ........................................................10

1.4.6. Quy trình hoạt động của lọc thư rác ............................13

1.4.7. Quy trình lọc thư điện tử sử dụng học máy.................14

1.4.8. Mô hình lọc thư rác của Zimbra...................................14

Chương 2. Các kỹ thuật lọc thư rác thư rác ..............................................19

2.1. Các kỹ thuật giảm thiểu thư rác ................................................19

2.1.1. Lọc IP...............................................................................19

2.1.2. Danh sách xám và phản hồi - thách thức .....................20

2.1.3. Cải thiện xác thực thư để phòng chống thư rác ..........20

2.1.4. Bảo vệ địa chỉ ..................................................................22

2.2. Các kỹ thuật lọc thư rác.............................................................22

2.2.1. Phương thức trích xuất thư điện tử..............................23

2.2.2. Các kỹ thuật lọc thư rác cơ bản....................................32

2.2.3. Các kỹ thuật lọc thư rác thông minh............................35

2.3. Các nghiên cứu về lọc thư rác trên thế giới .............................40

2.4. Một số nghiên cứu về thư rác tại Việt Nam .............................42

ii

Chương 3. Đề xuất và Thực nghiệm ...........................................................44

3.1. Đề xuất giải pháp lọc thư rác ....................................................44

3.1.1. Mô hình thực nghiệm vật lý...........................................45

3.1.2. Lọc thư rác sử dụng SVM và Naïve Bayes...................46

3.1.3. Xây dựng quy tắc lọc tiếng Việt....................................48

3.2. Thực nghiệm ...............................................................................55

3.2.1. Dữ liệu huấn luyện .........................................................55

3.2.2. Kiểm thử hệ thống khi chưa cài Naïve Bayes..............55

3.2.3. Kiểm thử hệ thống chỉ có Naïve Bayes.........................56

3.2.4. Tỉ lệ lọc sau khi tích hợp SVM-NB...............................59

3.2.5. Kiểm tra các quy tắc tự xây dựng.................................61

KẾT LUẬN....................................................................................................64

TÀI LIỆU THAM KHẢO............................................................................65

iii

LỜI CẢM ƠN

Trước tiên tôi xin dành lời cảm ơn chân thành và sâu sắc đến thầy giáo,

PGS. TS. Nguyễn Hà Nam – người đã hướng dẫn, khuyến khích, chỉ bảo và

tạo cho tôi những điều kiện tốt nhất từ khi bắt đầu cho tới khi hoàn thành công

việc của mình.

Tôi xin dành lời cảm ơn chân thành tới các thầy cô giáo khoa Công nghệ

thông tin, trường Đại học Công nghệ, ĐHQGHN đã tận tình huấn luyện, cung

cấp cho tôi những kiến thức vô cùng quý giá và đã tạo điều kiện tốt nhất cho

tôi trong suốt quá trình học tập, nghiên cứu tại trường.

Đồng thời tôi xin cảm ơn tất cả những người thân yêu trong gia đình tôi

cùng toàn thể bạn bè những người đã luôn giúp đỡ, động viên tôi những khi

vấp phải những khó khăn, bế tắc.

Cuối cùng, tôi xin chân thành cảm ơn các đồng nghiệp của tôi tại Trường

Đại Học Kinh tế - Đại học Quốc Gia Hà Nội đã giúp đỡ, tạo điều kiện thuận

lợi cho tôi học tập và nghiên cứu chương trình thạc sĩ tại Đại học Công nghệ,

Đại học Quốc Gia Hà Nội.

iv

LỜI CAM ĐOAN

Tôi xin cam đoan rằng luận văn thạc sĩ công nghệ thông tin “Nghiên cứu

các phương pháp lọc thư rác tại việt nam và trên thế giới, xây dựng và đề xuất

phương án lọc thư rác tiếng Việt” là công trình nghiên cứu của riêng tôi, không

sao chép lại của người khác. Trong toàn bộ nội dung của luận văn, những điều

đã được trình bày hoặc là của chính cá nhân tôi hoặc là được tổng hợp từ nhiều

nguồn tài liệu. Tất cả các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và

hợp pháp.

Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo

quy định cho lời cam đoan này.

Hà Nội, ngày 20 tháng 12 năm 2020.

Lâm Tăng Doan

v

DANH MỤC HÌNH VẼ

Hình 1.1. Tỉ lệ thư rác điện tử từ năm 2012 đến 2018 [3].................................................................3

Hình 1.2. Thống kê phân loại các nội dung của thư rác năm 2020 [5]..............................................7

Hình 1.3. Mô hình khái quát về gửi, nhận thư điện tử....................................................................10

Hình 1.4. Mô hình lọc thư rác [9]....................................................................................................12

Hình 1.8. Quy trình lọc nội dung thư rác [9]...................................................................................13

Hình 1.9. Quy trình lọc nội dung thư điện tử [9].............................................................................14

Hình 1.5. Mô hình xử lý thư của Zimbra.........................................................................................15

Hình 1.6. Chi tiết điểm số trên tiêu đề thư rác được đánh dấu bởi Spamassassin ...........................17

Hình 1.7. Thành phần chính của mô đun lọc của Spamassassin [11]..............................................17

Hình 3.1. Kiến trúc mô hình lọc thư rác ..........................................................................................45

Hình 3.2. Tỉ lệ xuất hiện của các cụm từ .........................................................................................51

Hình 3.3. Thống kê các cụm từ tiếng Việt xuất hiện nhiều nhất trong dữ liệu huấn luyện .............51

Hình 3.4. Các quy tắc tạo ra để ổn định hệ thống lọc......................................................................54

Hình 3.5. Quá trì huấn luyện dữ liệu mẫu của Naïve Bayes............................................................55

Hình 3.6. Thư rác chưa được phân loại đúng khi chưa được huấn luyện Naïve Bayes...................56

Hình 3.7 Thư rác được phân loại là thư rác sau khi huấn luyện Naïve Bayes.................................56

Hình 3.8. Kết quả kiểm tra mass-check...........................................................................................57

Hình 3.9. Phân bổ điểm của tập thư rác...........................................................................................57

Hình 3.10. Điểm của 1 thư rác đã có lọc Naïve Bayes....................................................................58

Hình 3.11. Thống kê khả năng lọc thư của hệ thống .......................................................................59

Hình 3.12. Tỉ lệ nhận định thư rác đúng..........................................................................................59

Hình 3.13. Tỉ lệ chính xác của lọc thư rác hợp lệ ............................................................................60

Hình 3.14.Thư rác kiểm thử các quy tắc đã tạo ...............................................................................62

Hình 3.15. Chi tiết tính điểm cho 1 thư đáp ứng quy tắc được tạo..................................................62

1

Chương 1: Giới thiệu

Mạng Internet ra đời đã mở ra nhiều phương thức liên lạc mới, cho phép

liên lạc cách xa hàng nghìn kilomet. Một trong những phương tiện được sử

dụng nhiều nhất để giao tiếp trong công việc cũng như cá nhân đó là thư điện

tử. Thư điện tử cho phép người dùng tiếp cận hàng trăm nghìn người trong

vòng vài giây và hầu như miễn phí. Do đó, số lượng người sử dụng thư điện tử

cho công việc và giao tiếp ngày càng nhiều. Tuy nhiên, do khả năng tiếp cận

nhiều người dễ dàng và miễn phí nên phương thức liên lạc này hay bị lợi dụng

cho mục đích xấu. Trong vài năm gần đây, thư rác (hay còn gọi là spam) đã trở

thành một vấn đề đáng lưu tâm đối với doanh nghiệp và người dùng cá nhân.

Một số thư rác có mục đích thương mại, một số khác để để bày tỏ ý kiến chính

trị hoặc tôn giáo, hoặc lừa đảo khán giả hoặc phát tán virus.

Thư rác đã trở thành một công cụ phổ biến phục vụ cho mục đích xấu

do thư rác dễ triển khai, có khả năng gửi hàng loạt, chi phí thấp và khả năng

tiếp cận người dùng cao. Hơn nữa do trở ngại về công nghệ với cơ sở hạ tầng

thư điện tử, để theo dõi hoặc truy vết cá nhân hoặc nhóm gửi thư rác rất khó và

tốn thời gian. Ngoài ra, những kẻ gửi thư rác thường hay che giấu hoặc giả mạo

địa chỉ của thông điệp. Ngay cả khi chúng được truy tìm, kiến trúc phi tập trung

của Internet gây khó khăn cho việc thực hiện các biện pháp bảo vệ pháp lý.

Tại các trường đại học, các cán bộ công nhân viên cũng như sinh viên

đều đang sử dụng thư điện tử để trao đổi công việc, học tập. Do đó, việc ngăn

chặn thư rác, để làm tăng đường truyền băng thông cho người dùng, giảm lưu

trữ trên máy chủ thư điện tử ngăn chặn phát tán thư độc hại, nội dung tuyên

truyền phản động, phản cảm hay những hành vi lừa đảo trên mạng là vô cùng

cần thiết.

Thực tế và qua quá trình thư thập dữ liệu thư tiếng Việt cho thấy có rất

nhiều thư rác Tiếng Anh ở hòm thư người dùng Việt, thậm chí nhiều hơn thư

rác tiếng Việt. Do đó, ta cần triển khai một bộ lọc thư rác có thể lọc cả thư rác

Tiếng Việt và Tiếng Anh.

1.1. Mục tiêu của nghiên cứu

Dựa theo bối cảnh trên, căn cứ nhu cầu thực tế, đề tài nghiên cứu và triển

khai được hình thành nhằm xây dựng một hệ thống lọc thư rác tiếng Việt. Hiện

nay các hệ thống lọc thư rác được tích hợp sẵn đã lọc thư rác khá hiệu quả đối

với thư điện tử Tiếng Anh và tuy nhiên chưa được tối ưu hóa đối với các thư

Tải ngay đi em, còn do dự, trời tối mất!