Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Kiểm Duyệt Bài Viết Và Bình Luận Tiếng Việt Có Nội Dung Không Phù Hợp Trên Mạng Xã Hội Facebook
PREMIUM
Số trang
89
Kích thước
2.8 MB
Định dạng
PDF
Lượt xem
1672

Kiểm Duyệt Bài Viết Và Bình Luận Tiếng Việt Có Nội Dung Không Phù Hợp Trên Mạng Xã Hội Facebook

Nội dung xem thử

Mô tả chi tiết

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

BÙI VĂN MINH

KIỂM DUYỆT BÀI VIẾT VÀ BÌNH LUẬN TIẾNG VIỆT

CÓ NỘI DUNG KHÔNG PHÙ HỢP TRÊN

MẠNG XÃ HỘI FACEBOOK

LUẬN VĂN THẠC SĨ AN TOÀN THÔNG TIN

Hà Nội, tháng 12/2021

2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

BÙI VĂN MINH

KIỂM DUYỆT BÀI VIẾT VÀ BÌNH LUẬN TIẾNG VIỆT

CÓ NỘI DUNG KHÔNG PHÙ HỢP TRÊN

MẠNG XÃ HỘI FACEBOOK

Ngành: Công nghệ thông tin

Chuyên ngành: An toàn thông tin

Mã số: 8480202.01

LUẬN VĂN THẠC SĨ AN TOÀN THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Lê Đình Thanh

Hà Nội, tháng 12/2021

3

LỜI CAM ĐOAN

Tôi cam đoan rằng, luận văn “Kiểm duyệt bài viết và bình luận tiếng Việt

có nội dung không phù hợp trên mạng xã hội Facebook” là công trình nghiên

cứu của riêng tôi. Những số liệu được sử dụng trong luận văn là trung thực được

chỉ rõ nguồn trích dẫn. Kết quả nghiên cứu này chưa được công bố trong bất kỳ

công trình nghiên cứu nào từ trước đến nay.

Tôi hoàn toàn chịu trách nhiệm với lời cam đoan của mình.

Hà Nội, ngày tháng 12 năm 2021

Người cam đoan

Bùi Văn Minh

4

LỜI CẢM ƠN

Để hoàn thành luận văn này, ngoài sự cố gắng của bản thân, tôi đã nhận

được sự giúp đỡ của nhiều tập thể, cá nhân trong và ngoài trường.

Tôi xin bày tỏ lòng biết ơn đến TS. Lê Đình Thanh đã luôn tận tình hướng

dẫn, động viên tôi thực hiện luận văn này.

Tôi xin bày tỏ lòng biết ơn tới các quý thầy cô Ngành An toàn thông tin,

Khoa Công nghệ Thông tin nói riêng và trong Trường Đại học Công nghệ -

ĐHQGHN nói chung đã tạo điều kiện tốt nhất cho tôi trong quá trình học tập,

nghiên cứu và hoàn thiện luận văn này.

Cuối cùng, tôi xin cảm ơn gia đình, đồng nghiệp, bạn bè, người thân đã

động viên, khích lệ tôi trong quá trình học tập và nghiên cứu.

Mặc dù bản thân đã có rất nhiều cố gắng nhưng luận văn không tránh khỏi

những khiếm khuyết, hạn chế. Vì vậy, tôi rất mong được sự góp ý chân thành

của quý thầy cô, đồng nghiệp và bạn đọc để luận văn được hoàn thiện hơn.

Xin trân trọng cảm ơn!

Hà Nội, tháng 12 năm 2021

Tác giả luận văn

Bùi Văn Minh

5

MỤC LỤC

LỜI CAM ĐOAN.................................................................................................. 3

LỜI CẢM ƠN ....................................................................................................... 4

MỤC LỤC............................................................................................................. 5

DANH SÁCH CÁC HÌNH................................................................................... 7

DANH SÁCH CÁC BẢNG ................................................................................ 10

DANH SÁCH CHỮ VIẾT TẮT......................................................................... 11

LỜI MỞ ĐẦU ..................................................................................................... 12

CHƯƠNG 1: CƠ SỞ KHOA HỌC.................................................................... 14

1.1. Nội dung phản động trên Facebook ......................................................... 14

1.2. Tác hại của nội dung phản động trên Facebook ...................................... 17

1.3. Kiểm duyệt nội dung phản động trên Facebook ...................................... 19

1.4. Mục tiêu nghiên cứu của luận văn ........................................................... 20

1.5. Cấu trúc của luận văn............................................................................... 21

CHƯƠNG 2: ĐỀ XUẤT PHƯƠNG PHÁP....................................................... 23

2.1. Danh sách đen .......................................................................................... 23

2.1.1. User Facebook phản động................................................................... 23

2.1.2. Fanpage Facebook phản động............................................................. 24

2.1.3. Group Facebook phản động................................................................ 24

2.1.4. Website, blog phản động .................................................................... 24

2.2. Phương pháp học máy.............................................................................. 25

2.2.1. Trích chọn đặc trưng nội dung phản động.......................................... 25

2.2.2. Mô hình, thuật toán phân loại phổ biến .............................................. 39

2.3. Sử dụng Hệ số tương quan Matthews...................................................... 44

CHƯƠNG 3: CÀI ĐẶT THỬ NGHIỆM........................................................... 46

3.1. Mô hình kiểm duyệt nội dung phản động ................................................ 46

3.2. Xây dựng các blacklist phản động ........................................................... 47

3.3. Xây dựng tập dữ liệu mẫu........................................................................ 51

3.3.1. Thu thập dữ liệu .................................................................................. 51

3.3.2. Gán nhãn dữ liệu................................................................................. 54

3.4. Xây dựng bộ từ điển phản động............................................................... 55

3.5. Xây dựng vector đặc trưng....................................................................... 56

6

3.6. Các mô hình thử nghiệm.......................................................................... 58

3.6.1. SVM-3f ............................................................................................... 59

3.6.2. SVM-2f ............................................................................................... 60

3.6.3. MLP-2f................................................................................................ 60

3.6.4. MLP-3f................................................................................................ 61

3.6.5. SVM-BERT ........................................................................................ 61

3.6.6. MLP-BERT......................................................................................... 62

CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN................................... 72

4.1. Kết luận .................................................................................................... 72

4.2. Hướng phát triển ...................................................................................... 72

TÀI LIỆU THAM KHẢO .................................................................................. 74

PHỤ LỤC............................................................................................................ 78

Mục 1: Trích xuất dữ liệu bình luận vào CSDL ............................................. 78

Mục 2: Xây dựng vector đặc trưng ................................................................. 78

Mục 3: Một số kết quả thực nghiệm ............................................................... 85

Mục 4: Kiểm duyệt nội dung phản động trên Facebook................................. 88

7

DANH SÁCH CÁC HÌNH

Hình 2.1: Quy trình NLP..................................................................................... 26

Hình 2.2. Kết quả thử nghiệm các mô hình phân loại văn bản tiếng Việt của

nhóm Underthesea............................................................................................... 32

Hình 2.3. Kiến trúc mô hình BERT ..................................................................... 34

Hình 2.4. Mô hình chung của Word2Vec............................................................ 38

Hình 2.5. Support Vectors trong SVM ................................................................ 41

Hình 2.6. Margin trong SVM .............................................................................. 41

Hình 2.7: Cấu tạo mạng MLP cơ bản................................................................. 43

Hình 2.8: Sử dụng mô hình MLP cho bài toán phân loại văn bản..................... 43

Hình 3.1: Mô hình kiểm duyệt 02 lớp đối với bài viết, bình luận phản động..... 46

trên Facebook...................................................................................................... 46

Hình 3.2: Minh họa thu thập bài viết bằng Selenium......................................... 52

Hình 3.3: Minh họa thu thập bình luận bằng Selenium...................................... 53

Hình 3.4: Mẫu dữ liệu bài viết thu thập được..................................................... 54

Hình 3.5: Mẫu dữ liệu bình luận thu thập được ................................................. 54

Hình 3.6: Mẫu dữ liệu bình luận sau khi được gán nhãn................................... 55

Hình 3.7: Danh sách từ điển phản động đã xây dựng ........................................ 56

Hình 3.8: Tham số C tốt nhất.............................................................................. 59

Hình 3.9: Kết quả thử nghiệm bộ vector đặc trưng bao gồm Blacklist word phản

động, hình thái, n-gram với thuật toán SVM ...................................................... 60

Hình 3.10: Kết quả thử nghiệm bộ vector đặc trưng bao gồm Blacklist word

phản động, hình thái với thuật toán SVM ........................................................... 60

Hình 3.11: Kết quả huấn luyện bộ vector đặc trưng bao gồm Blacklist word

phản động và hình thái với mô hình MLP........................................................... 60

Hình 3.12: Kết quả huấn luyện bộ vector đặc trưng bao gồm Blacklist word

phản động, hình thái và n-gram với mô hình MLP............................................. 61

Hình 3.13: Kết quả huấn luyện mô hình sử dụng pretrained PhoBERT kết hợp

với thuật toán SVM.............................................................................................. 61

Hình 3.14: Kết quả huấn luyện mô hình sử dụng pretrained PhoBERT kết hợp

với mô hìnhMLP.................................................................................................. 62

8

Hình 3.15: Kết quả thực nghiệm các mô hình .................................................... 62

Hình 3.16: Cấu trúc thư mục extension .............................................................. 64

Hình 3.17: File manifest.json.............................................................................. 64

Hình 3.18: Giao diện extension Chrome ............................................................ 66

Hình 3.19: Cài đặt extension thành công ........................................................... 66

Hình 3.20: Trước khi sử dụng extension............................................................. 67

Hình 3.21: Extension chặn các nhóm độc hại, chống phá.................................. 68

Hình 3.22: Extension chặn các người dùng có hành vi phản động.................... 68

Hình 3.23: Extension chặn các trang mạng có hành vi phản động.................... 69

Hình 3.24: Kết quả hoạt động của extension trên bài viết ................................. 69

Hình 3.25: Sau khi hiện ra bài viết bị ẩn (bài viết sẽ vẫn bị làm mờ)................ 70

Hình 3.26: Kết quả hoạt động của extension trên bình luận.............................. 71

Hình 3.27: Sau khi hiện ra bình luận bị ẩn......................................................... 71

Hình 3.28: Code tách comment json bằng Python.............................................. 78

Hình 3.29: Mã nguồn đọc bộ dữ liệu bao gồm 20.000 bài viết, bình luận trên

Facebook từ nhiều user, fanpage, group khác nhau........................................... 78

Hình 3.30: Mẫu dữ liệu sử dụng cho huấn luyện và kiểm tra mô hình .............. 79

Hình 3.31: Mã nguồn tính toán độ phản động của các bài viết, bình luận........ 79

Hình 3.32: Hàm tính toán tỉ lệ ký tự viết hoa trong bình luận, bài viết ............. 80

Hình 3.33: Hàm tính độ dài bài viết ................................................................... 80

Hình 3.34: Hàm tính tần suất sử dụng các ký tự không phải alphabet .............. 80

Hình 3.35: Hàm tính tần suất sử dụng các ký tự đặc biệt................................... 81

Hình 3.36: Hàm tính độ dài trung bình các từ.................................................... 81

Hình 3.37: Hàm tính tần suất sử dụng các từ viết tắt......................................... 82

Hình 3.38: Sử dụng bigram và trigram mức ký tự cho bài viết, bình luận......... 82

Hình 3.39: Đặc trưng về độ phản động .............................................................. 83

Hình 3.40: Đặc trưng về hình thái...................................................................... 83

Hình 3.41: Đặc trưng n-gram ............................................................................. 83

Hình 3.42: Phân chia dữ liệu và tính toán vector đặc trưng.............................. 83

Hình 3.43: Thuật toán GridSearchCV tìm tham số C tối ưu .............................. 84

Hình 3.44: Load pretrained PhoBERT model và tiền xử lý văn bản.................. 84

Hình 3.45: Tạo features từ PhoBert.................................................................... 85

Tải ngay đi em, còn do dự, trời tối mất!