Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ
PREMIUM
Số trang
175
Kích thước
3.6 MB
Định dạng
PDF
Lượt xem
1507

Kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ

Nội dung xem thử

Mô tả chi tiết

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC LẠC HỒNG

KỸ THUẬT HỌC MÁY PHỐI HỢP VÀ TIỀN XỬ LÝ DỮ LIỆU

TRONG VIỆC NÂNG CAO CHẤT LƯỢNG PHÂN LỚP CỦA

CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Đồng Nai, năm 2022

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC LẠC HỒNG

KỸ THUẬT HỌC MÁY PHỐI HỢP VÀ TIỀN XỬ LÝ DỮ LIỆU

TRONG VIỆC NÂNG CAO CHẤT LƯỢNG PHÂN LỚP CỦA

CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Chuyên ngành: Khoa học máy tính

Mã số ngành: 9480101

Đồng Nai, năm 2022

LỜI CAM ĐOAN

Nghiên cứu sinh

Tôi xin cam đoan luận án tiến sĩ “Kỹ thuật học máy phối hợp và tiền xử lý dữ liệu

trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng” là công

trình nghiên cứu của cá nhân tôi, đây là công trình do tôi thực hiện dưới sự hướng dẫn của

giảng viên, người hướng dẫn khoa học là: PGS. TS. . Các thuật toán, số liệu và kết quả

trình bày trong luận án là hoàn toàn có được từ các thử nghiệm, trung thực và không sao

chép.

LỜI CẢM ƠN

Tôi xin chân thành cảm ơn Quý thầy cô Ban giám hiệu, Khoa công nghệ thông tin,

Khoa sau đại học Trường đại học Lạc Hồng đã giảng dạy và tạo điều kiện thuận lợi cho tôi

trong suốt thời gian tôi tham gia nghiên cứu sinh.

Tôi xin cảm ơn sự hỗ trợ từ Ban giám hiệu, Khoa kỹ thuật và khoa học máy tính,

Trung tâm ngoại ngữ và công nghệ thông tin Trường Đại học Quốc tế Sài Gòn, nơi tôi đang

công tác. Và tôi cũng xin gửi lời cảm ơn chân thành tới các đồng nghiệp, bạn bè - những

người đã luôn quan tâm, động viên tôi trong suốt thời gian qua.

Cuối cùng, tôi xin dành tình cảm đặc biệt đến gia đình, người thân của tôi - những

người đã luôn tin tưởng, động viên và tiếp sức cho tôi thêm nghị lực để tôi vững bước và vượt

qua mọi khó khăn.

Tác giả

Lời đầu tiên, với lòng biết ơn sâu sắc nhất, tôi xin gửi lời cảm ơn tới PGS. TS. -

người hướng dẫn khoa học, thầy là người đã truyền cho tôi tri thức, cũng như tâm huyết

nghiên cứu khoa học, thầy đã luôn tận tâm hướng dẫn, giúp đỡ và tạo mọi điều kiện tốt nhất

để tôi hoàn thành luận án này.

TÓM TẮT

Phát hiện bất thường dựa trên luồng là một vấn đề vẫn phát triển trong môi trường an

ninh mạng. Nhiều nghiên cứu trước đây đã áp dụng học máy như một phương pháp nâng cao

khả năng phát hiện sự bất thường trong các hệ thống phát hiện xâm nhập mạng (NIDS). Các

nghiên cứu gần đây cho thấy, các NIDS vẫn phải đối mặt với những thách thức trong việc cải

thiện độ chính xác, giảm tỷ lệ cảnh báo sai và phát hiện được các tấn công mới.

Nội dung luận án đề xuất một số giải pháp sử dụng kỹ thuật học máy phối hợp và cải

tiến các kỹ thuật tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống

phát hiện xâm nhập mạng. Điều này dựa trên thực tế là:

(1) Có nhiều dữ liệu mất cân bằng lớp trong các tập dữ liệu huấn luyện dùng cho các

NIDS.

(2) Các thuật toán học máy có thể sử dụng tất cả các thuộc tính thực sự không liên

quan đến mục tiêu phân lớp, điều này làm giảm chất lượng phân lớp và tăng thời gian tính

toán.

(3) Các bộ phân lớp phối hợp đều vượt trội so với các bộ phân lớp đơn về độ chính

xác phân lớp. Những lợi thế của bộ phân lớp phối hợp là đặc biệt rõ ràng trong lĩnh vực phát

hiện xâm nhập.

Để giải quyết vấn đề, luận án đề xuất cải tiến việc thực hiện hai giải pháp trong giai

đoạn tiền xử lý dữ liệu, cụ thể là:

(1) Đề xuất 2 thuật toán lựa chọn thuộc tính trên cơ sở cải tiến 2 thuật toán lựa chọn

thuộc tính FFC và BFE đã biết.

(2) Cải tiến các kỹ thuật tăng mẫu và giảm mẫu tập dữ liệu huấn luyện.

Dữ liệu kết quả sau khi tiền xử lý được sử dụng để huấn luyện các bộ phân lớp phối

hợp bằng cách sử dụng các thuật toán học máy phối hợp đồng nhất (Bagging, Boosting,

Stacking và Decorate) và không đồng nhất (Voting, Stacking và RF). Kết quả thử nghiệm trên

các tập dữ liệu huấn luyện và kiểm tra đầy đủ của tập dữ liệu UNSW-NB15 cho thấy, các giải

pháp đề xuất đã cải thiện chất lượng phân lớp của các NIDS.

Bên cạnh những kết quả đạt được, kết quả nghiên cứu của luận án cũng để lại những

tồn tại và định hướng phát triển trong tương lai:

(1) Thời gian huấn luyện các mô hình phân lớp đề xuất còn lớn, việc phối hợp đúng

đắn các thuật toán để xây dựng một mô hình phân lớp lai, đa nhãn và đáp ứng thời gian thực

là vấn đề cần được tiếp tục nghiên cứu.

(2) Năng lực xử lý đóng vai trò quan trọng trong việc khai thác các thuật toán học

máy. Việc nâng cao hiệu quả xử lý theo hướng tiếp cận xử lý song song cũng như việc tối ưu

các tham số cho các kỹ thuật học máy là vấn đề còn bỏ ngỏ.

ABSTRACT

Stream-based intrusion detection is a growing problem in computer network security

environments. Many previous researches have applied machine learning as a method to detect

attacks in Network Intrusion Detection Systems (NIDS). However, these methods still have

limitations of low accuracy, high false alarm rate and detecting new attacks.

The content of the thesis proposes some solutions using ensemble machine learning

techniques and improving data preprocessing techniques in improving the classification

quality of NIDS. This is based on the fact that:

(1) There is a lot of class imbalance data in the training datasets used for NIDS.

(2) Machine learning algorithms can use some features that are really irrelevant to the

classification goal, which reduces the quality of classification and increases computation time.

(3) Ensemble classifiers outperform the single classifiers in classification accuracy.

The advantages of the ensemble classifier are particularly evident in the area of network

intrusion detection.

To solve the problem, the thesis proposes to improve the implementation of two

solutions in the data preprocessing stage, details as follows:

(1) Proposing 2 feature selection algorithms on the basis of improving 2 known FFC

and BFE feature selection algorithms.

(2) Improving techniques for oversampling and undersampling the training dataset.

The resulting data after preprocessing is used to train the ensemble classifiers using

both homogeneous (Bagging, Boosting, Stacking and Decorate) and heterogeneous (Voting,

Stacking and RF) ensemble machine learning algorithms. The experimental results on the full

training and testing datasets of the UNSW-NB15 dataset show that the proposed solutions

have improved the classification quality of the NIDS.

In addition to the achieved results, the research results of the thesis also leave

shortcomings and future development orientations:

(1) The training time of the proposed classification models is still large, the

coordination the right algorithms to build a hybrid, multi-label and real-time response

classification model is a problem that needs to be further researched.

(2) Processing capacity plays an important role in exploiting machine learning

algorithms. The improvement of processing efficiency in the direction of parallel processing

as well as the optimization of parameters for machine learning techniques is still an open

issue.

MỤC LỤC

CHƯƠNG 1. GIỚI THIỆU ...................................................................................................1

1.1 Hệ thống phát hiện xâm nhập ........................................................................................1

1.1.1 Giới thiệu về IDS..................................................................................................1

1.1.2 Phân loại IDS........................................................................................................2

1.1.3 IDS sử dụng kỹ thuật học máy .............................................................................3

1.2 Tính cấp thiết của đề tài luận án ....................................................................................5

1.3 Mục tiêu nghiên cứu ......................................................................................................5

1.4 Đối tượng và phạm vi nghiên cứu .................................................................................6

1.4.1 Đối tượng nghiên cứu...........................................................................................6

1.4.2 Phạm vi nghiên cứu ..............................................................................................6

1.5 Phương pháp nghiên cứu ...............................................................................................6

1.6 Ý nghĩa khoa học và thực tiễn .......................................................................................6

1.6.1 Ý nghĩa khoa học..................................................................................................6

1.6.2 Ý nghĩa thực tiễn ..................................................................................................6

1.7 Những điểm đóng góp mới............................................................................................7

1.8 Kết cấu của luận án........................................................................................................7

CHƯƠNG 2. CÁC NGHIÊN CỨU LIÊN QUAN ...............................................................8

2.1 Cơ sở lý thuyết...............................................................................................................8

2.1.1 Lựa chọn thuộc tính..............................................................................................8

2.1.2 Lấy mẫu lại tập dữ liệu.......................................................................................15

2.1.3 Kỹ thuật học máy................................................................................................21

2.1.4 Tập dữ liệu sử dụng cho các IDS .......................................................................27

2.1.5 Chỉ số đánh giá hiệu năng các IDS.....................................................................33

2.2 Các nghiên cứu liên quan về học máy cho IDS...........................................................36

2.2.1 Lựa chọn thuộc tính............................................................................................36

2.2.2 Lấy mẫu lại tập dữ liệu.......................................................................................38

2.2.3 Các mô hình học máy cho các IDS ....................................................................40

2.2.4 Nhận xét..............................................................................................................56

CHƯƠNG 3. GIẢI PHÁP LỰA CHỌN THUỘC TÍNH..................................................57

3.1 Giải pháp lựa chọn thuộc tính đề xuất.........................................................................57

3.1.1 Các chỉ số đo thông tin .......................................................................................57

3.1.2 Thuật toán loại bỏ thuộc tính ngược BFE ..........................................................58

3.1.3 Thuật toán chọn thuộc tính thuận FFC...............................................................59

3.1.4 Thuật toán lựa chọn thuộc tính đề xuất ..............................................................61

3.2 Kết quả thực hiện.........................................................................................................65

3.2.1 Lựa chọn thuộc tính với kiểu tấn công Worms..................................................66

3.2.2 Lựa chọn thuộc tính với kiểu tấn công Shellcode ..............................................68

3.2.3 Lựa chọn thuộc tính với kiểu tấn công Backdoor ..............................................70

3.2.4 Lựa chọn thuộc tính với kiểu tấn công Analysis................................................72

3.2.5 Lựa chọn thuộc tính với kiểu tấn công Recce ....................................................74

3.2.6 Lựa chọn thuộc tính với kiểu tấn công DoS.......................................................76

3.2.7 Lựa chọn thuộc tính với kiểu tấn công Fuzzers .................................................78

3.2.8 Lựa chọn thuộc tính với kiểu tấn công Exploits.................................................80

3.2.9 Lựa chọn thuộc tính với kiểu tấn công Generic .................................................82

3.3 So sánh, nhận xét và đánh giá về giải pháp lựa chọn thuộc tính đề xuất ....................84

CHƯƠNG 4. GIẢI PHÁP LẤY MẪU LẠI TẬP DỮ LIỆU ............................................87

4.1 Giải pháp lấy mẫu lại tập dữ liệu đề xuất....................................................................87

4.1.1 Giải pháp tăng mẫu.............................................................................................87

4.1.2 Giải pháp giảm mẫu............................................................................................91

4.2 Kết quả thực hiện.........................................................................................................95

4.2.1 Tăng mẫu tập dữ liệu..........................................................................................96

4.2.2 Giảm mẫu tập dữ liệu .......................................................................................106

4.3 Tổng hợp kết quả và nhận xét về giải pháp lấy mẫu lại tập dữ liệu ..........................117

CHƯƠNG 5. KỸ THUẬT PHỐI HỢP CHO MÔ HÌNH IDS.......................................120

5.1 Kỹ thuật phối hợp đề xuất .........................................................................................120

5.2 Kết quả thực hiện.......................................................................................................125

5.2.1 Sử dụng kỹ thuật phối hợp với kiểu tấn công Worms......................................127

5.2.2 Sử dụng kỹ thuật phối hợp với kiểu tấn công Shellcode..................................129

5.2.3 Sử dụng kỹ thuật phối hợp với kiểu tấn công Backdoor..................................131

5.2.4 Sử dụng kỹ thuật phối hợp với kiểu tấn công Analysis ...................................133

5.2.5 Sử dụng kỹ thuật phối hợp với kiểu tấn công Recce........................................135

5.2.6 Sử dụng kỹ thuật phối hợp với kiểu tấn công DoS ..........................................137

5.2.7 Sử dụng kỹ thuật phối hợp với kiểu tấn công Fuzzers.....................................139

5.2.8 Sử dụng kỹ thuật phối hợp với kiểu tấn công Exploits....................................141

5.2.9 Sử dụng kỹ thuật phối hợp với kiểu tấn công Generic.....................................143

5.3 Tổng hợp kết quả và nhận xét về kỹ thuật phối hợp .................................................145

5.4 Mô hình phân lớp lai đề xuất.....................................................................................146

CHƯƠNG 6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.................................................149

6.1 Đánh giá về các kết quả đạt được, hạn chế và hướng phát triển ...............................149

6.2 Đánh giá ý nghĩa học thuật và thực tiễn của luận án.................................................150

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

Viết tắt Viết đầy đủ

ABC Artificial Bee Colony

ADASYN Adaptive Synthetic Sampling

ANN Artificial Neural Network

AUC Area Under the Curve

Bagging Bootstrap Aggregation

BFE Backward Feature Elimination

BFS Best First Search

BN Bayesian Network

CA Correlation Attribute

CART Classification and Regression Trees

CFS Correlation-based Feature Selection

CNN Convolutional Neural Network

CSE Consistency Subset Evaluator

CV Cross Validation

DoS Denial of Service

DT Decision Tree

FFC Forward Feature Construction

ELM Extreme Learning Machines

ENN Edited Nearest Neighbors

FPR False Positive Rate

GA Genetic Algorithm

GAR GRASP with Annealed Randomness

GC Global Competence

GP Genetic Programming

GR Gain Ratio

ICA Independent Component Analysis

IDS Intrusion Detection System

IG Information Gain

KNN K Nearest Neighbours

KNNCF K Nearest Neighbor Collaborative Filtering

LC Local Competence

LDA Linear Discriminant Analysis

LOO Leave One Out

LR Logistic Regression

LSTM Long Short - Term Memory

MARS Multivariate Adaptive Regression Splines

ML Machine Learning

MLP Multi Layer Perceptron

MV Majority Voting

NB Naïve Bayes

NCR Neighborhood Cleaning Rule

NSGA Non-dominated Sorting Genetic Algorithm

OAR One Against Rest

OSELM Sequential Extreme Learning Machine

PART Partial Decision Tree

PCA Principal Component Analysis

PSO Particle Swarm Optimization

R2L Remote to Local

RBF Radial Basis Function

RF Random Forest

RMV Rigged Majority Voting

RNN Recurrent Neural Network

ROC Receiver Operating Characteristics

RT Random Tree

SMOTE Synthetic Minority Over-Sampling Technique

SSV Separability Split Value

SU Symmetrical Uncertainty

SVM Support Vector Machine

TPR True Positive Rate

U2R User to Root

WLC Weighted Local Competence

WMV Weighted Majority Voting

WRMV Weighted Rigged Majority Voting

WTA Winner Takes All

DANH MỤC CÁC BẢNG, BIỂU

Bảng 2.1. Các thuộc tính của tập dữ liệu UNSW-NB15 .............................................................30

Bảng 2.2. Thông tin tập dữ liệu UNSW-NB15 ...........................................................................32

Bảng 2.3. Danh sách các nghiên cứu gần đây về IDS.................................................................40

Bảng 2.4. So sánh các phương pháp cho các phối hợp đồng nhất...............................................45

Bảng 2.5. So sánh các phương pháp phối hợp không đồng nhất.................................................47

Bảng 2.6. Phối hợp không đồng nhất dựa trên biểu quyết ..........................................................52

Bảng 2.7. Các cách tiếp cận phân lớp NSL-KDD phổ biến ........................................................55

Bảng 2.8. So sánh độ chính xác tổng thể.....................................................................................55

Bảng 3.1. Thứ tự đánh số các thuộc tính của tập dữ liệu UNSW-NB15.....................................65

Bảng 3.2. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Worms.....................67

Bảng 3.3. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Worms ...................68

Bảng 3.4. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Worms ...................68

Bảng 3.5. So sánh mBFE-IG với các thuật toán khác với kiểu tấn công Worms........................68

Bảng 3.6. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Shellcode.................69

Bảng 3.7. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Shellcode ...............70

Bảng 3.8. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Shellcode ...............70

Bảng 3.9. So sánh mBFE-GR với các thuật toán khác với kiểu tấn công Shellcode ..................70

Bảng 3.10. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Backdoor...............71

Bảng 3.11. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Backdoor..............72

Bảng 3.12. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Backdoor..............72

Bảng 3.13. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công Backdoor ................72

Bảng 3.14. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Analysis ................73

Bảng 3.15. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Analysis...............74

Bảng 3.16. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Analysis...............74

Bảng 3.17. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công Analysis..................74

Bảng 3.18. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Recce.....................75

Bảng 3.19. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Recce ...................76

Bảng 3.20. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Recce ...................76

Bảng 3.21. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công Recce ......................76

Bảng 3.22. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công DoS .......................77

Bảng 3.23. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công DoS......................78

Bảng 3.24. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công DoS......................78

Bảng 3.25. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công DoS.........................78

Bảng 3.26. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Fuzzers..................79

Bảng 3.27. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Fuzzers.................80

Bảng 3.28. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Fuzzers.................80

Bảng 3.29. So sánh mBFE-IG với các thuật toán khác với kiểu tấn công Fuzzers.....................80

Bảng 3.30. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Exploits.................81

Bảng 3.31. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Exploits................82

Bảng 3.32. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Exploits................82

Bảng 3.33. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công Exploits...................82

Bảng 3.34. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Generic..................83

Bảng 3.35. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Generic ................84

Bảng 3.36. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Generic ................84

Bảng 3.37. So sánh mBFE-IG với các thuật toán khác với kiểu tấn công Generic.....................84

Bảng 3.38. Tổng hợp kết quả lựa chọn thuộc tính với mỗi kiểu tấn công...................................85

Bảng 4.1. Chi tiết kết quả sử dụng kỹ thuật tăng mẫu có lựa chọn thuộc tính..........................103

Bảng 4.2. Tổng hợp kết quả sử dụng kỹ thuật tăng mẫu có lựa chọn thuộc tính ......................104

Bảng 4.3. Bảng tổng hợp kết quả sử dụng kỹ thuật tăng mẫu...................................................105

Bảng 4.4. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Worms................................107

Bảng 4.5. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Shellcode ............................108

Bảng 4.6. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Backdoor ............................108

Bảng 4.7. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Analysis..............................109

Bảng 4.8. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Recce ..................................110

Bảng 4.9. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công DoS.....................................111

Bảng 4.10. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Fuzzers .............................111

Bảng 4.11. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Exploits ............................112

Bảng 4.12. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Generic .............................113

Bảng 4.13. Chi tiết kết quả sử dụng kỹ thuật giảm mẫu có lựa chọn thuộc tính.......................114

Bảng 4.14. Tổng hợp kết quả sử dụng kỹ thuật giảm mẫu có lựa chọn thuộc tính ...................115

Bảng 4.15. Bảng tổng hợp kết quả sử dụng kỹ thuật giảm mẫu................................................116

Bảng 4.16. Tổng hợp kết quả sử dụng kỹ thuật tăng mẫu và giảm mẫu ...................................117

Bảng 4.17. Chi tiết kết quả sử dụng kỹ thuật tăng mẫu và giảm mẫu .......................................118

Bảng 5.1. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Worms.............128

Bảng 5.2. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Worms........129

Bảng 5.3. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Shellcode .........130

Bảng 5.4. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Shellcode ....131

Bảng 5.5. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Backdoor .........132

Bảng 5.6. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Backdoor ....133

Bảng 5.7. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Analysis...........134

Bảng 5.8. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Analysis......135

Bảng 5.9. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Recce ...............136

Bảng 5.10. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Recce ........137

Bảng 5.11. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công DoS................138

Bảng 5.12. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công DoS...........139

Bảng 5.13. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Fuzzers ..........140

Bảng 5.14. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Fuzzers .....141

Bảng 5.15. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Exploits .........142

Bảng 5.16. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Exploits.....143

Bảng 5.17. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Generic ..........144

Bảng 5.18. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Generic .....145

Bảng 5.19. Tổng hợp kết quả sử dụng kỹ thuật học máy đơn ...................................................145

Bảng 5.20. Tổng hợp kết quả sử dụng kỹ thuật học máy phối hợp...........................................145

Bảng 5.21. Các kỹ thuật đề xuất với mỗi kiểu tấn công............................................................147

Bảng 5.22. Ma trận lỗi của bộ phân lớp lai đề xuất...................................................................147

Bảng 5.23. Các chỉ số đánh giá của bộ phân lớp lai đề xuất .....................................................148

Bảng 5.24. So sánh chỉ số Accuracy với một số nghiên cứu gần đây .......................................148

Bảng 5.25. So sánh chỉ số Sensitivity với một số nghiên cứu gần đây .....................................148

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1. Các tiếp cận học máy hiện nay để xây dựng các IDS....................................................4

Hình 2.1. Sử dụng kỹ thuật SMOTE để tạo dữ liệu tổng hợp .....................................................16

Hình 2.2. Kỹ thuật tăng mẫu Cluster SMOTE ............................................................................17

Hình 2.3. Các Liên kết Tomek loại bỏ sự chồng chéo giữa các lớp............................................20

Hình 2.4. Kỹ thuật Bootstrap.......................................................................................................22

Hình 2.5. Kỹ thuật Bagging.........................................................................................................22

Hình 2.6. Kỹ thuật Boosting........................................................................................................23

Hình 2.7. Kỹ thuật Stacking với bộ phân lớp Meta.....................................................................24

Hình 2.8. Tập dữ liệu đang được sử dụng trong nghiên cứu IDS................................................28

Hình 2.9. Mô hình trích xuất dữ liệu UNSW-NB15 sử dụng công cụ IXIA...............................29

Hình 2.10. Phân bố các kiểu tấn công trong tập dữ liệu UNSW-NB15 ......................................32

Hình 2.11. Các chỉ số sử dụng trong đánh giá ROC - AUC........................................................35

Hình 2.12. Chọn chỉ số đánh giá hiệu năng các IDS...................................................................35

Hình 2.13. Lĩnh vực tập trung nghiên cứu của IDS.....................................................................42

Hình 2.14. Cách tiếp cận được sử dụng trong nghiên cứu IDS...................................................42

Hình 3.1. Độ lợi thông tin của các thuộc tính với kiểu tấn công Worms....................................67

Hình 3.2. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Worms.......................................67

Hình 3.3. Hệ số tương quan của các thuộc tính với kiểu tấn công Worms.................................67

Hình 3.4. Độ lợi thông tin của các thuộc tính với kiểu tấn công Shellcode ................................68

Hình 3.5. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Shellcode...................................69

Hình 3.6. Hệ số tương quan của các thuộc tính với kiểu tấn công Shellcode .............................69

Hình 3.7. Độ lợi thông tin của các thuộc tính với kiểu tấn công Backdoor ................................71

Hình 3.8. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Backdoor...................................71

Hình 3.9. Hệ số tương quan của các thuộc tính với kiểu tấn công Backdoor .............................71

Hình 3.10. Độ lợi thông tin của các thuộc tính với kiểu tấn công Analysis................................72

Hình 3.11. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Analysis ..................................73

Hình 3.12. Hệ số tương quan của các thuộc tính với kiểu tấn công Analysis.............................73

Hình 3.13. Độ lợi thông tin của các thuộc tính với kiểu tấn công Recce ....................................74

Hình 3.14. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Recce.......................................75

Hình 3.15. Hệ số tương quan của các thuộc tính với kiểu tấn công Recce .................................75

Hình 3.16. Độ lợi thông tin của các thuộc tính với kiểu tấn công DoS.......................................76

Hình 3.17. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công DoS .........................................77

Hình 3.18. Hệ số tương quan của các thuộc tính với kiểu tấn công DoS....................................77

Hình 3.19. Độ lợi thông tin của các thuộc tính với kiểu tấn công Fuzzers .................................79

Hình 3.20. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Fuzzers....................................79

Hình 3.21. Hệ số tương quan của các thuộc tính với kiểu tấn công Fuzzers...............................79

Hình 3.22. Độ lợi thông tin của các thuộc tính với kiểu tấn công Exploits.................................81

Hình 3.23. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Exploits...................................81

Hình 3.24. Hệ số tương quan của các thuộc tính với kiểu tấn công Exploits..............................81

Hình 3.25. Độ lợi thông tin của các thuộc tính với kiểu tấn công Generic .................................83

Hình 3.26. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Generic....................................83

Hình 3.27. Hệ số tương quan của các thuộc tính với kiểu tấn công Generic ..............................83

Hình 3.28. Mức độ cải thiện F-Measure của kỹ thuật lựa chọn thuộc tính đề xuất.....................85

Hình 4.1. Kết quả đạt được khi tăng mẫu với kiểu tấn công Worms..........................................97

Hình 4.2. Kết quả đạt được khi tăng mẫu với kiểu tấn công Shellcode ......................................97

Hình 4.3. Kết quả đạt được khi tăng mẫu với kiểu tấn công Backdoor ......................................98

Hình 4.4. Kết quả đạt được khi tăng mẫu với kiểu tấn công Analysis........................................99

Hình 4.5. Kết quả đạt được khi tăng mẫu với kiểu tấn công Recce ............................................99

Hình 4.6. Kết quả đạt được khi tăng mẫu với kiểu tấn công DoS.............................................100

Hình 4.7. Kết quả đạt được khi tăng mẫu với kiểu tấn công Fuzzers........................................101

Hình 4.8. Kết quả đạt được khi tăng mẫu với kiểu tấn công Exploits.......................................101

Hình 4.9. Kết quả đạt được khi tăng mẫu với kiểu tấn công Generic .......................................102

Hình 4.10. Mức độ cải thiện chỉ số đánh giá F-Measure của kỹ thuật tăng mẫu đề xuất..........106

Hình 4.11. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Worms.........................107

Hình 4.12. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Shellcode .....................108

Hình 4.13. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Backdoor .....................109

Hình 4.14. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Analysis.......................110

Hình 4.15. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Recce ...........................110

Hình 4.16. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công DoS..............................111

Hình 4.17. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Fuzzers ........................112

Hình 4.18. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Exploits .......................112

Hình 4.19. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Generic ........................113

Hình 4.20. Mức độ cải thiện chỉ số đánh giá F-Measure của kỹ thuật giảm mẫu đề xuất ........117

Hình 5.1. Độ lệch và Phương sai để tránh quá khớp và chưa khớp dữ liệu ..............................121

Hình 5.2. Chọn mô hình cơ sở và kỹ thuật phối hợp đồng nhất với từng kiểu tấn công...........122

Hình 5.3. Kỹ thuật phối hợp Stacking không đồng nhất với từng kiểu tấn công ......................122

Hình 5.4. Kỹ thuật phối hợp Voting không đồng nhất với từng kiểu tấn công.........................122

Hình 5.5. Mô hình IDS sử dụng kỹ thuật phối hợp đồng nhất dùng trong thử nghiệm ............125

Hình 5.6. Mô hình IDS sử dụng kỹ thuật Voting dùng trong thử nghiệm.................................126

Hình 5.7. Mô hình IDS sử dụng kỹ thuật Mix Stacking dùng trong thử nghiệm......................126

Hình 5.8. Mô hình IDS đề xuất phát hiện các kiểu tấn công mạng...........................................147

DANH MỤC CÁC THUẬT TOÁN

Thuật toán 2.1. Thuật toán Focus...........................................................................................12

Thuật toán 2.2. Thuật toán AAB............................................................................................12

Thuật toán 2.3. Tìm kiếm theo kinh nghiệm qua xếp hạng thuộc tính ..................................13

Thuật toán 2.4. Lựa chọn thuộc tính LVF..............................................................................14

Thuật toán 2.5. Kỹ thuật tăng mẫu SMOTE ..........................................................................16

Thuật toán 2.6. Kỹ thuật lấy mẫu tổng hợp thích ứng ADASYN..........................................18

Thuật toán 2.7. Kỹ thuật tăng mẫu Borderline-SMOTE........................................................19

Thuật toán 2.8. Xác định và loại bỏ các Liên kết Tomek ......................................................20

Thuật toán 2.9. Tăng cường tính đa dạng sử dụng Decorate .................................................25

Thuật toán 3.1. Lựa chọn thuộc tính sử dụng BFE ................................................................58

Thuật toán 3.2. Lựa chọn thuộc tính sử dụng FFC ................................................................59

Thuật toán 3.3. Thuật toán lựa chọn thuộc tính mFFC ..........................................................63

Thuật toán 3.4. Thuật toán lựa chọn thuộc tính mBFE..........................................................64

Thuật toán 4.1. Thuật toán tăng mẫu kết hợp với mFFC.......................................................89

Thuật toán 4.2. Thuật toán tăng mẫu kết hợp với mBFE.......................................................90

Thuật toán 4.3. Thuật toán giảm mẫu kết hợp với mFFC......................................................93

Thuật toán 4.4. Thuật toán giảm mẫu kết hợp với mBFE......................................................94

Thuật toán 5.1. Xây dựng bộ phân lớp sử dụng kỹ thuật phối hợp đồng nhất.....................123

Thuật toán 5.2. Xây dựng bộ phân lớp sử dụng kỹ thuật phối hợp không đồng nhất..........124

Tải ngay đi em, còn do dự, trời tối mất!