Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ
Nội dung xem thử
Mô tả chi tiết
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
KỸ THUẬT HỌC MÁY PHỐI HỢP VÀ TIỀN XỬ LÝ DỮ LIỆU
TRONG VIỆC NÂNG CAO CHẤT LƯỢNG PHÂN LỚP CỦA
CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Đồng Nai, năm 2022
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
KỸ THUẬT HỌC MÁY PHỐI HỢP VÀ TIỀN XỬ LÝ DỮ LIỆU
TRONG VIỆC NÂNG CAO CHẤT LƯỢNG PHÂN LỚP CỦA
CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Chuyên ngành: Khoa học máy tính
Mã số ngành: 9480101
Đồng Nai, năm 2022
LỜI CAM ĐOAN
Nghiên cứu sinh
Tôi xin cam đoan luận án tiến sĩ “Kỹ thuật học máy phối hợp và tiền xử lý dữ liệu
trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng” là công
trình nghiên cứu của cá nhân tôi, đây là công trình do tôi thực hiện dưới sự hướng dẫn của
giảng viên, người hướng dẫn khoa học là: PGS. TS. . Các thuật toán, số liệu và kết quả
trình bày trong luận án là hoàn toàn có được từ các thử nghiệm, trung thực và không sao
chép.
LỜI CẢM ƠN
Tôi xin chân thành cảm ơn Quý thầy cô Ban giám hiệu, Khoa công nghệ thông tin,
Khoa sau đại học Trường đại học Lạc Hồng đã giảng dạy và tạo điều kiện thuận lợi cho tôi
trong suốt thời gian tôi tham gia nghiên cứu sinh.
Tôi xin cảm ơn sự hỗ trợ từ Ban giám hiệu, Khoa kỹ thuật và khoa học máy tính,
Trung tâm ngoại ngữ và công nghệ thông tin Trường Đại học Quốc tế Sài Gòn, nơi tôi đang
công tác. Và tôi cũng xin gửi lời cảm ơn chân thành tới các đồng nghiệp, bạn bè - những
người đã luôn quan tâm, động viên tôi trong suốt thời gian qua.
Cuối cùng, tôi xin dành tình cảm đặc biệt đến gia đình, người thân của tôi - những
người đã luôn tin tưởng, động viên và tiếp sức cho tôi thêm nghị lực để tôi vững bước và vượt
qua mọi khó khăn.
Tác giả
Lời đầu tiên, với lòng biết ơn sâu sắc nhất, tôi xin gửi lời cảm ơn tới PGS. TS. -
người hướng dẫn khoa học, thầy là người đã truyền cho tôi tri thức, cũng như tâm huyết
nghiên cứu khoa học, thầy đã luôn tận tâm hướng dẫn, giúp đỡ và tạo mọi điều kiện tốt nhất
để tôi hoàn thành luận án này.
TÓM TẮT
Phát hiện bất thường dựa trên luồng là một vấn đề vẫn phát triển trong môi trường an
ninh mạng. Nhiều nghiên cứu trước đây đã áp dụng học máy như một phương pháp nâng cao
khả năng phát hiện sự bất thường trong các hệ thống phát hiện xâm nhập mạng (NIDS). Các
nghiên cứu gần đây cho thấy, các NIDS vẫn phải đối mặt với những thách thức trong việc cải
thiện độ chính xác, giảm tỷ lệ cảnh báo sai và phát hiện được các tấn công mới.
Nội dung luận án đề xuất một số giải pháp sử dụng kỹ thuật học máy phối hợp và cải
tiến các kỹ thuật tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống
phát hiện xâm nhập mạng. Điều này dựa trên thực tế là:
(1) Có nhiều dữ liệu mất cân bằng lớp trong các tập dữ liệu huấn luyện dùng cho các
NIDS.
(2) Các thuật toán học máy có thể sử dụng tất cả các thuộc tính thực sự không liên
quan đến mục tiêu phân lớp, điều này làm giảm chất lượng phân lớp và tăng thời gian tính
toán.
(3) Các bộ phân lớp phối hợp đều vượt trội so với các bộ phân lớp đơn về độ chính
xác phân lớp. Những lợi thế của bộ phân lớp phối hợp là đặc biệt rõ ràng trong lĩnh vực phát
hiện xâm nhập.
Để giải quyết vấn đề, luận án đề xuất cải tiến việc thực hiện hai giải pháp trong giai
đoạn tiền xử lý dữ liệu, cụ thể là:
(1) Đề xuất 2 thuật toán lựa chọn thuộc tính trên cơ sở cải tiến 2 thuật toán lựa chọn
thuộc tính FFC và BFE đã biết.
(2) Cải tiến các kỹ thuật tăng mẫu và giảm mẫu tập dữ liệu huấn luyện.
Dữ liệu kết quả sau khi tiền xử lý được sử dụng để huấn luyện các bộ phân lớp phối
hợp bằng cách sử dụng các thuật toán học máy phối hợp đồng nhất (Bagging, Boosting,
Stacking và Decorate) và không đồng nhất (Voting, Stacking và RF). Kết quả thử nghiệm trên
các tập dữ liệu huấn luyện và kiểm tra đầy đủ của tập dữ liệu UNSW-NB15 cho thấy, các giải
pháp đề xuất đã cải thiện chất lượng phân lớp của các NIDS.
Bên cạnh những kết quả đạt được, kết quả nghiên cứu của luận án cũng để lại những
tồn tại và định hướng phát triển trong tương lai:
(1) Thời gian huấn luyện các mô hình phân lớp đề xuất còn lớn, việc phối hợp đúng
đắn các thuật toán để xây dựng một mô hình phân lớp lai, đa nhãn và đáp ứng thời gian thực
là vấn đề cần được tiếp tục nghiên cứu.
(2) Năng lực xử lý đóng vai trò quan trọng trong việc khai thác các thuật toán học
máy. Việc nâng cao hiệu quả xử lý theo hướng tiếp cận xử lý song song cũng như việc tối ưu
các tham số cho các kỹ thuật học máy là vấn đề còn bỏ ngỏ.
ABSTRACT
Stream-based intrusion detection is a growing problem in computer network security
environments. Many previous researches have applied machine learning as a method to detect
attacks in Network Intrusion Detection Systems (NIDS). However, these methods still have
limitations of low accuracy, high false alarm rate and detecting new attacks.
The content of the thesis proposes some solutions using ensemble machine learning
techniques and improving data preprocessing techniques in improving the classification
quality of NIDS. This is based on the fact that:
(1) There is a lot of class imbalance data in the training datasets used for NIDS.
(2) Machine learning algorithms can use some features that are really irrelevant to the
classification goal, which reduces the quality of classification and increases computation time.
(3) Ensemble classifiers outperform the single classifiers in classification accuracy.
The advantages of the ensemble classifier are particularly evident in the area of network
intrusion detection.
To solve the problem, the thesis proposes to improve the implementation of two
solutions in the data preprocessing stage, details as follows:
(1) Proposing 2 feature selection algorithms on the basis of improving 2 known FFC
and BFE feature selection algorithms.
(2) Improving techniques for oversampling and undersampling the training dataset.
The resulting data after preprocessing is used to train the ensemble classifiers using
both homogeneous (Bagging, Boosting, Stacking and Decorate) and heterogeneous (Voting,
Stacking and RF) ensemble machine learning algorithms. The experimental results on the full
training and testing datasets of the UNSW-NB15 dataset show that the proposed solutions
have improved the classification quality of the NIDS.
In addition to the achieved results, the research results of the thesis also leave
shortcomings and future development orientations:
(1) The training time of the proposed classification models is still large, the
coordination the right algorithms to build a hybrid, multi-label and real-time response
classification model is a problem that needs to be further researched.
(2) Processing capacity plays an important role in exploiting machine learning
algorithms. The improvement of processing efficiency in the direction of parallel processing
as well as the optimization of parameters for machine learning techniques is still an open
issue.
MỤC LỤC
CHƯƠNG 1. GIỚI THIỆU ...................................................................................................1
1.1 Hệ thống phát hiện xâm nhập ........................................................................................1
1.1.1 Giới thiệu về IDS..................................................................................................1
1.1.2 Phân loại IDS........................................................................................................2
1.1.3 IDS sử dụng kỹ thuật học máy .............................................................................3
1.2 Tính cấp thiết của đề tài luận án ....................................................................................5
1.3 Mục tiêu nghiên cứu ......................................................................................................5
1.4 Đối tượng và phạm vi nghiên cứu .................................................................................6
1.4.1 Đối tượng nghiên cứu...........................................................................................6
1.4.2 Phạm vi nghiên cứu ..............................................................................................6
1.5 Phương pháp nghiên cứu ...............................................................................................6
1.6 Ý nghĩa khoa học và thực tiễn .......................................................................................6
1.6.1 Ý nghĩa khoa học..................................................................................................6
1.6.2 Ý nghĩa thực tiễn ..................................................................................................6
1.7 Những điểm đóng góp mới............................................................................................7
1.8 Kết cấu của luận án........................................................................................................7
CHƯƠNG 2. CÁC NGHIÊN CỨU LIÊN QUAN ...............................................................8
2.1 Cơ sở lý thuyết...............................................................................................................8
2.1.1 Lựa chọn thuộc tính..............................................................................................8
2.1.2 Lấy mẫu lại tập dữ liệu.......................................................................................15
2.1.3 Kỹ thuật học máy................................................................................................21
2.1.4 Tập dữ liệu sử dụng cho các IDS .......................................................................27
2.1.5 Chỉ số đánh giá hiệu năng các IDS.....................................................................33
2.2 Các nghiên cứu liên quan về học máy cho IDS...........................................................36
2.2.1 Lựa chọn thuộc tính............................................................................................36
2.2.2 Lấy mẫu lại tập dữ liệu.......................................................................................38
2.2.3 Các mô hình học máy cho các IDS ....................................................................40
2.2.4 Nhận xét..............................................................................................................56
CHƯƠNG 3. GIẢI PHÁP LỰA CHỌN THUỘC TÍNH..................................................57
3.1 Giải pháp lựa chọn thuộc tính đề xuất.........................................................................57
3.1.1 Các chỉ số đo thông tin .......................................................................................57
3.1.2 Thuật toán loại bỏ thuộc tính ngược BFE ..........................................................58
3.1.3 Thuật toán chọn thuộc tính thuận FFC...............................................................59
3.1.4 Thuật toán lựa chọn thuộc tính đề xuất ..............................................................61
3.2 Kết quả thực hiện.........................................................................................................65
3.2.1 Lựa chọn thuộc tính với kiểu tấn công Worms..................................................66
3.2.2 Lựa chọn thuộc tính với kiểu tấn công Shellcode ..............................................68
3.2.3 Lựa chọn thuộc tính với kiểu tấn công Backdoor ..............................................70
3.2.4 Lựa chọn thuộc tính với kiểu tấn công Analysis................................................72
3.2.5 Lựa chọn thuộc tính với kiểu tấn công Recce ....................................................74
3.2.6 Lựa chọn thuộc tính với kiểu tấn công DoS.......................................................76
3.2.7 Lựa chọn thuộc tính với kiểu tấn công Fuzzers .................................................78
3.2.8 Lựa chọn thuộc tính với kiểu tấn công Exploits.................................................80
3.2.9 Lựa chọn thuộc tính với kiểu tấn công Generic .................................................82
3.3 So sánh, nhận xét và đánh giá về giải pháp lựa chọn thuộc tính đề xuất ....................84
CHƯƠNG 4. GIẢI PHÁP LẤY MẪU LẠI TẬP DỮ LIỆU ............................................87
4.1 Giải pháp lấy mẫu lại tập dữ liệu đề xuất....................................................................87
4.1.1 Giải pháp tăng mẫu.............................................................................................87
4.1.2 Giải pháp giảm mẫu............................................................................................91
4.2 Kết quả thực hiện.........................................................................................................95
4.2.1 Tăng mẫu tập dữ liệu..........................................................................................96
4.2.2 Giảm mẫu tập dữ liệu .......................................................................................106
4.3 Tổng hợp kết quả và nhận xét về giải pháp lấy mẫu lại tập dữ liệu ..........................117
CHƯƠNG 5. KỸ THUẬT PHỐI HỢP CHO MÔ HÌNH IDS.......................................120
5.1 Kỹ thuật phối hợp đề xuất .........................................................................................120
5.2 Kết quả thực hiện.......................................................................................................125
5.2.1 Sử dụng kỹ thuật phối hợp với kiểu tấn công Worms......................................127
5.2.2 Sử dụng kỹ thuật phối hợp với kiểu tấn công Shellcode..................................129
5.2.3 Sử dụng kỹ thuật phối hợp với kiểu tấn công Backdoor..................................131
5.2.4 Sử dụng kỹ thuật phối hợp với kiểu tấn công Analysis ...................................133
5.2.5 Sử dụng kỹ thuật phối hợp với kiểu tấn công Recce........................................135
5.2.6 Sử dụng kỹ thuật phối hợp với kiểu tấn công DoS ..........................................137
5.2.7 Sử dụng kỹ thuật phối hợp với kiểu tấn công Fuzzers.....................................139
5.2.8 Sử dụng kỹ thuật phối hợp với kiểu tấn công Exploits....................................141
5.2.9 Sử dụng kỹ thuật phối hợp với kiểu tấn công Generic.....................................143
5.3 Tổng hợp kết quả và nhận xét về kỹ thuật phối hợp .................................................145
5.4 Mô hình phân lớp lai đề xuất.....................................................................................146
CHƯƠNG 6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.................................................149
6.1 Đánh giá về các kết quả đạt được, hạn chế và hướng phát triển ...............................149
6.2 Đánh giá ý nghĩa học thuật và thực tiễn của luận án.................................................150
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
Viết tắt Viết đầy đủ
ABC Artificial Bee Colony
ADASYN Adaptive Synthetic Sampling
ANN Artificial Neural Network
AUC Area Under the Curve
Bagging Bootstrap Aggregation
BFE Backward Feature Elimination
BFS Best First Search
BN Bayesian Network
CA Correlation Attribute
CART Classification and Regression Trees
CFS Correlation-based Feature Selection
CNN Convolutional Neural Network
CSE Consistency Subset Evaluator
CV Cross Validation
DoS Denial of Service
DT Decision Tree
FFC Forward Feature Construction
ELM Extreme Learning Machines
ENN Edited Nearest Neighbors
FPR False Positive Rate
GA Genetic Algorithm
GAR GRASP with Annealed Randomness
GC Global Competence
GP Genetic Programming
GR Gain Ratio
ICA Independent Component Analysis
IDS Intrusion Detection System
IG Information Gain
KNN K Nearest Neighbours
KNNCF K Nearest Neighbor Collaborative Filtering
LC Local Competence
LDA Linear Discriminant Analysis
LOO Leave One Out
LR Logistic Regression
LSTM Long Short - Term Memory
MARS Multivariate Adaptive Regression Splines
ML Machine Learning
MLP Multi Layer Perceptron
MV Majority Voting
NB Naïve Bayes
NCR Neighborhood Cleaning Rule
NSGA Non-dominated Sorting Genetic Algorithm
OAR One Against Rest
OSELM Sequential Extreme Learning Machine
PART Partial Decision Tree
PCA Principal Component Analysis
PSO Particle Swarm Optimization
R2L Remote to Local
RBF Radial Basis Function
RF Random Forest
RMV Rigged Majority Voting
RNN Recurrent Neural Network
ROC Receiver Operating Characteristics
RT Random Tree
SMOTE Synthetic Minority Over-Sampling Technique
SSV Separability Split Value
SU Symmetrical Uncertainty
SVM Support Vector Machine
TPR True Positive Rate
U2R User to Root
WLC Weighted Local Competence
WMV Weighted Majority Voting
WRMV Weighted Rigged Majority Voting
WTA Winner Takes All
DANH MỤC CÁC BẢNG, BIỂU
Bảng 2.1. Các thuộc tính của tập dữ liệu UNSW-NB15 .............................................................30
Bảng 2.2. Thông tin tập dữ liệu UNSW-NB15 ...........................................................................32
Bảng 2.3. Danh sách các nghiên cứu gần đây về IDS.................................................................40
Bảng 2.4. So sánh các phương pháp cho các phối hợp đồng nhất...............................................45
Bảng 2.5. So sánh các phương pháp phối hợp không đồng nhất.................................................47
Bảng 2.6. Phối hợp không đồng nhất dựa trên biểu quyết ..........................................................52
Bảng 2.7. Các cách tiếp cận phân lớp NSL-KDD phổ biến ........................................................55
Bảng 2.8. So sánh độ chính xác tổng thể.....................................................................................55
Bảng 3.1. Thứ tự đánh số các thuộc tính của tập dữ liệu UNSW-NB15.....................................65
Bảng 3.2. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Worms.....................67
Bảng 3.3. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Worms ...................68
Bảng 3.4. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Worms ...................68
Bảng 3.5. So sánh mBFE-IG với các thuật toán khác với kiểu tấn công Worms........................68
Bảng 3.6. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Shellcode.................69
Bảng 3.7. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Shellcode ...............70
Bảng 3.8. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Shellcode ...............70
Bảng 3.9. So sánh mBFE-GR với các thuật toán khác với kiểu tấn công Shellcode ..................70
Bảng 3.10. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Backdoor...............71
Bảng 3.11. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Backdoor..............72
Bảng 3.12. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Backdoor..............72
Bảng 3.13. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công Backdoor ................72
Bảng 3.14. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Analysis ................73
Bảng 3.15. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Analysis...............74
Bảng 3.16. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Analysis...............74
Bảng 3.17. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công Analysis..................74
Bảng 3.18. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Recce.....................75
Bảng 3.19. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Recce ...................76
Bảng 3.20. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Recce ...................76
Bảng 3.21. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công Recce ......................76
Bảng 3.22. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công DoS .......................77
Bảng 3.23. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công DoS......................78
Bảng 3.24. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công DoS......................78
Bảng 3.25. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công DoS.........................78
Bảng 3.26. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Fuzzers..................79
Bảng 3.27. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Fuzzers.................80
Bảng 3.28. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Fuzzers.................80
Bảng 3.29. So sánh mBFE-IG với các thuật toán khác với kiểu tấn công Fuzzers.....................80
Bảng 3.30. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Exploits.................81
Bảng 3.31. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Exploits................82
Bảng 3.32. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Exploits................82
Bảng 3.33. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công Exploits...................82
Bảng 3.34. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Generic..................83
Bảng 3.35. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Generic ................84
Bảng 3.36. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Generic ................84
Bảng 3.37. So sánh mBFE-IG với các thuật toán khác với kiểu tấn công Generic.....................84
Bảng 3.38. Tổng hợp kết quả lựa chọn thuộc tính với mỗi kiểu tấn công...................................85
Bảng 4.1. Chi tiết kết quả sử dụng kỹ thuật tăng mẫu có lựa chọn thuộc tính..........................103
Bảng 4.2. Tổng hợp kết quả sử dụng kỹ thuật tăng mẫu có lựa chọn thuộc tính ......................104
Bảng 4.3. Bảng tổng hợp kết quả sử dụng kỹ thuật tăng mẫu...................................................105
Bảng 4.4. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Worms................................107
Bảng 4.5. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Shellcode ............................108
Bảng 4.6. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Backdoor ............................108
Bảng 4.7. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Analysis..............................109
Bảng 4.8. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Recce ..................................110
Bảng 4.9. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công DoS.....................................111
Bảng 4.10. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Fuzzers .............................111
Bảng 4.11. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Exploits ............................112
Bảng 4.12. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Generic .............................113
Bảng 4.13. Chi tiết kết quả sử dụng kỹ thuật giảm mẫu có lựa chọn thuộc tính.......................114
Bảng 4.14. Tổng hợp kết quả sử dụng kỹ thuật giảm mẫu có lựa chọn thuộc tính ...................115
Bảng 4.15. Bảng tổng hợp kết quả sử dụng kỹ thuật giảm mẫu................................................116
Bảng 4.16. Tổng hợp kết quả sử dụng kỹ thuật tăng mẫu và giảm mẫu ...................................117
Bảng 4.17. Chi tiết kết quả sử dụng kỹ thuật tăng mẫu và giảm mẫu .......................................118
Bảng 5.1. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Worms.............128
Bảng 5.2. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Worms........129
Bảng 5.3. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Shellcode .........130
Bảng 5.4. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Shellcode ....131
Bảng 5.5. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Backdoor .........132
Bảng 5.6. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Backdoor ....133
Bảng 5.7. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Analysis...........134
Bảng 5.8. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Analysis......135
Bảng 5.9. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Recce ...............136
Bảng 5.10. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Recce ........137
Bảng 5.11. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công DoS................138
Bảng 5.12. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công DoS...........139
Bảng 5.13. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Fuzzers ..........140
Bảng 5.14. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Fuzzers .....141
Bảng 5.15. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Exploits .........142
Bảng 5.16. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Exploits.....143
Bảng 5.17. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Generic ..........144
Bảng 5.18. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Generic .....145
Bảng 5.19. Tổng hợp kết quả sử dụng kỹ thuật học máy đơn ...................................................145
Bảng 5.20. Tổng hợp kết quả sử dụng kỹ thuật học máy phối hợp...........................................145
Bảng 5.21. Các kỹ thuật đề xuất với mỗi kiểu tấn công............................................................147
Bảng 5.22. Ma trận lỗi của bộ phân lớp lai đề xuất...................................................................147
Bảng 5.23. Các chỉ số đánh giá của bộ phân lớp lai đề xuất .....................................................148
Bảng 5.24. So sánh chỉ số Accuracy với một số nghiên cứu gần đây .......................................148
Bảng 5.25. So sánh chỉ số Sensitivity với một số nghiên cứu gần đây .....................................148
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1. Các tiếp cận học máy hiện nay để xây dựng các IDS....................................................4
Hình 2.1. Sử dụng kỹ thuật SMOTE để tạo dữ liệu tổng hợp .....................................................16
Hình 2.2. Kỹ thuật tăng mẫu Cluster SMOTE ............................................................................17
Hình 2.3. Các Liên kết Tomek loại bỏ sự chồng chéo giữa các lớp............................................20
Hình 2.4. Kỹ thuật Bootstrap.......................................................................................................22
Hình 2.5. Kỹ thuật Bagging.........................................................................................................22
Hình 2.6. Kỹ thuật Boosting........................................................................................................23
Hình 2.7. Kỹ thuật Stacking với bộ phân lớp Meta.....................................................................24
Hình 2.8. Tập dữ liệu đang được sử dụng trong nghiên cứu IDS................................................28
Hình 2.9. Mô hình trích xuất dữ liệu UNSW-NB15 sử dụng công cụ IXIA...............................29
Hình 2.10. Phân bố các kiểu tấn công trong tập dữ liệu UNSW-NB15 ......................................32
Hình 2.11. Các chỉ số sử dụng trong đánh giá ROC - AUC........................................................35
Hình 2.12. Chọn chỉ số đánh giá hiệu năng các IDS...................................................................35
Hình 2.13. Lĩnh vực tập trung nghiên cứu của IDS.....................................................................42
Hình 2.14. Cách tiếp cận được sử dụng trong nghiên cứu IDS...................................................42
Hình 3.1. Độ lợi thông tin của các thuộc tính với kiểu tấn công Worms....................................67
Hình 3.2. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Worms.......................................67
Hình 3.3. Hệ số tương quan của các thuộc tính với kiểu tấn công Worms.................................67
Hình 3.4. Độ lợi thông tin của các thuộc tính với kiểu tấn công Shellcode ................................68
Hình 3.5. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Shellcode...................................69
Hình 3.6. Hệ số tương quan của các thuộc tính với kiểu tấn công Shellcode .............................69
Hình 3.7. Độ lợi thông tin của các thuộc tính với kiểu tấn công Backdoor ................................71
Hình 3.8. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Backdoor...................................71
Hình 3.9. Hệ số tương quan của các thuộc tính với kiểu tấn công Backdoor .............................71
Hình 3.10. Độ lợi thông tin của các thuộc tính với kiểu tấn công Analysis................................72
Hình 3.11. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Analysis ..................................73
Hình 3.12. Hệ số tương quan của các thuộc tính với kiểu tấn công Analysis.............................73
Hình 3.13. Độ lợi thông tin của các thuộc tính với kiểu tấn công Recce ....................................74
Hình 3.14. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Recce.......................................75
Hình 3.15. Hệ số tương quan của các thuộc tính với kiểu tấn công Recce .................................75
Hình 3.16. Độ lợi thông tin của các thuộc tính với kiểu tấn công DoS.......................................76
Hình 3.17. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công DoS .........................................77
Hình 3.18. Hệ số tương quan của các thuộc tính với kiểu tấn công DoS....................................77
Hình 3.19. Độ lợi thông tin của các thuộc tính với kiểu tấn công Fuzzers .................................79
Hình 3.20. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Fuzzers....................................79
Hình 3.21. Hệ số tương quan của các thuộc tính với kiểu tấn công Fuzzers...............................79
Hình 3.22. Độ lợi thông tin của các thuộc tính với kiểu tấn công Exploits.................................81
Hình 3.23. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Exploits...................................81
Hình 3.24. Hệ số tương quan của các thuộc tính với kiểu tấn công Exploits..............................81
Hình 3.25. Độ lợi thông tin của các thuộc tính với kiểu tấn công Generic .................................83
Hình 3.26. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Generic....................................83
Hình 3.27. Hệ số tương quan của các thuộc tính với kiểu tấn công Generic ..............................83
Hình 3.28. Mức độ cải thiện F-Measure của kỹ thuật lựa chọn thuộc tính đề xuất.....................85
Hình 4.1. Kết quả đạt được khi tăng mẫu với kiểu tấn công Worms..........................................97
Hình 4.2. Kết quả đạt được khi tăng mẫu với kiểu tấn công Shellcode ......................................97
Hình 4.3. Kết quả đạt được khi tăng mẫu với kiểu tấn công Backdoor ......................................98
Hình 4.4. Kết quả đạt được khi tăng mẫu với kiểu tấn công Analysis........................................99
Hình 4.5. Kết quả đạt được khi tăng mẫu với kiểu tấn công Recce ............................................99
Hình 4.6. Kết quả đạt được khi tăng mẫu với kiểu tấn công DoS.............................................100
Hình 4.7. Kết quả đạt được khi tăng mẫu với kiểu tấn công Fuzzers........................................101
Hình 4.8. Kết quả đạt được khi tăng mẫu với kiểu tấn công Exploits.......................................101
Hình 4.9. Kết quả đạt được khi tăng mẫu với kiểu tấn công Generic .......................................102
Hình 4.10. Mức độ cải thiện chỉ số đánh giá F-Measure của kỹ thuật tăng mẫu đề xuất..........106
Hình 4.11. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Worms.........................107
Hình 4.12. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Shellcode .....................108
Hình 4.13. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Backdoor .....................109
Hình 4.14. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Analysis.......................110
Hình 4.15. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Recce ...........................110
Hình 4.16. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công DoS..............................111
Hình 4.17. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Fuzzers ........................112
Hình 4.18. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Exploits .......................112
Hình 4.19. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Generic ........................113
Hình 4.20. Mức độ cải thiện chỉ số đánh giá F-Measure của kỹ thuật giảm mẫu đề xuất ........117
Hình 5.1. Độ lệch và Phương sai để tránh quá khớp và chưa khớp dữ liệu ..............................121
Hình 5.2. Chọn mô hình cơ sở và kỹ thuật phối hợp đồng nhất với từng kiểu tấn công...........122
Hình 5.3. Kỹ thuật phối hợp Stacking không đồng nhất với từng kiểu tấn công ......................122
Hình 5.4. Kỹ thuật phối hợp Voting không đồng nhất với từng kiểu tấn công.........................122
Hình 5.5. Mô hình IDS sử dụng kỹ thuật phối hợp đồng nhất dùng trong thử nghiệm ............125
Hình 5.6. Mô hình IDS sử dụng kỹ thuật Voting dùng trong thử nghiệm.................................126
Hình 5.7. Mô hình IDS sử dụng kỹ thuật Mix Stacking dùng trong thử nghiệm......................126
Hình 5.8. Mô hình IDS đề xuất phát hiện các kiểu tấn công mạng...........................................147
DANH MỤC CÁC THUẬT TOÁN
Thuật toán 2.1. Thuật toán Focus...........................................................................................12
Thuật toán 2.2. Thuật toán AAB............................................................................................12
Thuật toán 2.3. Tìm kiếm theo kinh nghiệm qua xếp hạng thuộc tính ..................................13
Thuật toán 2.4. Lựa chọn thuộc tính LVF..............................................................................14
Thuật toán 2.5. Kỹ thuật tăng mẫu SMOTE ..........................................................................16
Thuật toán 2.6. Kỹ thuật lấy mẫu tổng hợp thích ứng ADASYN..........................................18
Thuật toán 2.7. Kỹ thuật tăng mẫu Borderline-SMOTE........................................................19
Thuật toán 2.8. Xác định và loại bỏ các Liên kết Tomek ......................................................20
Thuật toán 2.9. Tăng cường tính đa dạng sử dụng Decorate .................................................25
Thuật toán 3.1. Lựa chọn thuộc tính sử dụng BFE ................................................................58
Thuật toán 3.2. Lựa chọn thuộc tính sử dụng FFC ................................................................59
Thuật toán 3.3. Thuật toán lựa chọn thuộc tính mFFC ..........................................................63
Thuật toán 3.4. Thuật toán lựa chọn thuộc tính mBFE..........................................................64
Thuật toán 4.1. Thuật toán tăng mẫu kết hợp với mFFC.......................................................89
Thuật toán 4.2. Thuật toán tăng mẫu kết hợp với mBFE.......................................................90
Thuật toán 4.3. Thuật toán giảm mẫu kết hợp với mFFC......................................................93
Thuật toán 4.4. Thuật toán giảm mẫu kết hợp với mBFE......................................................94
Thuật toán 5.1. Xây dựng bộ phân lớp sử dụng kỹ thuật phối hợp đồng nhất.....................123
Thuật toán 5.2. Xây dựng bộ phân lớp sử dụng kỹ thuật phối hợp không đồng nhất..........124