Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Luận án tiến sĩ khoa học máy tính  kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng
PREMIUM
Số trang
174
Kích thước
3.0 MB
Định dạng
PDF
Lượt xem
1696

Luận án tiến sĩ khoa học máy tính kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng

Nội dung xem thử

Mô tả chi tiết

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC LẠC HỒNG

HOÀNG NGỌC THANH

KỸ THUẬT HỌC MÁY PHỐI HỢP VÀ TIỀN XỬ LÝ DỮ LIỆU

TRONG VIỆC NÂNG CAO CHẤT LƯỢNG PHÂN LỚP CỦA

CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Chuyên ngành: Khoa học máy tính

Mã số ngành: 9480101

NGƯỜI HƯỚNG DẪN KHOA HỌC

PGS.TS. TRẦN VĂN LĂNG

Đồng Nai, năm 2022

LỜI CAM ĐOAN

Tên tôi là: Hoàng Ngọc Thanh

Sinh ngày: 13/11/1969 Nơi sinh: Bình Định

Là nghiên cứu sinh chuyên ngành Khoa học máy tính, khóa 2015, Trường đại học

Lạc Hồng.

Tôi xin cam đoan luận án tiến sĩ “Kỹ thuật học máy phối hợp và tiền xử lý dữ liệu

trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng” là công

trình nghiên cứu của cá nhân tôi, đây là công trình do tôi thực hiện dưới sự hướng dẫn của

giảng viên, người hướng dẫn khoa học là: PGS. TS. Trần Văn Lăng. Các thuật toán, số liệu

và kết quả trình bày trong luận án là hoàn toàn có được từ các thử nghiệm, trung thực và

không sao chép.

Nghiên cứu sinh

Hoàng Ngọc Thanh

LỜI CẢM ƠN

Lời đầu tiên, với lòng biết ơn sâu sắc nhất, tôi xin gửi lời cảm ơn tới PGS. TS. Trần

Văn Lăng - người hướng dẫn khoa học, thầy là người đã truyền cho tôi tri thức, cũng như tâm

huyết nghiên cứu khoa học, thầy đã luôn tận tâm hướng dẫn, giúp đỡ và tạo mọi điều kiện tốt

nhất để tôi hoàn thành luận án này.

Tôi xin chân thành cảm ơn Quý thầy cô Ban giám hiệu, Khoa công nghệ thông tin,

Khoa sau đại học Trường đại học Lạc Hồng đã giảng dạy và tạo điều kiện thuận lợi cho tôi

trong suốt thời gian tôi tham gia nghiên cứu sinh.

Tôi xin cảm ơn sự hỗ trợ từ Ban giám hiệu, Khoa kỹ thuật và khoa học máy tính,

Trung tâm ngoại ngữ và công nghệ thông tin Trường Đại học Quốc tế Sài Gòn, nơi tôi đang

công tác. Và tôi cũng xin gửi lời cảm ơn chân thành tới các đồng nghiệp, bạn bè - những

người đã luôn quan tâm, động viên tôi trong suốt thời gian qua.

Cuối cùng, tôi xin dành tình cảm đặc biệt đến gia đình, người thân của tôi - những

người đã luôn tin tưởng, động viên và tiếp sức cho tôi thêm nghị lực để tôi vững bước và vượt

qua mọi khó khăn.

Tác giả

Hoàng Ngọc Thanh

TÓM TẮT

Phát hiện bất thường dựa trên luồng là một vấn đề vẫn phát triển trong môi trường an

ninh mạng. Nhiều nghiên cứu trước đây đã áp dụng học máy như một phương pháp nâng cao

khả năng phát hiện sự bất thường trong các hệ thống phát hiện xâm nhập mạng (NIDS). Các

nghiên cứu gần đây cho thấy, các NIDS vẫn phải đối mặt với những thách thức trong việc cải

thiện độ chính xác, giảm tỷ lệ cảnh báo sai và phát hiện được các tấn công mới.

Nội dung luận án đề xuất một số giải pháp sử dụng kỹ thuật học máy phối hợp và cải

tiến các kỹ thuật tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống

phát hiện xâm nhập mạng. Điều này dựa trên thực tế là:

(1) Có nhiều dữ liệu mất cân bằng lớp trong các tập dữ liệu huấn luyện dùng cho các

NIDS.

(2) Các thuật toán học máy có thể sử dụng tất cả các thuộc tính thực sự không liên

quan đến mục tiêu phân lớp, điều này làm giảm chất lượng phân lớp và tăng thời gian tính

toán.

(3) Các bộ phân lớp phối hợp đều vượt trội so với các bộ phân lớp đơn về độ chính

xác phân lớp. Những lợi thế của bộ phân lớp phối hợp là đặc biệt rõ ràng trong lĩnh vực phát

hiện xâm nhập.

Để giải quyết vấn đề, luận án đề xuất cải tiến việc thực hiện hai giải pháp trong giai

đoạn tiền xử lý dữ liệu, cụ thể là:

(1) Đề xuất 2 thuật toán lựa chọn thuộc tính trên cơ sở cải tiến 2 thuật toán lựa chọn

thuộc tính FFC và BFE đã biết.

(2) Cải tiến các kỹ thuật tăng mẫu và giảm mẫu tập dữ liệu huấn luyện.

Dữ liệu kết quả sau khi tiền xử lý được sử dụng để huấn luyện các bộ phân lớp phối

hợp bằng cách sử dụng các thuật toán học máy phối hợp đồng nhất (Bagging, Boosting,

Stacking và Decorate) và không đồng nhất (Voting, Stacking và RF). Kết quả thử nghiệm trên

các tập dữ liệu huấn luyện và kiểm tra đầy đủ của tập dữ liệu UNSW-NB15 cho thấy, các giải

pháp đề xuất đã cải thiện chất lượng phân lớp của các NIDS.

Bên cạnh những kết quả đạt được, kết quả nghiên cứu của luận án cũng để lại những

tồn tại và định hướng phát triển trong tương lai:

(1) Thời gian huấn luyện các mô hình phân lớp đề xuất còn lớn, việc phối hợp đúng

đắn các thuật toán để xây dựng một mô hình phân lớp lai, đa nhãn và đáp ứng thời gian thực

là vấn đề cần được tiếp tục nghiên cứu.

(2) Năng lực xử lý đóng vai trò quan trọng trong việc khai thác các thuật toán học

máy. Việc nâng cao hiệu quả xử lý theo hướng tiếp cận xử lý song song cũng như việc tối ưu

các tham số cho các kỹ thuật học máy là vấn đề còn bỏ ngỏ.

ABSTRACT

Stream-based intrusion detection is a growing problem in computer network security

environments. Many previous researches have applied machine learning as a method to detect

attacks in Network Intrusion Detection Systems (NIDS). However, these methods still have

limitations of low accuracy, high false alarm rate and detecting new attacks.

The content of the thesis proposes some solutions using ensemble machine learning

techniques and improving data preprocessing techniques in improving the classification

quality of NIDS. This is based on the fact that:

(1) There is a lot of class imbalance data in the training datasets used for NIDS.

(2) Machine learning algorithms can use some features that are really irrelevant to the

classification goal, which reduces the quality of classification and increases computation time.

(3) Ensemble classifiers outperform the single classifiers in classification accuracy.

The advantages of the ensemble classifier are particularly evident in the area of network

intrusion detection.

To solve the problem, the thesis proposes to improve the implementation of two

solutions in the data preprocessing stage, details as follows:

(1) Proposing 2 feature selection algorithms on the basis of improving 2 known FFC

and BFE feature selection algorithms.

(2) Improving techniques for oversampling and undersampling the training dataset.

The resulting data after preprocessing is used to train the ensemble classifiers using

both homogeneous (Bagging, Boosting, Stacking and Decorate) and heterogeneous (Voting,

Stacking and RF) ensemble machine learning algorithms. The experimental results on the full

training and testing datasets of the UNSW-NB15 dataset show that the proposed solutions

have improved the classification quality of the NIDS.

In addition to the achieved results, the research results of the thesis also leave

shortcomings and future development orientations:

(1) The training time of the proposed classification models is still large, the

coordination the right algorithms to build a hybrid, multi-label and real-time response

classification model is a problem that needs to be further researched.

(2) Processing capacity plays an important role in exploiting machine learning

algorithms. The improvement of processing efficiency in the direction of parallel processing

as well as the optimization of parameters for machine learning techniques is still an open

issue.

MỤC LỤC

CHƯƠNG 1. GIỚI THIỆU ...................................................................................................1

1.1 Hệ thống phát hiện xâm nhập ........................................................................................1

1.1.1 Giới thiệu về IDS..................................................................................................1

1.1.2 Phân loại IDS........................................................................................................2

1.1.3 IDS sử dụng kỹ thuật học máy .............................................................................3

1.2 Tính cấp thiết của đề tài luận án ....................................................................................5

1.3 Mục tiêu nghiên cứu ......................................................................................................5

1.4 Đối tượng và phạm vi nghiên cứu .................................................................................6

1.4.1 Đối tượng nghiên cứu...........................................................................................6

1.4.2 Phạm vi nghiên cứu ..............................................................................................6

1.5 Phương pháp nghiên cứu ...............................................................................................6

1.6 Ý nghĩa khoa học và thực tiễn .......................................................................................6

1.6.1 Ý nghĩa khoa học..................................................................................................6

1.6.2 Ý nghĩa thực tiễn ..................................................................................................6

1.7 Những điểm đóng góp mới............................................................................................7

1.8 Kết cấu của luận án........................................................................................................7

CHƯƠNG 2. CÁC NGHIÊN CỨU LIÊN QUAN ...............................................................8

2.1 Cơ sở lý thuyết...............................................................................................................8

2.1.1 Lựa chọn thuộc tính..............................................................................................8

2.1.2 Lấy mẫu lại tập dữ liệu.......................................................................................15

2.1.3 Kỹ thuật học máy................................................................................................21

2.1.4 Tập dữ liệu sử dụng cho các IDS .......................................................................27

2.1.5 Chỉ số đánh giá hiệu năng các IDS.....................................................................33

2.2 Các nghiên cứu liên quan về học máy cho IDS...........................................................36

2.2.1 Lựa chọn thuộc tính............................................................................................36

2.2.2 Lấy mẫu lại tập dữ liệu.......................................................................................38

2.2.3 Các mô hình học máy cho các IDS ....................................................................40

2.2.4 Nhận xét..............................................................................................................56

CHƯƠNG 3. GIẢI PHÁP LỰA CHỌN THUỘC TÍNH..................................................57

3.1 Giải pháp lựa chọn thuộc tính đề xuất.........................................................................57

3.1.1 Các chỉ số đo thông tin .......................................................................................57

3.1.2 Thuật toán loại bỏ thuộc tính ngược BFE ..........................................................58

3.1.3 Thuật toán chọn thuộc tính thuận FFC...............................................................59

3.1.4 Thuật toán lựa chọn thuộc tính đề xuất ..............................................................61

3.2 Kết quả thực hiện.........................................................................................................65

3.2.1 Lựa chọn thuộc tính với kiểu tấn công Worms..................................................66

3.2.2 Lựa chọn thuộc tính với kiểu tấn công Shellcode ..............................................68

3.2.3 Lựa chọn thuộc tính với kiểu tấn công Backdoor ..............................................70

3.2.4 Lựa chọn thuộc tính với kiểu tấn công Analysis................................................72

3.2.5 Lựa chọn thuộc tính với kiểu tấn công Recce ....................................................74

3.2.6 Lựa chọn thuộc tính với kiểu tấn công DoS.......................................................76

3.2.7 Lựa chọn thuộc tính với kiểu tấn công Fuzzers .................................................78

3.2.8 Lựa chọn thuộc tính với kiểu tấn công Exploits.................................................80

3.2.9 Lựa chọn thuộc tính với kiểu tấn công Generic .................................................82

3.3 So sánh, nhận xét và đánh giá về giải pháp lựa chọn thuộc tính đề xuất ....................84

CHƯƠNG 4. GIẢI PHÁP LẤY MẪU LẠI TẬP DỮ LIỆU ............................................87

4.1 Giải pháp lấy mẫu lại tập dữ liệu đề xuất....................................................................87

4.1.1 Giải pháp tăng mẫu.............................................................................................87

4.1.2 Giải pháp giảm mẫu............................................................................................91

4.2 Kết quả thực hiện.........................................................................................................95

4.2.1 Tăng mẫu tập dữ liệu..........................................................................................96

4.2.2 Giảm mẫu tập dữ liệu .......................................................................................106

4.3 Tổng hợp kết quả và nhận xét về giải pháp lấy mẫu lại tập dữ liệu ..........................117

CHƯƠNG 5. KỸ THUẬT PHỐI HỢP CHO MÔ HÌNH IDS.......................................120

5.1 Kỹ thuật phối hợp đề xuất .........................................................................................120

5.2 Kết quả thực hiện.......................................................................................................125

5.2.1 Sử dụng kỹ thuật phối hợp với kiểu tấn công Worms......................................127

5.2.2 Sử dụng kỹ thuật phối hợp với kiểu tấn công Shellcode..................................129

5.2.3 Sử dụng kỹ thuật phối hợp với kiểu tấn công Backdoor..................................131

5.2.4 Sử dụng kỹ thuật phối hợp với kiểu tấn công Analysis ...................................133

5.2.5 Sử dụng kỹ thuật phối hợp với kiểu tấn công Recce........................................135

5.2.6 Sử dụng kỹ thuật phối hợp với kiểu tấn công DoS ..........................................137

5.2.7 Sử dụng kỹ thuật phối hợp với kiểu tấn công Fuzzers.....................................139

5.2.8 Sử dụng kỹ thuật phối hợp với kiểu tấn công Exploits....................................141

5.2.9 Sử dụng kỹ thuật phối hợp với kiểu tấn công Generic.....................................143

5.3 Tổng hợp kết quả và nhận xét về kỹ thuật phối hợp .................................................145

5.4 Mô hình phân lớp lai đề xuất.....................................................................................146

CHƯƠNG 6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.................................................149

6.1 Đánh giá về các kết quả đạt được, hạn chế và hướng phát triển ...............................149

6.2 Đánh giá ý nghĩa học thuật và thực tiễn của luận án.................................................150

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

Viết tắt Viết đầy đủ

ABC Artificial Bee Colony

ADASYN Adaptive Synthetic Sampling

ANN Artificial Neural Network

AUC Area Under the Curve

Bagging Bootstrap Aggregation

BFE Backward Feature Elimination

BFS Best First Search

BN Bayesian Network

CA Correlation Attribute

CART Classification and Regression Trees

CFS Correlation-based Feature Selection

CNN Convolutional Neural Network

CSE Consistency Subset Evaluator

CV Cross Validation

DoS Denial of Service

DT Decision Tree

FFC Forward Feature Construction

ELM Extreme Learning Machines

ENN Edited Nearest Neighbors

FPR False Positive Rate

GA Genetic Algorithm

GAR GRASP with Annealed Randomness

GC Global Competence

GP Genetic Programming

GR Gain Ratio

ICA Independent Component Analysis

IDS Intrusion Detection System

IG Information Gain

KNN K Nearest Neighbours

KNNCF K Nearest Neighbor Collaborative Filtering

LC Local Competence

LDA Linear Discriminant Analysis

LOO Leave One Out

LR Logistic Regression

LSTM Long Short - Term Memory

MARS Multivariate Adaptive Regression Splines

ML Machine Learning

MLP Multi Layer Perceptron

MV Majority Voting

NB Naïve Bayes

NCR Neighborhood Cleaning Rule

NSGA Non-dominated Sorting Genetic Algorithm

OAR One Against Rest

OSELM Sequential Extreme Learning Machine

PART Partial Decision Tree

PCA Principal Component Analysis

PSO Particle Swarm Optimization

R2L Remote to Local

RBF Radial Basis Function

RF Random Forest

RMV Rigged Majority Voting

RNN Recurrent Neural Network

ROC Receiver Operating Characteristics

RT Random Tree

SMOTE Synthetic Minority Over-Sampling Technique

SSV Separability Split Value

SU Symmetrical Uncertainty

SVM Support Vector Machine

TPR True Positive Rate

U2R User to Root

WLC Weighted Local Competence

WMV Weighted Majority Voting

WRMV Weighted Rigged Majority Voting

WTA Winner Takes All

DANH MỤC CÁC BẢNG, BIỂU

Bảng 2.1. Các thuộc tính của tập dữ liệu UNSW-NB15 .............................................................30

Bảng 2.2. Thông tin tập dữ liệu UNSW-NB15 ...........................................................................32

Bảng 2.3. Danh sách các nghiên cứu gần đây về IDS.................................................................40

Bảng 2.4. So sánh các phương pháp cho các phối hợp đồng nhất...............................................45

Bảng 2.5. So sánh các phương pháp phối hợp không đồng nhất.................................................47

Bảng 2.6. Phối hợp không đồng nhất dựa trên biểu quyết ..........................................................52

Bảng 2.7. Các cách tiếp cận phân lớp NSL-KDD phổ biến ........................................................55

Bảng 2.8. So sánh độ chính xác tổng thể.....................................................................................55

Bảng 3.1. Thứ tự đánh số các thuộc tính của tập dữ liệu UNSW-NB15.....................................65

Bảng 3.2. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Worms.....................67

Bảng 3.3. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Worms ...................68

Bảng 3.4. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Worms ...................68

Bảng 3.5. So sánh mBFE-IG với các thuật toán khác với kiểu tấn công Worms........................68

Bảng 3.6. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Shellcode.................69

Bảng 3.7. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Shellcode ...............70

Bảng 3.8. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Shellcode ...............70

Bảng 3.9. So sánh mBFE-GR với các thuật toán khác với kiểu tấn công Shellcode ..................70

Bảng 3.10. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Backdoor...............71

Bảng 3.11. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Backdoor..............72

Bảng 3.12. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Backdoor..............72

Bảng 3.13. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công Backdoor ................72

Bảng 3.14. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Analysis ................73

Bảng 3.15. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Analysis...............74

Bảng 3.16. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Analysis...............74

Bảng 3.17. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công Analysis..................74

Bảng 3.18. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Recce.....................75

Bảng 3.19. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Recce ...................76

Bảng 3.20. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Recce ...................76

Bảng 3.21. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công Recce ......................76

Bảng 3.22. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công DoS .......................77

Bảng 3.23. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công DoS......................78

Bảng 3.24. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công DoS......................78

Bảng 3.25. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công DoS.........................78

Bảng 3.26. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Fuzzers..................79

Bảng 3.27. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Fuzzers.................80

Bảng 3.28. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Fuzzers.................80

Bảng 3.29. So sánh mBFE-IG với các thuật toán khác với kiểu tấn công Fuzzers.....................80

Bảng 3.30. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Exploits.................81

Bảng 3.31. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Exploits................82

Bảng 3.32. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Exploits................82

Bảng 3.33. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công Exploits...................82

Bảng 3.34. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Generic..................83

Bảng 3.35. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Generic ................84

Bảng 3.36. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Generic ................84

Bảng 3.37. So sánh mBFE-IG với các thuật toán khác với kiểu tấn công Generic.....................84

Bảng 3.38. Tổng hợp kết quả lựa chọn thuộc tính với mỗi kiểu tấn công...................................85

Bảng 4.1. Chi tiết kết quả sử dụng kỹ thuật tăng mẫu có lựa chọn thuộc tính..........................103

Bảng 4.2. Tổng hợp kết quả sử dụng kỹ thuật tăng mẫu có lựa chọn thuộc tính ......................104

Bảng 4.3. Bảng tổng hợp kết quả sử dụng kỹ thuật tăng mẫu...................................................105

Bảng 4.4. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Worms................................107

Bảng 4.5. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Shellcode ............................108

Bảng 4.6. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Backdoor ............................108

Bảng 4.7. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Analysis..............................109

Bảng 4.8. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Recce ..................................110

Bảng 4.9. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công DoS.....................................111

Bảng 4.10. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Fuzzers .............................111

Bảng 4.11. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Exploits ............................112

Bảng 4.12. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Generic .............................113

Bảng 4.13. Chi tiết kết quả sử dụng kỹ thuật giảm mẫu có lựa chọn thuộc tính.......................114

Bảng 4.14. Tổng hợp kết quả sử dụng kỹ thuật giảm mẫu có lựa chọn thuộc tính ...................115

Bảng 4.15. Bảng tổng hợp kết quả sử dụng kỹ thuật giảm mẫu................................................116

Bảng 4.16. Tổng hợp kết quả sử dụng kỹ thuật tăng mẫu và giảm mẫu ...................................117

Bảng 4.17. Chi tiết kết quả sử dụng kỹ thuật tăng mẫu và giảm mẫu .......................................118

Bảng 5.1. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Worms.............128

Bảng 5.2. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Worms........129

Bảng 5.3. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Shellcode .........130

Bảng 5.4. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Shellcode ....131

Bảng 5.5. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Backdoor .........132

Bảng 5.6. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Backdoor ....133

Bảng 5.7. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Analysis...........134

Bảng 5.8. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Analysis......135

Bảng 5.9. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Recce ...............136

Bảng 5.10. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Recce ........137

Bảng 5.11. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công DoS................138

Bảng 5.12. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công DoS...........139

Bảng 5.13. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Fuzzers ..........140

Bảng 5.14. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Fuzzers .....141

Bảng 5.15. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Exploits .........142

Bảng 5.16. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Exploits.....143

Bảng 5.17. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Generic ..........144

Bảng 5.18. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Generic .....145

Bảng 5.19. Tổng hợp kết quả sử dụng kỹ thuật học máy đơn ...................................................145

Bảng 5.20. Tổng hợp kết quả sử dụng kỹ thuật học máy phối hợp...........................................145

Bảng 5.21. Các kỹ thuật đề xuất với mỗi kiểu tấn công............................................................147

Bảng 5.22. Ma trận lỗi của bộ phân lớp lai đề xuất...................................................................147

Bảng 5.23. Các chỉ số đánh giá của bộ phân lớp lai đề xuất .....................................................148

Bảng 5.24. So sánh chỉ số Accuracy với một số nghiên cứu gần đây .......................................148

Bảng 5.25. So sánh chỉ số Sensitivity với một số nghiên cứu gần đây .....................................148

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1. Các tiếp cận học máy hiện nay để xây dựng các IDS....................................................4

Hình 2.1. Sử dụng kỹ thuật SMOTE để tạo dữ liệu tổng hợp .....................................................16

Hình 2.2. Kỹ thuật tăng mẫu Cluster SMOTE ............................................................................17

Hình 2.3. Các Liên kết Tomek loại bỏ sự chồng chéo giữa các lớp............................................20

Hình 2.4. Kỹ thuật Bootstrap.......................................................................................................22

Hình 2.5. Kỹ thuật Bagging.........................................................................................................22

Hình 2.6. Kỹ thuật Boosting........................................................................................................23

Hình 2.7. Kỹ thuật Stacking với bộ phân lớp Meta.....................................................................24

Hình 2.8. Tập dữ liệu đang được sử dụng trong nghiên cứu IDS................................................28

Hình 2.9. Mô hình trích xuất dữ liệu UNSW-NB15 sử dụng công cụ IXIA...............................29

Hình 2.10. Phân bố các kiểu tấn công trong tập dữ liệu UNSW-NB15 ......................................32

Hình 2.11. Các chỉ số sử dụng trong đánh giá ROC - AUC........................................................35

Hình 2.12. Chọn chỉ số đánh giá hiệu năng các IDS...................................................................35

Hình 2.13. Lĩnh vực tập trung nghiên cứu của IDS.....................................................................42

Hình 2.14. Cách tiếp cận được sử dụng trong nghiên cứu IDS...................................................42

Hình 3.1. Độ lợi thông tin của các thuộc tính với kiểu tấn công Worms....................................67

Hình 3.2. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Worms.......................................67

Hình 3.3. Hệ số tương quan của các thuộc tính với kiểu tấn công Worms.................................67

Hình 3.4. Độ lợi thông tin của các thuộc tính với kiểu tấn công Shellcode ................................68

Hình 3.5. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Shellcode...................................69

Hình 3.6. Hệ số tương quan của các thuộc tính với kiểu tấn công Shellcode .............................69

Hình 3.7. Độ lợi thông tin của các thuộc tính với kiểu tấn công Backdoor ................................71

Hình 3.8. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Backdoor...................................71

Hình 3.9. Hệ số tương quan của các thuộc tính với kiểu tấn công Backdoor .............................71

Hình 3.10. Độ lợi thông tin của các thuộc tính với kiểu tấn công Analysis................................72

Hình 3.11. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Analysis ..................................73

Hình 3.12. Hệ số tương quan của các thuộc tính với kiểu tấn công Analysis.............................73

Hình 3.13. Độ lợi thông tin của các thuộc tính với kiểu tấn công Recce ....................................74

Hình 3.14. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Recce.......................................75

Hình 3.15. Hệ số tương quan của các thuộc tính với kiểu tấn công Recce .................................75

Hình 3.16. Độ lợi thông tin của các thuộc tính với kiểu tấn công DoS.......................................76

Hình 3.17. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công DoS .........................................77

Hình 3.18. Hệ số tương quan của các thuộc tính với kiểu tấn công DoS....................................77

Hình 3.19. Độ lợi thông tin của các thuộc tính với kiểu tấn công Fuzzers .................................79

Hình 3.20. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Fuzzers....................................79

Hình 3.21. Hệ số tương quan của các thuộc tính với kiểu tấn công Fuzzers...............................79

Hình 3.22. Độ lợi thông tin của các thuộc tính với kiểu tấn công Exploits.................................81

Hình 3.23. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Exploits...................................81

Hình 3.24. Hệ số tương quan của các thuộc tính với kiểu tấn công Exploits..............................81

Hình 3.25. Độ lợi thông tin của các thuộc tính với kiểu tấn công Generic .................................83

Hình 3.26. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Generic....................................83

Hình 3.27. Hệ số tương quan của các thuộc tính với kiểu tấn công Generic ..............................83

Hình 3.28. Mức độ cải thiện F-Measure của kỹ thuật lựa chọn thuộc tính đề xuất.....................85

Hình 4.1. Kết quả đạt được khi tăng mẫu với kiểu tấn công Worms..........................................97

Hình 4.2. Kết quả đạt được khi tăng mẫu với kiểu tấn công Shellcode ......................................97

Hình 4.3. Kết quả đạt được khi tăng mẫu với kiểu tấn công Backdoor ......................................98

Hình 4.4. Kết quả đạt được khi tăng mẫu với kiểu tấn công Analysis........................................99

Hình 4.5. Kết quả đạt được khi tăng mẫu với kiểu tấn công Recce ............................................99

Hình 4.6. Kết quả đạt được khi tăng mẫu với kiểu tấn công DoS.............................................100

Hình 4.7. Kết quả đạt được khi tăng mẫu với kiểu tấn công Fuzzers........................................101

Hình 4.8. Kết quả đạt được khi tăng mẫu với kiểu tấn công Exploits.......................................101

Hình 4.9. Kết quả đạt được khi tăng mẫu với kiểu tấn công Generic .......................................102

Hình 4.10. Mức độ cải thiện chỉ số đánh giá F-Measure của kỹ thuật tăng mẫu đề xuất..........106

Hình 4.11. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Worms.........................107

Hình 4.12. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Shellcode .....................108

Hình 4.13. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Backdoor .....................109

Hình 4.14. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Analysis.......................110

Hình 4.15. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Recce ...........................110

Hình 4.16. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công DoS..............................111

Hình 4.17. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Fuzzers ........................112

Hình 4.18. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Exploits .......................112

Hình 4.19. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Generic ........................113

Hình 4.20. Mức độ cải thiện chỉ số đánh giá F-Measure của kỹ thuật giảm mẫu đề xuất ........117

Hình 5.1. Độ lệch và Phương sai để tránh quá khớp và chưa khớp dữ liệu ..............................121

Hình 5.2. Chọn mô hình cơ sở và kỹ thuật phối hợp đồng nhất với từng kiểu tấn công...........122

Hình 5.3. Kỹ thuật phối hợp Stacking không đồng nhất với từng kiểu tấn công ......................122

Hình 5.4. Kỹ thuật phối hợp Voting không đồng nhất với từng kiểu tấn công.........................122

Hình 5.5. Mô hình IDS sử dụng kỹ thuật phối hợp đồng nhất dùng trong thử nghiệm ............125

Hình 5.6. Mô hình IDS sử dụng kỹ thuật Voting dùng trong thử nghiệm.................................126

Hình 5.7. Mô hình IDS sử dụng kỹ thuật Mix Stacking dùng trong thử nghiệm......................126

Hình 5.8. Mô hình IDS đề xuất phát hiện các kiểu tấn công mạng...........................................147

DANH MỤC CÁC THUẬT TOÁN

Thuật toán 2.1. Thuật toán Focus...........................................................................................12

Thuật toán 2.2. Thuật toán AAB............................................................................................12

Thuật toán 2.3. Tìm kiếm theo kinh nghiệm qua xếp hạng thuộc tính ..................................13

Thuật toán 2.4. Lựa chọn thuộc tính LVF..............................................................................14

Thuật toán 2.5. Kỹ thuật tăng mẫu SMOTE ..........................................................................16

Thuật toán 2.6. Kỹ thuật lấy mẫu tổng hợp thích ứng ADASYN..........................................18

Thuật toán 2.7. Kỹ thuật tăng mẫu Borderline-SMOTE........................................................19

Thuật toán 2.8. Xác định và loại bỏ các Liên kết Tomek ......................................................20

Thuật toán 2.9. Tăng cường tính đa dạng sử dụng Decorate .................................................25

Thuật toán 3.1. Lựa chọn thuộc tính sử dụng BFE ................................................................58

Thuật toán 3.2. Lựa chọn thuộc tính sử dụng FFC ................................................................59

Thuật toán 3.3. Thuật toán lựa chọn thuộc tính mFFC ..........................................................63

Thuật toán 3.4. Thuật toán lựa chọn thuộc tính mBFE..........................................................64

Thuật toán 4.1. Thuật toán tăng mẫu kết hợp với mFFC.......................................................89

Thuật toán 4.2. Thuật toán tăng mẫu kết hợp với mBFE.......................................................90

Thuật toán 4.3. Thuật toán giảm mẫu kết hợp với mFFC......................................................93

Thuật toán 4.4. Thuật toán giảm mẫu kết hợp với mBFE......................................................94

Thuật toán 5.1. Xây dựng bộ phân lớp sử dụng kỹ thuật phối hợp đồng nhất.....................123

Thuật toán 5.2. Xây dựng bộ phân lớp sử dụng kỹ thuật phối hợp không đồng nhất..........124

1

CHƯƠNG 1. GIỚI THIỆU

Chương này trình bày bức tranh tổng quan về luận án gồm: Giới thiệu bài toán nghiên

cứu và ý nghĩa; Các đóng góp của luận án và ý nghĩa; Phương pháp thực hiện và Cấu trúc của

luận án.

1.1 Hệ thống phát hiện xâm nhập

Internet là xu hướng của thời đại, mang lại lợi thế cho các cá nhân, doanh nghiệp biết

tận dụng và phát huy thế mạnh của internet. Internet là chìa khóa vàng để đi đến thành công.

Để đạt đến 50 triệu người dùng, phát thanh mất 38 năm, truyền hình mất 13 năm, internet chỉ

cần 4 năm, và mạng xã hội facebook chỉ cần 2 năm. Internet và những công cụ trên internet,

các website bán hàng, website kinh doanh online, … đã được khai thác vào các hoạt động

kinh doanh và mang lại những nguồn thu lớn cho các cá nhân, doanh nghiệp.

Bên cạnh những lợi ích của internet, các cơ quan, doanh nghiệp cũng phải đối đầu

với mặt trái của mạng internet, một trong những mặt tiêu cực đó là vấn đề tấn công mạng.

Tấn công mạng là tất cả các hình thức xâm nhập trái phép vào một hệ thống máy tính, website,

cơ sở dữ liệu, hạ tầng mạng, thiết bị của các cá nhân, doanh nghiệp thông qua mạng

internet với những mục đích bất hợp pháp. Mục tiêu của một cuộc tấn công mạng rất đa dạng,

có thể là vi phạm dữ liệu (đánh cắp, thay đổi, mã hóa, phá hủy), cũng có thể nhắm tới sự toàn

vẹn của hệ thống (gây gián đoạn, cản trở dịch vụ), hoặc lợi dụng tài nguyên của nạn nhân.

Để đối phó với vấn đề tấn công mạng, một vấn đề then chốt đối với những nhà quản

trị mạng ở các cơ quan, doanh nghiệp là nhanh chóng phát hiện xâm nhập và tiến tới ngăn

chặn xâm nhập. Một trong những hệ thống được các nhà quản trị mạng sử dụng thông dụng

hiện nay là Hệ thống phát hiện xâm nhập (Intrusion Detection System: IDS).

1.1.1 Giới thiệu về IDS

IDS là hệ thống giám sát lưu lượng mạng hoặc máy chủ nhằm phát hiện ra hiện tượng

bất thường, các hoạt động trái phép xâm nhập vào hệ thống mạng hoặc máy chủ của các cơ

quan, doanh nghiệp. IDS có thể phân biệt các cuộc tấn công từ nội bộ hoặc từ bên ngoài. IDS

có thể phát hiện dựa trên các dấu hiệu đặc biệt về nguy cơ đã biết hoặc dựa trên so sánh lưu

lượng mạng hiện tại với thông số chuẩn của hệ thống để tìm ra các dấu hiệu bất thường. Tính

hiệu quả của một IDS được thể hiện qua các tiêu chí:

(1) Tính chính xác (Accuracy): IDS phải có độ chính xác cao, tránh các trường hợp

báo động giả hoặc không phát hiện xâm nhập khi bị tấn công;

(2) Hiệu năng (Performance): IDS có thể phát hiện xâm nhập trong thời gian ngắn

nhất, để kịp thời có các hành động ứng phó phù hợp. Tránh tình trạng phát hiện ra khi tội

phạm mạng đã gây tổn hại cho hệ thống;

(3) Tính trọn vẹn (Completeness): IDS không được bỏ qua bất cứ một xâm nhập trái

phép nào;

(4) Khả năng chịu lỗi (Fault Tolerance): IDS phải có khả năng chống lại tấn công. Có

trường hợp, bản thân IDS cũng không hoạt động khi phía xâm nhập tấn công vào chính IDS;

(5) Khả năng mở rộng (Scalability): IDS phải có khả năng mở rộng để đáp ứng nhu

cầu ngày càng cao của người dùng về lưu lượng dữ liệu.

Tải ngay đi em, còn do dự, trời tối mất!