Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

Trang chủ

Đăng nhập

Đăng ký

Mới

Đăng ký tài khoản mới

AI Tư vấn

Mới

Trợ lý thông minh tìm tài liệu

Liên hệ fanpage

Hỗ trợ tìm tài liệu

Lưu trang

Liên hệ fanpage

Luận án tiến sĩ khoa học máy tính kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng

PREMIUM

Số trang

174

Kích thước

3.0 MB

Định dạng

PDF

Lượt xem

960

Tài liệu đang bị lỗi

File tài liệu này hiện đang bị hỏng, chúng tôi đang cố gắng khắc phục.

Luận án tiến sĩ khoa học máy tính kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng

Nội dung xem thử

Mô tả chi tiết

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC LẠC HỒNG

HOÀNG NGỌC THANH

KỸ THUẬT HỌC MÁY PHỐI HỢP VÀ TIỀN XỬ LÝ DỮ LIỆU

TRONG VIỆC NÂNG CAO CHẤT LƯỢNG PHÂN LỚP CỦA

CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Chuyên ngành: Khoa học máy tính

Mã số ngành: 9480101

NGƯỜI HƯỚNG DẪN KHOA HỌC

PGS.TS. TRẦN VĂN LĂNG

Đồng Nai, năm 2022

LỜI CAM ĐOAN

Tên tôi là: Hoàng Ngọc Thanh

Sinh ngày: 13/11/1969 Nơi sinh: Bình Định

Là nghiên cứu sinh chuyên ngành Khoa học máy tính, khóa 2015, Trường đại học

Lạc Hồng.

Tôi xin cam đoan luận án tiến sĩ “Kỹ thuật học máy phối hợp và tiền xử lý dữ liệu

trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng” là công

trình nghiên cứu của cá nhân tôi, đây là công trình do tôi thực hiện dưới sự hướng dẫn của

giảng viên, người hướng dẫn khoa học là: PGS. TS. Trần Văn Lăng. Các thuật toán, số liệu

và kết quả trình bày trong luận án là hoàn toàn có được từ các thử nghiệm, trung thực và

không sao chép.

Nghiên cứu sinh

Hoàng Ngọc Thanh

LỜI CẢM ƠN

Lời đầu tiên, với lòng biết ơn sâu sắc nhất, tôi xin gửi lời cảm ơn tới PGS. TS. Trần

Văn Lăng - người hướng dẫn khoa học, thầy là người đã truyền cho tôi tri thức, cũng như tâm

huyết nghiên cứu khoa học, thầy đã luôn tận tâm hướng dẫn, giúp đỡ và tạo mọi điều kiện tốt

nhất để tôi hoàn thành luận án này.

Tôi xin chân thành cảm ơn Quý thầy cô Ban giám hiệu, Khoa công nghệ thông tin,

Khoa sau đại học Trường đại học Lạc Hồng đã giảng dạy và tạo điều kiện thuận lợi cho tôi

trong suốt thời gian tôi tham gia nghiên cứu sinh.

Tôi xin cảm ơn sự hỗ trợ từ Ban giám hiệu, Khoa kỹ thuật và khoa học máy tính,

Trung tâm ngoại ngữ và công nghệ thông tin Trường Đại học Quốc tế Sài Gòn, nơi tôi đang

công tác. Và tôi cũng xin gửi lời cảm ơn chân thành tới các đồng nghiệp, bạn bè - những

người đã luôn quan tâm, động viên tôi trong suốt thời gian qua.

Cuối cùng, tôi xin dành tình cảm đặc biệt đến gia đình, người thân của tôi - những

người đã luôn tin tưởng, động viên và tiếp sức cho tôi thêm nghị lực để tôi vững bước và vượt

qua mọi khó khăn.

Tác giả

Hoàng Ngọc Thanh

TÓM TẮT

Phát hiện bất thường dựa trên luồng là một vấn đề vẫn phát triển trong môi trường an

ninh mạng. Nhiều nghiên cứu trước đây đã áp dụng học máy như một phương pháp nâng cao

khả năng phát hiện sự bất thường trong các hệ thống phát hiện xâm nhập mạng (NIDS). Các

nghiên cứu gần đây cho thấy, các NIDS vẫn phải đối mặt với những thách thức trong việc cải

thiện độ chính xác, giảm tỷ lệ cảnh báo sai và phát hiện được các tấn công mới.

Nội dung luận án đề xuất một số giải pháp sử dụng kỹ thuật học máy phối hợp và cải

tiến các kỹ thuật tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống

phát hiện xâm nhập mạng. Điều này dựa trên thực tế là:

(1) Có nhiều dữ liệu mất cân bằng lớp trong các tập dữ liệu huấn luyện dùng cho các

NIDS.

(2) Các thuật toán học máy có thể sử dụng tất cả các thuộc tính thực sự không liên

quan đến mục tiêu phân lớp, điều này làm giảm chất lượng phân lớp và tăng thời gian tính

toán.

(3) Các bộ phân lớp phối hợp đều vượt trội so với các bộ phân lớp đơn về độ chính

xác phân lớp. Những lợi thế của bộ phân lớp phối hợp là đặc biệt rõ ràng trong lĩnh vực phát

hiện xâm nhập.

Để giải quyết vấn đề, luận án đề xuất cải tiến việc thực hiện hai giải pháp trong giai

đoạn tiền xử lý dữ liệu, cụ thể là:

(1) Đề xuất 2 thuật toán lựa chọn thuộc tính trên cơ sở cải tiến 2 thuật toán lựa chọn

thuộc tính FFC và BFE đã biết.

(2) Cải tiến các kỹ thuật tăng mẫu và giảm mẫu tập dữ liệu huấn luyện.

Dữ liệu kết quả sau khi tiền xử lý được sử dụng để huấn luyện các bộ phân lớp phối

hợp bằng cách sử dụng các thuật toán học máy phối hợp đồng nhất (Bagging, Boosting,

Stacking và Decorate) và không đồng nhất (Voting, Stacking và RF). Kết quả thử nghiệm trên

các tập dữ liệu huấn luyện và kiểm tra đầy đủ của tập dữ liệu UNSW-NB15 cho thấy, các giải

pháp đề xuất đã cải thiện chất lượng phân lớp của các NIDS.

Bên cạnh những kết quả đạt được, kết quả nghiên cứu của luận án cũng để lại những

tồn tại và định hướng phát triển trong tương lai:

(1) Thời gian huấn luyện các mô hình phân lớp đề xuất còn lớn, việc phối hợp đúng

đắn các thuật toán để xây dựng một mô hình phân lớp lai, đa nhãn và đáp ứng thời gian thực

là vấn đề cần được tiếp tục nghiên cứu.

(2) Năng lực xử lý đóng vai trò quan trọng trong việc khai thác các thuật toán học

máy. Việc nâng cao hiệu quả xử lý theo hướng tiếp cận xử lý song song cũng như việc tối ưu

các tham số cho các kỹ thuật học máy là vấn đề còn bỏ ngỏ.

ABSTRACT

Stream-based intrusion detection is a growing problem in computer network security

environments. Many previous researches have applied machine learning as a method to detect

attacks in Network Intrusion Detection Systems (NIDS). However, these methods still have

limitations of low accuracy, high false alarm rate and detecting new attacks.

The content of the thesis proposes some solutions using ensemble machine learning

techniques and improving data preprocessing techniques in improving the classification

quality of NIDS. This is based on the fact that:

(1) There is a lot of class imbalance data in the training datasets used for NIDS.

(2) Machine learning algorithms can use some features that are really irrelevant to the

classification goal, which reduces the quality of classification and increases computation time.

(3) Ensemble classifiers outperform the single classifiers in classification accuracy.

The advantages of the ensemble classifier are particularly evident in the area of network

intrusion detection.

To solve the problem, the thesis proposes to improve the implementation of two

solutions in the data preprocessing stage, details as follows:

(1) Proposing 2 feature selection algorithms on the basis of improving 2 known FFC

and BFE feature selection algorithms.

(2) Improving techniques for oversampling and undersampling the training dataset.

The resulting data after preprocessing is used to train the ensemble classifiers using

both homogeneous (Bagging, Boosting, Stacking and Decorate) and heterogeneous (Voting,

Stacking and RF) ensemble machine learning algorithms. The experimental results on the full

training and testing datasets of the UNSW-NB15 dataset show that the proposed solutions

have improved the classification quality of the NIDS.

In addition to the achieved results, the research results of the thesis also leave

shortcomings and future development orientations:

(1) The training time of the proposed classification models is still large, the

coordination the right algorithms to build a hybrid, multi-label and real-time response

classification model is a problem that needs to be further researched.

(2) Processing capacity plays an important role in exploiting machine learning

algorithms. The improvement of processing efficiency in the direction of parallel processing

as well as the optimization of parameters for machine learning techniques is still an open

issue.

MỤC LỤC

CHƯƠNG 1. GIỚI THIỆU ...................................................................................................1

1.1 Hệ thống phát hiện xâm nhập ........................................................................................1

1.1.1 Giới thiệu về IDS..................................................................................................1

1.1.2 Phân loại IDS........................................................................................................2

1.1.3 IDS sử dụng kỹ thuật học máy .............................................................................3

1.2 Tính cấp thiết của đề tài luận án ....................................................................................5

1.3 Mục tiêu nghiên cứu ......................................................................................................5

1.4 Đối tượng và phạm vi nghiên cứu .................................................................................6

1.4.1 Đối tượng nghiên cứu...........................................................................................6

1.4.2 Phạm vi nghiên cứu ..............................................................................................6

1.5 Phương pháp nghiên cứu ...............................................................................................6

1.6 Ý nghĩa khoa học và thực tiễn .......................................................................................6

1.6.1 Ý nghĩa khoa học..................................................................................................6

1.6.2 Ý nghĩa thực tiễn ..................................................................................................6

1.7 Những điểm đóng góp mới............................................................................................7

1.8 Kết cấu của luận án........................................................................................................7

CHƯƠNG 2. CÁC NGHIÊN CỨU LIÊN QUAN ...............................................................8

2.1 Cơ sở lý thuyết...............................................................................................................8

2.1.1 Lựa chọn thuộc tính..............................................................................................8

2.1.2 Lấy mẫu lại tập dữ liệu.......................................................................................15

2.1.3 Kỹ thuật học máy................................................................................................21

2.1.4 Tập dữ liệu sử dụng cho các IDS .......................................................................27

2.1.5 Chỉ số đánh giá hiệu năng các IDS.....................................................................33

2.2 Các nghiên cứu liên quan về học máy cho IDS...........................................................36

2.2.1 Lựa chọn thuộc tính............................................................................................36

2.2.2 Lấy mẫu lại tập dữ liệu.......................................................................................38

2.2.3 Các mô hình học máy cho các IDS ....................................................................40

2.2.4 Nhận xét..............................................................................................................56

CHƯƠNG 3. GIẢI PHÁP LỰA CHỌN THUỘC TÍNH..................................................57

3.1 Giải pháp lựa chọn thuộc tính đề xuất.........................................................................57

3.1.1 Các chỉ số đo thông tin .......................................................................................57

3.1.2 Thuật toán loại bỏ thuộc tính ngược BFE ..........................................................58

3.1.3 Thuật toán chọn thuộc tính thuận FFC...............................................................59

3.1.4 Thuật toán lựa chọn thuộc tính đề xuất ..............................................................61

3.2 Kết quả thực hiện.........................................................................................................65

3.2.1 Lựa chọn thuộc tính với kiểu tấn công Worms..................................................66

3.2.2 Lựa chọn thuộc tính với kiểu tấn công Shellcode ..............................................68

3.2.3 Lựa chọn thuộc tính với kiểu tấn công Backdoor ..............................................70

3.2.4 Lựa chọn thuộc tính với kiểu tấn công Analysis................................................72

3.2.5 Lựa chọn thuộc tính với kiểu tấn công Recce ....................................................74

3.2.6 Lựa chọn thuộc tính với kiểu tấn công DoS.......................................................76

3.2.7 Lựa chọn thuộc tính với kiểu tấn công Fuzzers .................................................78

3.2.8 Lựa chọn thuộc tính với kiểu tấn công Exploits.................................................80

3.2.9 Lựa chọn thuộc tính với kiểu tấn công Generic .................................................82

3.3 So sánh, nhận xét và đánh giá về giải pháp lựa chọn thuộc tính đề xuất ....................84

CHƯƠNG 4. GIẢI PHÁP LẤY MẪU LẠI TẬP DỮ LIỆU ............................................87

4.1 Giải pháp lấy mẫu lại tập dữ liệu đề xuất....................................................................87

4.1.1 Giải pháp tăng mẫu.............................................................................................87

4.1.2 Giải pháp giảm mẫu............................................................................................91

4.2 Kết quả thực hiện.........................................................................................................95

4.2.1 Tăng mẫu tập dữ liệu..........................................................................................96

4.2.2 Giảm mẫu tập dữ liệu .......................................................................................106

4.3 Tổng hợp kết quả và nhận xét về giải pháp lấy mẫu lại tập dữ liệu ..........................117

CHƯƠNG 5. KỸ THUẬT PHỐI HỢP CHO MÔ HÌNH IDS.......................................120

5.1 Kỹ thuật phối hợp đề xuất .........................................................................................120

5.2 Kết quả thực hiện.......................................................................................................125

5.2.1 Sử dụng kỹ thuật phối hợp với kiểu tấn công Worms......................................127

5.2.2 Sử dụng kỹ thuật phối hợp với kiểu tấn công Shellcode..................................129

5.2.3 Sử dụng kỹ thuật phối hợp với kiểu tấn công Backdoor..................................131

5.2.4 Sử dụng kỹ thuật phối hợp với kiểu tấn công Analysis ...................................133

5.2.5 Sử dụng kỹ thuật phối hợp với kiểu tấn công Recce........................................135

5.2.6 Sử dụng kỹ thuật phối hợp với kiểu tấn công DoS ..........................................137

5.2.7 Sử dụng kỹ thuật phối hợp với kiểu tấn công Fuzzers.....................................139

5.2.8 Sử dụng kỹ thuật phối hợp với kiểu tấn công Exploits....................................141

5.2.9 Sử dụng kỹ thuật phối hợp với kiểu tấn công Generic.....................................143

5.3 Tổng hợp kết quả và nhận xét về kỹ thuật phối hợp .................................................145

5.4 Mô hình phân lớp lai đề xuất.....................................................................................146

CHƯƠNG 6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.................................................149

6.1 Đánh giá về các kết quả đạt được, hạn chế và hướng phát triển ...............................149

6.2 Đánh giá ý nghĩa học thuật và thực tiễn của luận án.................................................150

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

Viết tắt Viết đầy đủ

ABC Artificial Bee Colony

ADASYN Adaptive Synthetic Sampling

ANN Artificial Neural Network

AUC Area Under the Curve

Bagging Bootstrap Aggregation

BFE Backward Feature Elimination

BFS Best First Search

BN Bayesian Network

CA Correlation Attribute

CART Classification and Regression Trees

CFS Correlation-based Feature Selection

CNN Convolutional Neural Network

CSE Consistency Subset Evaluator

CV Cross Validation

DoS Denial of Service

DT Decision Tree

FFC Forward Feature Construction

ELM Extreme Learning Machines

ENN Edited Nearest Neighbors

FPR False Positive Rate

GA Genetic Algorithm

GAR GRASP with Annealed Randomness

GC Global Competence

GP Genetic Programming

GR Gain Ratio

ICA Independent Component Analysis

IDS Intrusion Detection System

IG Information Gain

KNN K Nearest Neighbours

KNNCF K Nearest Neighbor Collaborative Filtering

LC Local Competence

LDA Linear Discriminant Analysis

LOO Leave One Out

LR Logistic Regression

LSTM Long Short - Term Memory

MARS Multivariate Adaptive Regression Splines

ML Machine Learning

MLP Multi Layer Perceptron

MV Majority Voting

NB Naïve Bayes

NCR Neighborhood Cleaning Rule

NSGA Non-dominated Sorting Genetic Algorithm

OAR One Against Rest

OSELM Sequential Extreme Learning Machine

PART Partial Decision Tree

PCA Principal Component Analysis

PSO Particle Swarm Optimization

R2L Remote to Local

RBF Radial Basis Function

RF Random Forest

RMV Rigged Majority Voting

RNN Recurrent Neural Network

ROC Receiver Operating Characteristics

RT Random Tree

SMOTE Synthetic Minority Over-Sampling Technique

SSV Separability Split Value

SU Symmetrical Uncertainty

SVM Support Vector Machine

TPR True Positive Rate

U2R User to Root

WLC Weighted Local Competence

WMV Weighted Majority Voting

WRMV Weighted Rigged Majority Voting

WTA Winner Takes All

DANH MỤC CÁC BẢNG, BIỂU

Bảng 2.1. Các thuộc tính của tập dữ liệu UNSW-NB15 .............................................................30

Bảng 2.2. Thông tin tập dữ liệu UNSW-NB15 ...........................................................................32

Bảng 2.3. Danh sách các nghiên cứu gần đây về IDS.................................................................40

Bảng 2.4. So sánh các phương pháp cho các phối hợp đồng nhất...............................................45

Bảng 2.5. So sánh các phương pháp phối hợp không đồng nhất.................................................47

Bảng 2.6. Phối hợp không đồng nhất dựa trên biểu quyết ..........................................................52

Bảng 2.7. Các cách tiếp cận phân lớp NSL-KDD phổ biến ........................................................55

Bảng 2.8. So sánh độ chính xác tổng thể.....................................................................................55

Bảng 3.1. Thứ tự đánh số các thuộc tính của tập dữ liệu UNSW-NB15.....................................65

Bảng 3.2. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Worms.....................67

Bảng 3.3. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Worms ...................68

Bảng 3.4. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Worms ...................68

Bảng 3.5. So sánh mBFE-IG với các thuật toán khác với kiểu tấn công Worms........................68

Bảng 3.6. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Shellcode.................69

Bảng 3.7. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Shellcode ...............70

Bảng 3.8. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Shellcode ...............70

Bảng 3.9. So sánh mBFE-GR với các thuật toán khác với kiểu tấn công Shellcode ..................70

Bảng 3.10. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Backdoor...............71

Bảng 3.11. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Backdoor..............72

Bảng 3.12. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Backdoor..............72

Bảng 3.13. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công Backdoor ................72

Bảng 3.14. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Analysis ................73

Bảng 3.15. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Analysis...............74

Bảng 3.16. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Analysis...............74

Bảng 3.17. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công Analysis..................74

Bảng 3.18. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Recce.....................75

Bảng 3.19. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Recce ...................76

Bảng 3.20. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Recce ...................76

Bảng 3.21. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công Recce ......................76

Bảng 3.22. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công DoS .......................77

Bảng 3.23. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công DoS......................78

Bảng 3.24. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công DoS......................78

Bảng 3.25. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công DoS.........................78

Bảng 3.26. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Fuzzers..................79

Bảng 3.27. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Fuzzers.................80

Bảng 3.28. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Fuzzers.................80

Bảng 3.29. So sánh mBFE-IG với các thuật toán khác với kiểu tấn công Fuzzers.....................80

Bảng 3.30. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Exploits.................81

Bảng 3.31. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Exploits................82

Bảng 3.32. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Exploits................82

Bảng 3.33. So sánh mBFE-CA với các thuật toán khác với kiểu tấn công Exploits...................82

Bảng 3.34. Kết quả lựa chọn thuộc tính dùng mBFE-IG với kiểu tấn công Generic..................83

Bảng 3.35. Kết quả lựa chọn thuộc tính dùng mBFE-GR với kiểu tấn công Generic ................84

Bảng 3.36. Kết quả lựa chọn thuộc tính dùng mBFE-CA với kiểu tấn công Generic ................84

Bảng 3.37. So sánh mBFE-IG với các thuật toán khác với kiểu tấn công Generic.....................84

Bảng 3.38. Tổng hợp kết quả lựa chọn thuộc tính với mỗi kiểu tấn công...................................85

Bảng 4.1. Chi tiết kết quả sử dụng kỹ thuật tăng mẫu có lựa chọn thuộc tính..........................103

Bảng 4.2. Tổng hợp kết quả sử dụng kỹ thuật tăng mẫu có lựa chọn thuộc tính ......................104

Bảng 4.3. Bảng tổng hợp kết quả sử dụng kỹ thuật tăng mẫu...................................................105

Bảng 4.4. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Worms................................107

Bảng 4.5. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Shellcode ............................108

Bảng 4.6. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Backdoor ............................108

Bảng 4.7. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Analysis..............................109

Bảng 4.8. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Recce ..................................110

Bảng 4.9. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công DoS.....................................111

Bảng 4.10. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Fuzzers .............................111

Bảng 4.11. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Exploits ............................112

Bảng 4.12. Kết quả sử dụng kỹ thuật giảm mẫu với kiểu tấn công Generic .............................113

Bảng 4.13. Chi tiết kết quả sử dụng kỹ thuật giảm mẫu có lựa chọn thuộc tính.......................114

Bảng 4.14. Tổng hợp kết quả sử dụng kỹ thuật giảm mẫu có lựa chọn thuộc tính ...................115

Bảng 4.15. Bảng tổng hợp kết quả sử dụng kỹ thuật giảm mẫu................................................116

Bảng 4.16. Tổng hợp kết quả sử dụng kỹ thuật tăng mẫu và giảm mẫu ...................................117

Bảng 4.17. Chi tiết kết quả sử dụng kỹ thuật tăng mẫu và giảm mẫu .......................................118

Bảng 5.1. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Worms.............128

Bảng 5.2. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Worms........129

Bảng 5.3. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Shellcode .........130

Bảng 5.4. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Shellcode ....131

Bảng 5.5. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Backdoor .........132

Bảng 5.6. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Backdoor ....133

Bảng 5.7. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Analysis...........134

Bảng 5.8. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Analysis......135

Bảng 5.9. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Recce ...............136

Bảng 5.10. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Recce ........137

Bảng 5.11. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công DoS................138

Bảng 5.12. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công DoS...........139

Bảng 5.13. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Fuzzers ..........140

Bảng 5.14. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Fuzzers .....141

Bảng 5.15. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Exploits .........142

Bảng 5.16. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Exploits.....143

Bảng 5.17. So sánh chỉ số đánh giá các phối hợp đồng nhất với kiểu tấn công Generic ..........144

Bảng 5.18. So sánh chỉ số đánh giá giữa các kỹ thuật phân lớp với kiểu tấn công Generic .....145

Bảng 5.19. Tổng hợp kết quả sử dụng kỹ thuật học máy đơn ...................................................145

Bảng 5.20. Tổng hợp kết quả sử dụng kỹ thuật học máy phối hợp...........................................145

Bảng 5.21. Các kỹ thuật đề xuất với mỗi kiểu tấn công............................................................147

Bảng 5.22. Ma trận lỗi của bộ phân lớp lai đề xuất...................................................................147

Bảng 5.23. Các chỉ số đánh giá của bộ phân lớp lai đề xuất .....................................................148

Bảng 5.24. So sánh chỉ số Accuracy với một số nghiên cứu gần đây .......................................148

Bảng 5.25. So sánh chỉ số Sensitivity với một số nghiên cứu gần đây .....................................148

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1. Các tiếp cận học máy hiện nay để xây dựng các IDS....................................................4

Hình 2.1. Sử dụng kỹ thuật SMOTE để tạo dữ liệu tổng hợp .....................................................16

Hình 2.2. Kỹ thuật tăng mẫu Cluster SMOTE ............................................................................17

Hình 2.3. Các Liên kết Tomek loại bỏ sự chồng chéo giữa các lớp............................................20

Hình 2.4. Kỹ thuật Bootstrap.......................................................................................................22

Hình 2.5. Kỹ thuật Bagging.........................................................................................................22

Hình 2.6. Kỹ thuật Boosting........................................................................................................23

Hình 2.7. Kỹ thuật Stacking với bộ phân lớp Meta.....................................................................24

Hình 2.8. Tập dữ liệu đang được sử dụng trong nghiên cứu IDS................................................28

Hình 2.9. Mô hình trích xuất dữ liệu UNSW-NB15 sử dụng công cụ IXIA...............................29

Hình 2.10. Phân bố các kiểu tấn công trong tập dữ liệu UNSW-NB15 ......................................32

Hình 2.11. Các chỉ số sử dụng trong đánh giá ROC - AUC........................................................35

Hình 2.12. Chọn chỉ số đánh giá hiệu năng các IDS...................................................................35

Hình 2.13. Lĩnh vực tập trung nghiên cứu của IDS.....................................................................42

Hình 2.14. Cách tiếp cận được sử dụng trong nghiên cứu IDS...................................................42

Hình 3.1. Độ lợi thông tin của các thuộc tính với kiểu tấn công Worms....................................67

Hình 3.2. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Worms.......................................67

Hình 3.3. Hệ số tương quan của các thuộc tính với kiểu tấn công Worms.................................67

Hình 3.4. Độ lợi thông tin của các thuộc tính với kiểu tấn công Shellcode ................................68

Hình 3.5. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Shellcode...................................69

Hình 3.6. Hệ số tương quan của các thuộc tính với kiểu tấn công Shellcode .............................69

Hình 3.7. Độ lợi thông tin của các thuộc tính với kiểu tấn công Backdoor ................................71

Hình 3.8. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Backdoor...................................71

Hình 3.9. Hệ số tương quan của các thuộc tính với kiểu tấn công Backdoor .............................71

Hình 3.10. Độ lợi thông tin của các thuộc tính với kiểu tấn công Analysis................................72

Hình 3.11. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Analysis ..................................73

Hình 3.12. Hệ số tương quan của các thuộc tính với kiểu tấn công Analysis.............................73

Hình 3.13. Độ lợi thông tin của các thuộc tính với kiểu tấn công Recce ....................................74

Hình 3.14. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Recce.......................................75

Hình 3.15. Hệ số tương quan của các thuộc tính với kiểu tấn công Recce .................................75

Hình 3.16. Độ lợi thông tin của các thuộc tính với kiểu tấn công DoS.......................................76

Hình 3.17. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công DoS .........................................77

Hình 3.18. Hệ số tương quan của các thuộc tính với kiểu tấn công DoS....................................77

Hình 3.19. Độ lợi thông tin của các thuộc tính với kiểu tấn công Fuzzers .................................79

Hình 3.20. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Fuzzers....................................79

Hình 3.21. Hệ số tương quan của các thuộc tính với kiểu tấn công Fuzzers...............................79

Hình 3.22. Độ lợi thông tin của các thuộc tính với kiểu tấn công Exploits.................................81

Hình 3.23. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Exploits...................................81

Hình 3.24. Hệ số tương quan của các thuộc tính với kiểu tấn công Exploits..............................81

Hình 3.25. Độ lợi thông tin của các thuộc tính với kiểu tấn công Generic .................................83

Hình 3.26. Tỷ suất lợi ích của các thuộc tính với kiểu tấn công Generic....................................83

Hình 3.27. Hệ số tương quan của các thuộc tính với kiểu tấn công Generic ..............................83

Hình 3.28. Mức độ cải thiện F-Measure của kỹ thuật lựa chọn thuộc tính đề xuất.....................85

Hình 4.1. Kết quả đạt được khi tăng mẫu với kiểu tấn công Worms..........................................97

Hình 4.2. Kết quả đạt được khi tăng mẫu với kiểu tấn công Shellcode ......................................97

Hình 4.3. Kết quả đạt được khi tăng mẫu với kiểu tấn công Backdoor ......................................98

Hình 4.4. Kết quả đạt được khi tăng mẫu với kiểu tấn công Analysis........................................99

Hình 4.5. Kết quả đạt được khi tăng mẫu với kiểu tấn công Recce ............................................99

Hình 4.6. Kết quả đạt được khi tăng mẫu với kiểu tấn công DoS.............................................100

Hình 4.7. Kết quả đạt được khi tăng mẫu với kiểu tấn công Fuzzers........................................101

Hình 4.8. Kết quả đạt được khi tăng mẫu với kiểu tấn công Exploits.......................................101

Hình 4.9. Kết quả đạt được khi tăng mẫu với kiểu tấn công Generic .......................................102

Hình 4.10. Mức độ cải thiện chỉ số đánh giá F-Measure của kỹ thuật tăng mẫu đề xuất..........106

Hình 4.11. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Worms.........................107

Hình 4.12. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Shellcode .....................108

Hình 4.13. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Backdoor .....................109

Hình 4.14. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Analysis.......................110

Hình 4.15. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Recce ...........................110

Hình 4.16. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công DoS..............................111

Hình 4.17. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Fuzzers ........................112

Hình 4.18. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Exploits .......................112

Hình 4.19. Biểu đồ so sánh các kỹ thuật giảm mẫu với kiểu tấn công Generic ........................113

Hình 4.20. Mức độ cải thiện chỉ số đánh giá F-Measure của kỹ thuật giảm mẫu đề xuất ........117

Hình 5.1. Độ lệch và Phương sai để tránh quá khớp và chưa khớp dữ liệu ..............................121

Hình 5.2. Chọn mô hình cơ sở và kỹ thuật phối hợp đồng nhất với từng kiểu tấn công...........122

Hình 5.3. Kỹ thuật phối hợp Stacking không đồng nhất với từng kiểu tấn công ......................122

Hình 5.4. Kỹ thuật phối hợp Voting không đồng nhất với từng kiểu tấn công.........................122

Hình 5.5. Mô hình IDS sử dụng kỹ thuật phối hợp đồng nhất dùng trong thử nghiệm ............125

Hình 5.6. Mô hình IDS sử dụng kỹ thuật Voting dùng trong thử nghiệm.................................126

Hình 5.7. Mô hình IDS sử dụng kỹ thuật Mix Stacking dùng trong thử nghiệm......................126

Hình 5.8. Mô hình IDS đề xuất phát hiện các kiểu tấn công mạng...........................................147

DANH MỤC CÁC THUẬT TOÁN

Thuật toán 2.1. Thuật toán Focus...........................................................................................12

Thuật toán 2.2. Thuật toán AAB............................................................................................12

Thuật toán 2.3. Tìm kiếm theo kinh nghiệm qua xếp hạng thuộc tính ..................................13

Thuật toán 2.4. Lựa chọn thuộc tính LVF..............................................................................14

Thuật toán 2.5. Kỹ thuật tăng mẫu SMOTE ..........................................................................16

Thuật toán 2.6. Kỹ thuật lấy mẫu tổng hợp thích ứng ADASYN..........................................18

Thuật toán 2.7. Kỹ thuật tăng mẫu Borderline-SMOTE........................................................19

Thuật toán 2.8. Xác định và loại bỏ các Liên kết Tomek ......................................................20

Thuật toán 2.9. Tăng cường tính đa dạng sử dụng Decorate .................................................25

Thuật toán 3.1. Lựa chọn thuộc tính sử dụng BFE ................................................................58

Thuật toán 3.2. Lựa chọn thuộc tính sử dụng FFC ................................................................59

Thuật toán 3.3. Thuật toán lựa chọn thuộc tính mFFC ..........................................................63

Thuật toán 3.4. Thuật toán lựa chọn thuộc tính mBFE..........................................................64

Thuật toán 4.1. Thuật toán tăng mẫu kết hợp với mFFC.......................................................89

Thuật toán 4.2. Thuật toán tăng mẫu kết hợp với mBFE.......................................................90

Thuật toán 4.3. Thuật toán giảm mẫu kết hợp với mFFC......................................................93

Thuật toán 4.4. Thuật toán giảm mẫu kết hợp với mBFE......................................................94

Thuật toán 5.1. Xây dựng bộ phân lớp sử dụng kỹ thuật phối hợp đồng nhất.....................123

Thuật toán 5.2. Xây dựng bộ phân lớp sử dụng kỹ thuật phối hợp không đồng nhất..........124

CHƯƠNG 1. GIỚI THIỆU

Chương này trình bày bức tranh tổng quan về luận án gồm: Giới thiệu bài toán nghiên

cứu và ý nghĩa; Các đóng góp của luận án và ý nghĩa; Phương pháp thực hiện và Cấu trúc của

luận án.

1.1 Hệ thống phát hiện xâm nhập

Internet là xu hướng của thời đại, mang lại lợi thế cho các cá nhân, doanh nghiệp biết

tận dụng và phát huy thế mạnh của internet. Internet là chìa khóa vàng để đi đến thành công.

Để đạt đến 50 triệu người dùng, phát thanh mất 38 năm, truyền hình mất 13 năm, internet chỉ

cần 4 năm, và mạng xã hội facebook chỉ cần 2 năm. Internet và những công cụ trên internet,

các website bán hàng, website kinh doanh online, … đã được khai thác vào các hoạt động

kinh doanh và mang lại những nguồn thu lớn cho các cá nhân, doanh nghiệp.

Bên cạnh những lợi ích của internet, các cơ quan, doanh nghiệp cũng phải đối đầu

với mặt trái của mạng internet, một trong những mặt tiêu cực đó là vấn đề tấn công mạng.

Tấn công mạng là tất cả các hình thức xâm nhập trái phép vào một hệ thống máy tính, website,

cơ sở dữ liệu, hạ tầng mạng, thiết bị của các cá nhân, doanh nghiệp thông qua mạng

internet với những mục đích bất hợp pháp. Mục tiêu của một cuộc tấn công mạng rất đa dạng,

có thể là vi phạm dữ liệu (đánh cắp, thay đổi, mã hóa, phá hủy), cũng có thể nhắm tới sự toàn

vẹn của hệ thống (gây gián đoạn, cản trở dịch vụ), hoặc lợi dụng tài nguyên của nạn nhân.

Để đối phó với vấn đề tấn công mạng, một vấn đề then chốt đối với những nhà quản

trị mạng ở các cơ quan, doanh nghiệp là nhanh chóng phát hiện xâm nhập và tiến tới ngăn

chặn xâm nhập. Một trong những hệ thống được các nhà quản trị mạng sử dụng thông dụng

hiện nay là Hệ thống phát hiện xâm nhập (Intrusion Detection System: IDS).

1.1.1 Giới thiệu về IDS

IDS là hệ thống giám sát lưu lượng mạng hoặc máy chủ nhằm phát hiện ra hiện tượng

bất thường, các hoạt động trái phép xâm nhập vào hệ thống mạng hoặc máy chủ của các cơ

quan, doanh nghiệp. IDS có thể phân biệt các cuộc tấn công từ nội bộ hoặc từ bên ngoài. IDS

có thể phát hiện dựa trên các dấu hiệu đặc biệt về nguy cơ đã biết hoặc dựa trên so sánh lưu

lượng mạng hiện tại với thông số chuẩn của hệ thống để tìm ra các dấu hiệu bất thường. Tính

hiệu quả của một IDS được thể hiện qua các tiêu chí:

(1) Tính chính xác (Accuracy): IDS phải có độ chính xác cao, tránh các trường hợp

báo động giả hoặc không phát hiện xâm nhập khi bị tấn công;

(2) Hiệu năng (Performance): IDS có thể phát hiện xâm nhập trong thời gian ngắn

nhất, để kịp thời có các hành động ứng phó phù hợp. Tránh tình trạng phát hiện ra khi tội

phạm mạng đã gây tổn hại cho hệ thống;

(3) Tính trọn vẹn (Completeness): IDS không được bỏ qua bất cứ một xâm nhập trái

phép nào;

(4) Khả năng chịu lỗi (Fault Tolerance): IDS phải có khả năng chống lại tấn công. Có

trường hợp, bản thân IDS cũng không hoạt động khi phía xâm nhập tấn công vào chính IDS;

(5) Khả năng mở rộng (Scalability): IDS phải có khả năng mở rộng để đáp ứng nhu

cầu ngày càng cao của người dùng về lưu lượng dữ liệu.

Tài liệu tương tự (6)

Xem tất cả

PREMIUM

6993 lượt xem

LUẬN ÁN TIẾN SĨ NGÀNH KHÍ TƯỢNG NGHIÊN CỨU TÁC ĐỘNG CỦA THAM SỐ HÓA ĐỐI LƯU ĐỐI VỚI DỰ BÁO MƯA BẰNG

Xem chi tiết

MIỄN PHÍ

4662 lượt xem

Luận án tiến sỹ Lập trình tính toán hình thức trong phương pháp phần tử hữu hạn giải một số bài toán

Xem chi tiết

MIỄN PHÍ

4662 lượt xem

Luận án tiến sỹ Áp dụng phương pháp phần tử hữu hạn giải một số bài toán tĩnh và động của vật rắn có

Xem chi tiết

MIỄN PHÍ

4662 lượt xem

Luận án tiến sỹ Nghiên cứu hạ thấp độ biến động và giới hạn phát hiện vàng và platin trong một số

Xem chi tiết

MIỄN PHÍ

3108 lượt xem

Luận án tiến sỹ nghiên cứu quá trình thủy phân protein cá bằng enzym protease từ b.subtilis s5

Xem chi tiết

MIỄN PHÍ

3885 lượt xem

Luận án tiến sĩ Xử lý tổng hợp tài liệu địa lý vật lý vùng thành phố Hồ Chí Minh

Xem chi tiết

Tải ngay đi em, còn do dự, trời tối mất!