Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam
Nghiên cứu phát hiện tấn công mạng dựa vào học không giám sát
Nội dung xem thử
Mô tả chi tiết
1
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
--------∞0∞--------
TÔ DUY TÂN
NGHIÊN CỨU PHÁT HIỆN TẤN CÔNG MẠNG
DỰA VÀO HỌC KHÔNG GIÁM SÁT
LUẬN VĂN THẠC SĨ
KHOA HỌC MÁY TÍNH
TP. HỒ CHÍ MINH, NĂM 2022
2
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
--------∞0∞--------
TÔ DUY TÂN
NGHIÊN CỨU PHÁT HIỆN TẤN CÔNG MẠNG
DỰA VÀO HỌC KHÔNG GIÁM SÁT
Chuyên ngành: Khoa học máy tính
Mã số chuyên ngành: 7 48 01 01
LUẬN VĂN THẠC SĨ
KHOA HỌC MÁY TÍNH
Giảng viên hướng dẫn: TS. NGUYỄN HỒNG SƠN
TP. HỒ CHÍ MINH, NĂM 2022
TRƯỜNG ĐẠI HỌC MỞ
THÀNH PHỐ HỒ CHÍ MINH
KHOA ĐÀO TẠO SAU ĐẠI HỌC
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
GIẤY XÁC NHẬN
Tôi tên là: Tô Duy Tân
Tôi đồng ý cung cấp toàn văn thông tin luận văn tốt nghiệp hợp lệ về bản quyền cho
Thư viện trường đại học Mở Thành phố Hồ Chí Minh. Thư viện trường đại học Mở
Thành phố Hồ Chí Minh sẽ kết nối toàn văn thông tin luận văn tốt nghiệp vào hệ thống
thông tin khoa học của Sở Khoa học và Công nghệ Thành phố Hồ Chí Minh.
Ký tên
(Ghi rõ họ và tên)
Tô Duy Tân
Chuyên ngành: Khoa học máy tính Mã học viên:1784801010015
Ngày sinh: 10/08/1981 Nơi sinh: Tây Ninh
i
LỜI CAM ĐOAN
Tôi cam đoan rằng luận văn: “Nghiên cứu phát hiện tấn công mạng dựa
vào học không giám sát” là bài nghiên cứu của chính tôi.
Ngoại trừ những tài liệu tham khảo được trích dẫn trong luận văn này, các số
liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong
bất kỳ công trình nào khác.
Tp. Hồ Chí Minh, ngày14 tháng 03 năm 2022
Học viên thực hiện luận văn
Tô Duy Tân
ii
LỜI CẢM ƠN
Trong hai năm học tập, nghiên cứu và hoàn thành luận văn thạc sĩ, ngoài
những cố gắng nỗ lực của bản thân, tôi đã nhận được sự hướng dẫn tận tình quý báu
của quý thầy cô, cùng với sự động viên, ủng hộ của đồng nghiệp và gia đình. Với
lòng kính trọng và biết ơn sâu sắc tôi xin được gửi lời cảm ơn chân thành tới:
Ban giám hiệu và tất cả các thầy cô giảng viên của Trường Đại Học Mở
Thành Phố Hồ Chí Minh đã giảng dạy và dìu dắt tôi trong suốt quá trình học tập tại
trường.
Tôi xin gửi lời cảm ơn trân trọng nhất tới người thầy TS. Nguyễn Hồng Sơn
đã trực tiếp hướng dẫn, chỉ bảo tận tình, chia sẻ kiến thức, tài liệu, tạo mọi điều
kiện thuận lợi và định hướng cho tôi trong suốt quá trình thực hiện luận văn.
Bên cạnh đó, tôi cũng đã nhận được rất nhiều sự hỗ trợ, trao đổi và góp ý của
các anh chị và các bạn trong quá trình học tập.
Tuy nhiên, do thời gian có hạn, mặc dù đã cố gắng hết sức mình nhưng chắc
rằng luận văn khó tránh khỏi thiếu sót. Tôi rất mong nhận được sự thông cảm và chỉ
bảo tận tình của quý thầy cô và các bạn.
Tôi xin chân thành cảm ơn!
1
TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
KHOA SAU ĐẠI HỌC
¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯
TÓM TẮT LUẬN VĂN
(Dùng cho học viên và người hướng dẫn)
Đề tài: “Nghiên cứu phát hiện tấn công mạng dựa vào học không giám sát”
Ngành: Khoa học máy tính Học viên: Tô Duy Tân
Người hướng dẫn: TS. Nguyễn Hồng Sơn Mã số: 1784801010015
NỘI DUNG TÓM TẮT
Trong thời đại ngày nay, lĩnh vực công nghệ thông tin, mạng máy tính và
mạng Internet ngày càng phát triển đa dạng, phong phú, đóng vai trò quan trọng
trong việc thúc đẩy sự phát triển của các tổ chức, doanh nghiệp và đang chi phối
trên mọi lĩnh vực kinh tế xã hội của cuộc sống con người. Tuy nhiên, trong thực tế
có nhiều rủi ro khi sử dụng Internet xuất phát từ các cuộc tấn công mạng, các hình
thức tấn công mạng mỗi ngày càng phức tạp hơn. Vì vậy, vấn đề an toàn thông tin
khi sử dụng môi trường Internet cần phải được đặc biệt quan tâm. Nghiên cứu xây
dựng kỹ thuật phát hiện xâm nhập là một chủ đề mang tính thời sự đã thu hút sự
quan tâm của nhiều nhà nghiên cứu trong và ngoài nước.
Trong những năm gần đây, có nhiều nhà nghiên cứu đề xuất và sử dụng các
phương pháp phát hiện tấn công với kết quả phát hiện có độ chính xác cao nhưng
lại cho tỷ lệ cảnh báo sai đối với những tấn công mới lạ. Ngoài ra, chi phí triển
khai và vận hành hệ thống tương đối cao, khả năng phân tích lưu lượng lớn còn
hạn chế.
Hiện nay hướng nghiên cứu dựa vào các mô hình học máy để phân loại và
phát hiện các hành vi xâm nhập hệ thống đang tỏ ra là phương pháp tiềm năng và
hiệu quả vì có thể khắc phục được các hạn chế của phương pháp truyền thống.
Tuy nhiên, một trong những vấn đề được quan tâm là làm sao để xây dựng được
2
mô hình máy học tốt có độ chính xác, thích ứng tốt và chi phí thấp. Đó cũng là lý
do chọn đề tài “Nghiên cứu phát hiện tấn công mạng dựa vào học không giám
sát”. Nội dung chính là nghiên cứu và xây dựng mô hình phát hiện tấn công mạng
dùng công nghệ máy học, trong đó tập trung vào kỹ thuật học không giám sát.
Bằng cách sử dụng thuật toán K-Mean phục vụ cho việc phân cụm dữ liệu mạng
thu được, từ đó xây dựng mô hình phân tách các hành vi bất thường, nguy hiểm
đang tấn công vào hệ thống và cảnh báo để có phương án, ngăn chặn kịp thời.
Đề tài này bao gồm 04 chương:
- Chương 1: Tổng quan về phát hiện tấn công mạng.
- Chương 2: Cơ sở lý thuyết và nguồn dữ liệu.
- Chương 3: Xây dựng mô hình phát hiện tấn công mạng.
- Chương 4: Ứng dụng phát hiện tấn công dựa vào mô hình học không
giám sát.
Chương 1 khái quát về tấn công mạng và các kiểu tấn công mạng phổ biến
hiện nay đã được trình bày tổng quan cùng với phương pháp phòng ngừa tương
ứng. Firewall, hệ thống phát hiện xâm nhập (IDS) và hệ thống ngăn chặn xâm
nhập (IPS) được làm rõ trong chương này. Ngoài ra, còn tổng quan các công
trình nghiên cứu về phát hiện xâm nhập mạng trong những năm gần đây.
Chương 2 trình bày được tổng quan machine learning, các phương pháp
học máy như học có giám sát, học không giám sát, học bán giám sát và học tăng
cường. Bên cạnh đó, làm rõ các thành phần và các bước trong mô hình ứng dụng
machine learning phát hiện xâm nhập mạng và các thuật toán tiền xử lý dữ liệu
trong mô hình. 02 thuật toán phân cụm K-Mean và DBSCAN cũng được giới
thiệu cùng với tập dữ liệu CICIDS2017 được chọn để làm dữ liệu huấn luyện mô
hình theo mục tiêu của luận văn.
Chương 3 đề xuất phương pháp xây dựng mô hình phát hiện tấn công dựa
vào học không giám sát sử dụng thuật toán phân cụm K-mean. Một thành phần
quan trọng là phương pháp trích chọn đặc trưng dựa vào học có giám sát và xử lý
phát hiện dựa vào kết quả phân cụm cũnng được trình bày. Theo đó đã trình bày
cách xác định bộ đặc trưng cho một số loại tấn công điển hình dựa vào tập dữ
3
liệu CICIDS 2017. Khi muốn phát hiện các tấn công này sẽ xây dựng tập dữ liệu
đầu vào cho phân cụm dùng bộ đặc trưng tương ứng và phát hiện dựa trên các
cụm đầu ra của mô hình.
Chương 4 tập trung trình bày các bước chính xây dựng một ứng dụng có
chức năng phát hiện các tấn công mạng khai thác lỗ hổng trên máy tính chạy phần
mềm Flash Player. Ứng dụng đã được lập trình cài đặt áp dụng nguyên tắc phát
hiện dựa vào mô hình học không giám sát với thuật toán phân cụm K-mean. Kết
quả thực nghiệm trong mạng LAN với tấn công lỗ hổng CVE-2015-3043 bằng
công cụ metasploit, ứng dụng đã phát hiện được lưu lượng tấn công này.
Giải pháp phát hiện tấn công mạng dựa vào học không giám sát giúp tăng
cường năng lực cho hệ thống quản trị an ninh mạng, không những phát hiện
chính xác các dạng tấn công cũ mà còn có thể phát hiện được các tấn công mới.
Từ đó, ngăn chặn kịp thời các tấn công mạng và bảo vệ hệ thống thông tin tốt
hơn.
Ngày tháng năm 2022
NGƯỜI HƯỚNG DẪN HỌC VIÊN
TS. Nguyễn Hồng Sơn Tô Duy Tân
1
HO CHI MINH CITY OPEN UNIVERSITY
POST-GRADUATE FACULTY
¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯
THESIS SUMMARY
(For students and instructors)
Subject: “Cyber-attacks detection based on unsupervised learning”
Major: Computer Science Student: Tan To Duy
Instructor: Ph.D Nguyen Hong Son Student code: 1784801010015
SUMMARY CONTENT
Nowadays, the information technology, computer networks and the Internet
are increasingly diversified and rich, playing an important role in promoting the
development of organizations and businesses. It dominates all economic and
social spheres of human life. However, in reality there are many risks when using
the Internet that come from cyber-attacks, the forms of cyber-attacks are getting
more and more complex every day. Therefore, the issue of information security
when using the Internet environment needs to be paid special attention. Research
on building intrusion detection techniques is a topical topic that has attracted the
attention of many domestic and foreign researchers.
In recent years, many researchers have proposed and used attack detection
methods with high detection accuracy but false alarm rates for novel attacks. In
addition, the cost of deploying and operating the system is relatively high, and the
ability to analyze heavy traffic is limited.
Currently, the research direction based on machine learning models to
classify and detect intrusion behaviors is proving to be a potential and effective
method because it can overcome the limitations of traditional methods. However,
one of the issues of interest is how to build a good machine learning model with
high accuracy, good adaption, and low cost. That is also the reason for choosing
the topic " Cyber-attacks detection based on unsupervised learning ". The main
2
content is researching and building a network attack detection model using
machine learning technology, with a focus on unsupervised learning techniques.
By using the K-mean algorithm for clustering the network traffic, thereby
building a model that separates the abnormal behaviors that are attacking the
system and alerts to prevent timely.
This thesis consists of 04 chapters:
- Chapter 1: Overview of network attack detection.
- Chapter 2: Theoretical foundations and data sources.
- Chapter 3: Building a network attack detection model.
- Chapter 4: Attack detection application based on unsupervised learning
model.
Chapter 1 provides an overview of cyber-attacks and common types of
cyber-attacks, with an overview along with corresponding prevention methods.
Firewall, Intrusion Detection System (IDS), and Intrusion Prevention Systems
(IPS) are clarified in this chapter. In addition, there is an overview of research
works on network intrusion detection in recent years.
Chapter 2 presents an overview of machine learning, machine learning
methods such as supervised learning, unsupervised learning, semi-supervised
learning and reinforcement learning. Besides, clarify the components and steps in
a network attacks detection model based on machine learning and data
preprocessing algorithms in the model. Two clustering algorithms K-Mean and
DBSCAN were also introduced along with the CICIDS2017 dataset which is
selected to train the proposed model for the goal of the thesis.
Chapter 3 proposes a method to build an attack detection model based on
unsupervised learning using K-means clustering algorithm. An important
component is the method of feature extraction based on supervised learning and
detection processing based on the clustering results are presented. Accordingly,
how to determine the feature sets for some typical attack types based on the
CICIDS 2017 dataset is also presented. When we want to detect these attacks, we
will build an input dataset for clustering using the corresponding feature set and
3
detect based on the output clusters of the model.
Chapter 4 focuses on presenting the main steps to build an application
capable of detecting network attacks exploiting vulnerabilities on computers
running Flash Player software. The application has been programmed to apply the
detection principle based on the unsupervised learning model with the K-means
clustering algorithm. Experimental results in LAN with CVE-2015-3043
vulnerability attack using Metasploit tool, the application detected this attack
traffic.
The solution to detect network attacks based on unsupervised learning
enhances the capacity of the network security management system, not only
accurately detecting old attacks but also detecting new attacks, thereby, timely
preventing network attacks and better protecting information systems.
, 2022
INSTRUCTOR STUDENT
Ph.D Nguyen Hong Son Tan To Duy