Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Phát hiện bất thường trên dữ liệu chuỗi thời gian bằng giải thuật disk aware :Luận văn thạc sĩ - Chuyên ngành: Khoa học máy tính
PREMIUM
Số trang
62
Kích thước
1.5 MB
Định dạng
PDF
Lượt xem
796

Phát hiện bất thường trên dữ liệu chuỗi thời gian bằng giải thuật disk aware :Luận văn thạc sĩ - Chuyên ngành: Khoa học máy tính

Nội dung xem thử

Mô tả chi tiết

BỘ CÔNG THƯƠNG

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH

-------------------

TRẦN MINH TIẾN

PHÁT HIỆN BẤT THƯỜNG TRÊN DỮ LIỆU

CHUỖI THỜI GIAN BẰNG GIẢI THUẬT

DISK AWARE

Chuyên ngành: KHOA HỌC MÁY TÍNH

Mã chuyên ngành: 60480101

LUẬN VĂN THẠC SĨ

THÀNH PHỐ HỒ CHÍ MINH, NĂM 2017

Công trình được hoàn thành tại: Trường Đại học Công Nghiệp TP.HCM

Cán bộ hướng dẫn khoa học : TS. Nguyễn Thành Sơn

Người phản biện 1 : TS. Võ Thị Ngọc Châu

Người phản biện 2 : TS. Phạm Văn Chung

Luận văn thạc sĩ được bảo vệ tại Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường

Đại học Công Nghiệp Tp. HCM ngày 09 tháng 8 năm 2017.

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)

1. PGS.TS. Phạm Thế Bảo Chủ tịch HĐ

2. TS. Võ Thị Ngọc Châu Phản biện 1

3. TS. Phạm Văn Chung Phản biện 2

4. TS. Lê Nhật Duy Uỷ viên

5. TS. Phạm Thị Thiết Thư ký

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý

chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).

CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA

BỘ CÔNG THƯƠNG CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP Độc lập - Tự do - Hạnh phúc

THÀNH PHỐ HỒ CHÍ MINH

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Trần Minh Tiến MSHV: 15001271

Ngày, tháng, năm sinh: 11- 03 – 1985 Nơi sinh: Tây Ninh

Chuyên ngành: Khoa học máy tính Mã số: 60480101

I. TÊN ĐỀ TÀI:

PHÁT HIỆN BẤT THƯỜNG TRÊN DỮ LIỆU CHUỖI THỜI GIAN

BẰNG GIẢI THUẬT DISK AWARE DISCORD DISCOVERY

NHIỆM VỤ VÀ NỘI DUNG:

Nội dung báo cáo luận văn tốt nghiệp về tìm hiểu và cài đặt thuật toán phát hiện bất

thường trên dữ liệu chuỗi thời gian dựa trên phương pháp Disk Aware Discord

Discovery của tác giả Yankov và cộng sự đề xuất (2008). Ngoài ra, báo cáo còn cải

tiến phương pháp phát hiện bất thường trên dữ liệu chuỗi thời gian bằng giải thuật

Disk Aware Discord Discovery của Yankov và cộng sự. Cuối cùng, báo cáo trình bày

kết quả thực nghiệm trên các tập dữ liệu chuỗi thời gian, sau đó so sánh độ hiệu quả

và thời gian xử lý giữa ba thuật toán: Brute Force, Disk Aware Discord Discovery và

thuật toán cải tiến được đề xuất trong luận văn.

II. NGÀY GIAO NHIỆM VỤ: 29 – 12 - 2016

III. NGÀY HOÀN THÀNH NHIỆM VỤ: 29 – 06 -2017.

IV. CÁN BỘ HƯỚNG DẪN: TS. NGUYỄN THÀNH SƠN

Tp. HCM, ngày 29 tháng 6 năm 2017

NGƯỜI HƯỚNG DẪN CHỦ NHIỆM BỘ KHOA ĐÀO TẠO

(Họ tên và chữ ký) (Họ tên và chữ ký)

Nguyễn Thành Sơn

TRƯỞNG KHOA …..

(Họ tên và chữ ký)

i

LỜI CẢM ƠN

Em xin chân thành cảm ơn sự hướng dẫn tận tình trong suốt thời gian qua của thầy

Nguyễn Thành Sơn, khoa Công nghệ thông tin trường Đại học Sư phạm Kỹ thuật

Tp.HCM. Thầy đã định hướng, góp ý và cung cấp cho em rất nhiều kiến thức về một

lĩnh vực mới khi em bắt đầu thực hiện luận văn.

Em cũng xin gửi lời cảm ơn chân thành đến các thầy, cô trong khoa Công nghệ thông

tin trường Đại Học Công Nghiệp TP. HCM, cũng như các thầy cô trong trường Đại

Công Nghiệp Tp.HCM đã giảng dạy giúp đỡ em trong những năm học vừa qua.

ii

TÓM TẮT LUẬN VĂN THẠC SĨ

Dữ liệu chuỗi thời gian được sử dụng phổ biến trong các lĩnh vực khoa học, công

nghệ, tài chính, thương mại, y học, thời tiết, môi trường, địa lý. Theo khảo sát của

Tufte [1] (1992), từ 4000 hình được lấy ngẫu nhiên trong các báo tin tức trên thế giới

được xuất bản trong giai đoạn từ 1974 đến 1989 cho thấy hơn 75% là các hình biểu

diễn dữ liệu chuỗi thời gian.

Phát hiện bất thường trên dữ liệu chuỗi thời gian đã và đang nhận được rất nhiều sự

quan tâm trong cộng đồng nghiên cứu trong những năm qua. Nó đã và đang được sử

dụng để giải nhiều bài toán trong các lĩnh vực ứng dụng khác nhau như các chẩn đoán

lỗi, phát hiện các giao dịch lừa lọc, phát hiện sự xâm nhập mạng, các thay đổi trong

thói quen của khách hàng, làm sạch dữ liệu…

Nhiều thuật toán đã được giới thiệu để giải quyết vấn đề này như thuật toán Brute

Force Discord Discovery (BFDD) [2], thuật toán Heuristic Discord Discovery (HDD)

[2], tuy nhiên chưa đem lại hiệu quả cao. Vì vậy, việc nghiên cứu đề xuất các thuật

toán mới hoặc cải tiến các thuật toán đã có sao cho hiệu quả hơn vẫn luôn được các

nhà nghiên cứu quan tâm thực hiện.

Trong luận văn này, em tìm hiểu và cài đặt ba thuật toán: Brute Force Discord

Discovery, Disk Aware Discord Discovery của Yankov và cộng sự đề xuất và thuật

toán cải tiến được đề xuất trong luận văn.

Luận văn thực nghiệm trên các bộ dữ liệu, sau đó so sánh độ hiệu quả (về mặt thời

gian và vị trí bất thường) của thuật toán cải tiến được đề xuất trong luận văn so với

hai thuật toán Brute Force Discord Discovery và Disk Aware Discord Discovery được

Yankov và cộng sự đề xuất.

iii

ABSTRACT

Time series data are commonly used in the fields of science, technology, finance,

commerce, medicine, weather, the environment, and geography. According to Tufte's

survey (1992) [1], 4,000 photographs taken randomly in world newsletters published

between 1974 and 1989 showed that more than 75% were sequence data

representations time.

Unusual discovery in the time series has been receiving a great deal of interest in the

research community over the years. It has been used to solve many problems in

various application areas such as error diagnosis, fraud detection, network intrusion

detection, changes in customer habits. , Data cleaning, etc.

Many algorithms have been introduced to solve this problem, such as Brute Force

Discord Discovery algorithm (BFDD) [2], Heuristic Discord Discovery algorithm

[2], however they are not effective. Therefore, the research proposed new algorithms

or improved algorithms have been more effective is always taken care of by

researchers.

In this topic, The experimental thesis on data sets, then compare the fficiency

(processing time and location appear) of the algorithm proposed improvements in

the thesis compared to two algorithms Brute Force Discord Discovery and Disk

Aware Discord Discovery is proposed by Yankov et al.

Tải ngay đi em, còn do dự, trời tối mất!