Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

So sánh hiệu quả của hai độ đo Euclide và DTW được sử dụng trong bài toán phát hiện Motif trên chuỗi thời gian :Luận văn thạc sĩ - Chuyên ngành: Khoa học máy tính
PREMIUM
Số trang
106
Kích thước
5.2 MB
Định dạng
PDF
Lượt xem
1253

So sánh hiệu quả của hai độ đo Euclide và DTW được sử dụng trong bài toán phát hiện Motif trên chuỗi thời gian :Luận văn thạc sĩ - Chuyên ngành: Khoa học máy tính

Nội dung xem thử

Mô tả chi tiết

iv

LỜI CAM ĐOAN

Trong bài luận văn này, tôi xin cam đoan các kết quả báo cáo, kết quả thực nghiệm

và chương trình trong luận văn này do chính tôi nghiên cứu và thực hiện, ngoài các

tài liệu tham khảo đã được trích dẫn tôi không có sự sao chép từ những công trình

nghiên cứu khác.

Tất cả kiến thức tôi được học ở trường, các tài liệu tham khảo và từ thầy hướng dẫn,

tôi khẳng định rằng bài luận văn này do chính tôi thực hiện. Nếu có bất cứ sai phạm

nào trong luận văn này, tôi xin chịu trách nhiệm.

Xin cám ơn.

Học viên

Nguyễn Tài Dư

v

MỤC LỤC

1. Đặt vấn đề ...............................................................................................................1

2. Mục tiêu nghiên cứu................................................................................................2

3. Đối tượng và phạm vi nghiên cứu...........................................................................4

4. Cách tiếp cận và phương pháp nghiên cứu .............................................................5

5. Ý nghĩa thực tiễn của đề tài.....................................................................................5

1.1 Các khái niệm cơ bản ............................................................................................6

Dữ liệu chuỗi thời gian.....................................................................................6

Khai thác dữ liệu chuỗi thời gian .....................................................................7

Phát hiện motif trên chuỗi thời gian.................................................................8

Chuỗi thời gian (Timeseries )...........................................................................9

Chuỗi con (Subsequence).................................................................................9

Cửa sổ trượt (Slide window)..........................................................................10

Khớp (Match).................................................................................................10

Khớp tầm thường (Trivial match)..................................................................11

Khớp không tầm thường (Non-Trivial matches) ...........................................11

K-Motif...........................................................................................................12

1.2 Các độ đo khoảng cách chuỗi thời gian..............................................................12

1.2.1 Các độ đo trong không gian Euclide ..............................................................13

1.2.2 Độ đo xoắn thời gian động (DTW) ................................................................15

1.3 Các phương pháp thu giảm số chiều dựa vào đặc trưng ....................................18

Các phương pháp biến đổi sang miền tần số..................................................19

vi

Phương pháp biến đổi Fourier (DFT)...........................................................19

Phương pháp Wavelet (DWT ).....................................................................19

Các phương pháp xấp xỉ tuyến tính từng đoạn ..............................................20

Phương pháp xấp xỉ tuyến tính từng đoạn (PLA).........................................20

Phương pháp gộp từng đoạn xấp xỉ (PAA) ..................................................21

Phương pháp xấp xỉ từng đoạn thích nghi (APCA) .....................................22

Phương pháp xấp xỉ gộp từng đoạn mở rộng EPAA....................................23

1.4 Phương pháp rời rạc hóa dữ liệu ........................................................................24

Phương pháp rời rạc hóa xấp xỉ gộp ký tự SAX...........................................24

1.4.2 Phương pháp rời rạc hóa dữ liệu theo phép biến đổi ESAX..........................25

2.1 Độ đo Euclide .....................................................................................................27

2.2 Độ đo Dynamic Time Warping (DTW) .............................................................28

2.3 Chuẩn hóa dữ liệu...............................................................................................33

2.4 Phương pháp gộp từng đoạn xấp xỉ (PAA)........................................................35

2.5 Rời rạc hóa dữ liệu với phương pháp SAX........................................................37

2.6 Hàm tính độ đo tương tự MinDIST....................................................................38

2.7 Cải tiến thuật toán xoắn thời gian động..............................................................40

3.1 Định nghĩa motif trên chuỗi thời gian ................................................................42

3.2 Độ hiệu quả của giải thuật tìm kiếm motif.........................................................42

3.3 Tìm 1-Motif bằng thuật toán Brute-force...........................................................43

3.4 Tìm 1-Motif bằng thuật toán MK.......................................................................45

3.5 Giới hạn dưới của DTW.....................................................................................49

Giới hạn dưới của Kim và cộng sự. ...............................................................50

Giới hạn dưới của Yi và cộng sự....................................................................51

FTW (Fast search method for dynamic Time Warping)................................51

LB_ Improved được cải thiện bởi Lemire, 2009............................................53

3.5.5 LB_Keogh giới thiệu bởi Keogh và cộng sự, 2002 .......................................55

vii

4.1 Môi trường và dữ liệu thực nghiệm....................................................................57

Môi trường thực nghiệm ................................................................................57

Dữ liệu thực nghiệm.......................................................................................57

4.2 Chương trình thực nghiệm .................................................................................58

Mô hình thực nghiệm các giải thuật...............................................................60

Kết quả thực nghiệm trên các bộ dữ liệu .......................................................60

Thực nghiệm trên dữ liệu gốc.......................................................................61

Thực nghiệm trên dữ liệu thu giảm chiều.....................................................75

1. Kết luận .................................................................................................................90

2. Kiến nghị...............................................................................................................90

viii

DANH MỤC HÌNH ẢNH

Hình 01 Chuỗi thời gian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

Hình 02 Motif trong chuỗi thời gian là mẫu xuất hiện với tần suất cao nhất . . . . 03

Hình 03 Motif có chiều dài 640, từ vị trí 589 và 8,895 . . . . . . . . . . . . . . . . . . . . . 03

Hình 1.1 Chuỗi thời gian lượng mưa tại trạm khí tượng Điện Biên (1961-2011) . 06

Hình 1.2 Một motif của chuỗi dữ liệu thời gian . . . . . . . . . . . . . . . . . . . . . . . . . . 08

Hình 1.3 Chuỗi con Y1,Y2 … Yi, được trích xuất từ chuỗi thời gian T . . . . . . . . 10

Hình 1.4 Chuỗi con được trích xuất bởi một cửa sổ trượt . . . . . . . . . . . . . . . . . . 10

Hình 1.5 Chuỗi con C (dòng in đậm) và chuỗi M tương ứng khớp với C . . . . . . 10

Hình 1.6 Chuỗi con C khớp tầm thường . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Hình 1.7 Khoảng cách hai motif < 2R (A); Khoảng cách hai motif > 2R (B) . . . . 12

Hình 1.8 Độ đo Minkowski giữa hai chuỗi con . . . . . . . . . . . . . . . . . . . . . . . . . . 13

Hình 1.9 (a) Đường cơ bản khác nhau; (b) Độ giao động khác nhau . . . . . . . . . . 14

Hình 1.10 Đường xoắn ( Waping path) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

Hình 1.11 (A) Độ đo Euclide; (B) Dynamic Time Warping giữa hai chuỗi con . . 16

Hình 1.12 Hai chuỗi thời gian Q, C trên mặt phẳng lưới n ×m và đường xoắng . . 16

Hình 1.13 Phép biến đổi DFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Hình 1.14 Phép biến đổi DWT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Hình 1.15 Phép biến đổi PLA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Hình 1.16 Phép biến đổi PAA với n =128, w = 8 . . . . . . . . . . . . . . . . . . . . . . . . . 21

Hình 1.17 Phép biến đổi APCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

Hình 1.18 Vài điểm quang trọng bị mất khi chỉ biểu diễn bằng PAA . . . . . . . . . 23

Hình 1.19 Vị trí của ba giá trị quan trọng, pmax, pmid,pmin là vị trí tương ứng . . . 24

Hình 1.20 Phép biến đổi rời rạc hóa SAX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

Hình 1.21 Dữ liệu chuỗi thời gian tài chính được biểu diễn bởi Extended SAX . 26

Hình 2.1 Phần tử thứ i của chuỗi Q tương ứng với phần tử i chuỗi C . . . . . . . . . . 27

Hình 2.2 Các phần tử i chuỗi Q ánh xạ đến từng phần tử i của chuỗi C . . . . . . . 28

Hình 2.3 Đường xoắn W của hai chuỗi con dữ liệu thời gian Q,C . . . . . . . . . . . . 29

Hình 2.4 Đồ thị biểu diễn hay chuỗi thời gian Q,C . . . . . . . . . . . . . . . . . . . . . . . 30

ix

Hình 2.5 Giới hạn dưới: Sakoe-Chiba band & Itakura parallelogram . . . . . . . . . . 32

Hình 2.6 Những điểm cho phép ánh xạ phải nằm trong cửa sổ xoắn r . . . . . . . . . 32

Hình 2.7 Phương pháp chuẩn hóa trung bình zero . . . . . . . . . . . . . . . . . . . . . . . . . 34

Hình 2.8 Phương pháp thu giảm số chiều dữ liệu xấp xỉ PAA . . . . . . . . . . . . . . . 36

Hình 2.9 Chuỗi X biến đổi thu giam chiều thành X’ bằng xấp xỉ PAA . . . . . . . . 36

Hình 2.10 Bảng thống kê dùng để tra những điểm ngắt theo phân bố Gauss . . . . 37

Hình 2.11 Rời rạc hóa về chuỗi ký tự từ chuỗi dữ liệu gốc . . . . . . . . . . . . . . . . . . 38

Hình 2.12 Khoảng cách giữa hai chuỗi gốc (A) và hai chuỗi thu giảm chiều (B) . . . . 38

Hình 2.13 (A) Alphabet size: a = 3, (B) khoảng cách Q̂ và Ĉ khi đã rời rạc hóa . . 39

Hình 2.14 (a) bảng tra cứu hàm Dist, (b) công thức tính các giá trị trong bảng . . . 39

Hình 2.15 Độ chặt chặn dưới của hàm MINDIST với hệ số a và w tương ứng . . . 40

Hình 2.16 (A) hai chuỗi thời gian được tính DTW. Và được tính bởi PDTW (B) . 41

Hình 3.1 (A) Tập dữ liệu chuỗi thời gian 2 chiều trong không gian gốc, (B) Những

đối tượng được sắp xếp đến điểm tham chiếu O1. (C) Khoảng cách giữa các cặp liền

kề chiếu trên không gian 1 chiều . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

Hình 3.2 Tính khoảng cách thực của các đối tượng từ trái qua phải . . . . . . . . . . 46

Hình 3.3 Điều kiện cần khi cả hai đối tượng phải giao nhau qua một cửa sổ trượt . . . . 47

Hình 3.4 Giới hạn phạm vi của đường xoắn, hạn chế chúng đến vùng màu xám . 50

Hình 3.5 Phương pháp giới hạn dưới được giới thiệu bởi Kim et.a. . . . . . . . . . . . 50

Hình 3.6 Phương pháp giới hạn dưới được giới thiệu bởi Yi et.a . . . . . . . . . . . . . 51

Hình 3.7 Một chuỗi thời gian xấp xỉ bằng cách chia nó thành ba phân đoạn . . . 52

Hình 3.8 (A) LB_Keogh lower bounding và (B) LB_Improved lower bounding 54

Hình 3.9 Các dãy U và L được tạo cho chuỗi thời gian Q trong hai trường hợp . . 55

Hình 3.10 Giới hạn dưới LB_Keogh trong hai trường hợp . . . . . . . . . . . . . . . . . 56

Hình 4.1 Giao diện chương trinh thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

Hình 4.2 Sơ đồ cây chương trình thực nghiệm trên dữ liệu gốc & thu giảm chiều .60

Hình 4.3 Cặp motif tìm được trên Brute-force (EEG; 500; 80) . . . . . . . . . . . . . . . 62

Hình 4.4 Cặp motif tìm được trên MK (EEG; 500; 80) . . . . . . . . . . . . . . . . . . . . . 62

Hình 4.5 Cặp motif tìm được trên Brute-force (EEG; 500; 128) . . . . . . . . . . . . . . 63

Hình 4.6 Cặp motif tìm được trên MK (EEG; 500; 128) . . . . . . . . . . . . . . . . . . . . 63

x

Hình 4.7 Cặp motif tìm được trên Brute-force (EEG; 1000; 80) . . . . . . . . . . . . . . 64

Hình 4.8 Cặp motif tìm được trên MK (EEG; 1000; 80) . . . . . . . . . . . . . . . . . . . . 65

Hình 4.9 Cặp motif tìm được trên Brute-force (EEG; 1000; 128) . . . . . . . . . . . . . 65

Hình 4.10 Cặp motif tìm được trên (EEG; 1000; 128) . . . . . . . . . . . . . . . . . . . . . 66

Hình 4.11 Cặp motif tìm được trên Brute-force (Chromosome; 500; 80) . . . . . . . . 67

Hình 4.12 Cặp motif tìm được trên MK (Chromosome; 500; 80) . . . . . . . . . . . . . . 67

Hình 4.13 Cặp motif tìm được trên Brute-force (Chromosome; 500; 128) . . . . . . . 68

Hình 4.14 Cặp motif tìm được trên MK (Chromosome; 500; 128) . . . . . . . . . . . . . 68

Hình 4.15 Cặp motif tìm được trên Brute-force (Chromosome;1000; 80) . . . . . . . 69

Hình 4.16 Cặp motif tìm được trên MK (Chromosome;1000; 80) . . . . . . . . . . . . . 69

Hình 4.17 Cặp motif tìm được trên Brute-force (Chromosome;1000; 128) . . . . . . 70

Hình 4.18 Cặp motif tìm được trên MK (Chromosome;1000; 128) . . . . . . . . . . . . 70

Hình 4.19 Cặp motif tìm được trên Brute-force (Stock;500; 80) . . . . . . . . . . . . . . 71

Hình 4.20 Cặp motif tìm được trên MK (Stock;500; 80) . . . . . . . . . . . . . . . . . . . . 72

Hình 4.21 Cặp motif tìm được trên Brute-force (Stock;500; 128) . . . . . . . . . . . . . 72

Hình 4.22 Cặp motif tìm được trên MK (Stock;500; 128) . . . . . . . . . . . . . . . . . . . 73

Hình 4.23 Cặp motif tìm được trên Brute-force (Stock;1000; 80) . . . . . . . . . . . . . 74

Hình 4.24 Cặp motif tìm được trên MK (Stock;1000; 80) . . . . . . . . . . . . . . . . . . . 74

Hình 4.25 Cặp motif tìm được trên Brute-force (Stock;1000; 128) . . . . . . . . . . . . 75

Hình 4.26 Cặp motif tìm được trên MK (Stock;1000; 128) . . . . . . . . . . . . . . . . . . 75

Hình 4.27 Cặp motif tìm được trên Brute-force (EEG; 800; 256; 32) . . . . . . . . . . 77

Hình 4.28 Cặp motif tìm được trên MK (EEG; 800; 256; 32) . . . . . . . . . . . . . . . . 77

Hình 4.29 Cặp motif tìm được trên Brute-force (EEG; 800; 512; 32) . . . . . . . . . . 78

Hình 4.30 Cặp motif tìm được trên MK (EEG; 800; 512; 32) . . . . . . . . . . . . . . . 78

Hình 4.31 Cặp motif tìm được trên Brute-force (EEG; 3000; 256; 32) . . . . . . . . . 80

Hình 4.32 Cặp motif tìm được trên MK (EEG; 3000; 256; 32) . . . . . . . . . . . . . . . 80

Hình 4.33 Cặp motif tìm được trên Brute-force (EEG; 3000; 512; 32) . . . . . . . . . 81

Hình 4.34 Cặp motif tìm được trên MK (EEG; 3000; 512; 32) . . . . . . . . . . . . . . . 81

Hình 4.35 Cặp motif tìm được trên Brute-force (Chromosome; 800; 256; 32) . . . 82

Hình 4.36 Cặp motif tìm được trên MK (Chromosome; 800; 256; 32) . . . . . . . . . 83

xi

Hình 4.37 Cặp motif tìm được trên Brute-force (Chromosome; 800; 512; 32) . . . 84

Hình 4.38 Cặp motif tìm được trên MK (Chromosome; 800; 512; 32) . . . . . . . . . 84

Hình 4.39 Cặp motif tìm được trên Brute-force (Chromosome; 3000; 256; 32) . . 85

Hình 4.40 Cặp motif tìm được trên MK (Chromosome; 3000; 256; 32) . . . . . . . . 85

Hình 4.41 Cặp motif tìm được trên Brute-force (Chromosome; 3000; 512; 32) . . 86

Hình 4.42 Cặp motif tìm được trên MK (Chromosome; 3000; 512; 32) . . . . . . . . 87

Hình 4.43 Cặp motif tìm được trên Brute-force (Stock; 800; 256; 32) . . . . . . . . . 88

Hình 4.44 Cặp motif tìm được trên MK (Stock; 800; 256; 32) . . . . . . . . . . . . . . . . 88

Hình 4.45 Cặp motif tìm được trên Brute-force (Stock; 3000; 256; 32) . . . . . . . . . 89

Hình 4.46 Cặp motif tìm được trên MK (Stock 3000; 256; 32) . . . . . . . . . . . . . . . 89

xii

DANH MỤC BẢNG BIỂU

Bảng 2.1 Ma trận tính khoảng cách tích lũy của hai chuỗi thời gian Q,C . . . . . . . 30

Bảng 2.2 Kết quả chuẩn hóa Min max . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

Bảng 3.1 Giải thuật Brute-force tìm 1-Motif trên dữ liệu chuỗi thời gian . . . . . . . 44

Bảng 3.2 Giải thuật Mueen – Keogh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

Bảng 4.1 Mô tả chức năng của chương trình thực ngiệm . . . . . . . . . . . . . . . . . . . 58

Bảng 4.2 Kết quả thực nghiệm trên Brute-force & MK (EEG; 500; 80) . . . . . . . . 61

Bảng 4.3 Kết quả thực nghiệm trên Brute-force & MK (EEG; 500; 128) . . . . . . . 63

Bảng 4.4 Kết quả thực nghiệm trên Brute-force & MK (EEG; 1000; 80) . . . . . . . 64

Bảng 4.5 Kết quả thực nghiệm trên Brute-force & MK (EEG; 1000; 128) . . . . . . 65

Bảng 4.6 Kết quả thực nghiệm trên Brute-force & MK (Chromosome; 500; 80) . 66

Bảng 4.7 Kết quả thực nghiệm trên Brute-force & MK (Chromosome; 500; 128) .67

Bảng 4.8 Kết quả thực nghiệm trên Brute-force & MK (Chromosome;1000;80) . 68

Bảng 4.9 Kết quả thực nghiệm trên Brute-force & MK (Chromosome;1000;128) .70

Bảng 4.10 Kết quả thực nghiệm trên Brute-force & MK (Stock;500; 80) . . . . . . . 71

Bảng 4.11 Kết quả thực nghiệm trên Brute-force & MK (Stock;500; 128) . . . . . . 72

Bảng 4.12 Kết quả thực nghiệm trên Brute-force & MK (Stock;1000; 80) . . . . . . 73

Bảng 4.13 Kết quả thực nghiệm trên Brute-force & MK (Stock;1000; 128) . . . . . 74

Bảng 4.14 Kết quả thực nghiệm trên Brute-force & MK (EEG; 800; 256) . . . . . . 76

Bảng 4.15 Kết quả thực nghiệm trên Brute-force & MK (EEG; 800; 512) . . . . . . 77

Bảng 4.16 Kết quả thực nghiệm trên Brute-force & MK (EEG; 3000; 256) . . . . . 79

Bảng 4.17 Kết quả thực nghiệm trên Brute-force & MK (EEG; 3000; 512) . . . . . 80

Bảng 4.18 Kết quả thực nghiệm trên Brute-force & MK(Chromosome;800;256) 82

Bảng 4.19 Kết quả thực nghiệm trên Brute-force & MK(Chromosome;800;512) 83

Bảng 4.20 Kết quả thực nghiệm trên Brute-force &MK(Chromosome;3000;256) 84

Bảng 4.21 Kết quả thực nghiệm trên Brute-force &MK(Chromosome;3000;512) 86

Bảng 4.22 Kết quả thực nghiệm trên Brute-force & MK (Stock; 800; 256;32) . . 87

Bảng 4.23 Kết quả thực nghiệm trên Brute-force & MK (Stock; 3000; 256;32) . . 89

xiii

DANH MỤC TỪ VIẾT TẮT

APCA Adaptive Piecewise Constant Approximation

DFT Discrete Fourier Transform

DTW Dynamic Time Warping

DWT Discrete Wavelet Transform

EMD Extended Motif Discovery

EPAA Extanded Piecewise Aggregate Approximation

ESAX Extended Symbolic Aggregate approximation

FTW Fast search method for dynamic Time Warping

LB_ Improved Lower Bounding Improved

LB_Keogh Lower Bounding Keogh

MK Mueen Keogh

PAA Piecewise Aggregate Approximation

PDTW Piecewise Dynamic Time Warping

PLA Piecewise Linear Approximation

SAX Symbolic Aggregate approXimation

Tải ngay đi em, còn do dự, trời tối mất!