Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Khai thác Motif trên dữ liệu chuỗi thời gian dựa vào kỹ thuật băm :Luận văn thạc sĩ - Chuyên ngành: Khoa học máy tính
Nội dung xem thử
Mô tả chi tiết
NHIỆM VỤ LUẬNVĂNTHẠCSĨ
Họ tên học viên: NguyễnĐươngThời ........................... MSHV: 15001261................
Ngày,tháng,nămsinh: 02/02/1992................................ Nơisinh: Tây Ninh ..............
Chuyên ngành: Khoa học máy tính ................................ Mã chuyên ngành: 60480101
I. TÊNĐỀ TÀI:
Nhận dạng motif trên dữ liệu chuỗi thời gian dựa vào kỹ thuậtbăm
NHIỆM VỤ VÀ NỘI DUNG:
- Tìm hiểu giải thuật MK
- Trình bày giải thuật khai thác motif trên dữ liệu chuỗi thời gian dựa vào kỹ thuật
băm.
- Hiện thực, thử nghiệm vàđánhgiátrên giải thuật MK và giải thuật đãtrìnhbày
II. NGÀY GIAO NHIỆM VỤ: 01/12/2017 ................................................................
III. NGÀY HOÀN THÀNH NHIỆM VỤ: 30/06/2017..............................................
IV.NGƯỜIHƯỚNG DẪN KHOA HỌC: TS. PhạmVănChung............................
Tp. Hồ Chí Minh, ngày 07 tháng 07 năm2017
NGƯỜIHƯỚNG DẪN CHỦ NHIỆM BỘ MÔNĐÀOTẠO
TRƯỞNG KHOA/VIỆN….………
BỘ CÔNGTHƯƠNG
TRƯỜNGĐẠI HỌC CÔNG NGHIỆP
THÀNH PHỐ HỒ CHÍ MINH
CỘNG HÒA XÃ HỘI CHỦ NGHĨAVIỆT NAM
Độc lập - Tự do - Hạnh phúc
i
LỜI CẢMƠN
Lời đầu tiên, em xin gửi lời cảm ơnchânthànhvà sâu sắc đến TS. PhạmVănChung,
giáo viênđãtậntìnhhướng dẫn em trong suốt quá trình tìm hiểu và nghiên cứucũngnhư
tạo mọiđiều kiện thuận lợi nhấtđể em có thể hoàn thành luậnvăntốt nghiệp này.
Em cũngxincảmơnnhững ý kiếnđónggópcũngnhưlờiđộng viên của các bạn trong
tập thể lớp CHKHMT5A. Qua đó em đã cóthêm động lực để nghiên cứu và đạt được
nhiều tiến bộ trong kiến thứccũngnhưkỹ nănglàmviệc.
Cuối cùng, em xin gửi lời cảm ơn đến các thầy, cô trong bộ môn Khoa học máy tính,
Khoa Công nghệ thông tin, TrườngĐại học Công nghiệpTPHCMđãtạo mọiđiều kiện
tốt nhấtđể em hoàn thành luậnvănnày.
Dùđãcố gắng hết sức cùng với sự tận tâm của thầyhướng dẫnsongcũngkhótránh khỏi
những thiếu sót. Rất mong nhậnđược sự góp ý của thầy, cô và các bạn.
TPHCM, ngày 07 tháng 07 năm2017
Học viên
NguyễnĐươngThời
ii
LỜICAMĐOAN
Em camđoanrằng, ngoại trừ các kết quả tham khảo từ cáccôngtrìnhkhácnhưđãtrình
bày trong luậnvăn,cáccôngtrìnhđược trình bày trong luậnvăndochínhem thực hiện
vàchưacóphần nội dung nào của luậnvănnàyđược nộpđể lấy bằng cấp ở trường này
hoặctrường khác.
Học viên
NguyễnĐươngThời
iii
ABSTRACT
Research on the extracting of the pattern without the previously unknown, and regular
patterns of occurrences are called the motif in the time series data. The following patterns
are useful for the other time series data discovery, this pattern have been attracted
universal interest of the research. So searching motif of the time series data is a one of the
general technique of data mining
Motif in time series data is the similar subsequences which appear repeatedly many times
in the data set. Usually, the size of the time series data is very large and growing more
and more. This is the challenge that makes it difficult for the motif discovery algorithm.
In this these, we propose a new algorithm, Hashing algorithm which can find motif on the
very large time series data. From the initial raw data, after executing normalization step,
we will perform dimentionality reduction and discretization. Using the sliding window of
size w (w defined by the user), it slides through all the symbols in the string. The
subsequence generated by the sliding window is called the word, each word is considered
as a feature. A hash table is used to contain these features, tow match features will be
stored together in the same bucket. Finding bucket with the largest size, the
corresponding key of this bucket will be the motif candidate. We can find motif instances
from the motif candidate and basing on the dissimilarity maximum thresholdMax
(thresholdMax defined by user based on Euclid distance function).
Hashing algorithm solves the motif discovery problem in linear time with the size of the
data set, using memory space is an almost constant.
iv
TÓM TẮT LUẬNVĂN
Việc nghiên cứu trên sự rút trích hữu hiệu các mẫu không được biết trước, các mẫu
thường xuyên xuất hiệnđược gọi là các motif trong dữ liệu chuỗi thời gian, đãthu hút
được nhiều sự quan tâm của các nhà nghiên cứu. Các mẫu này rất hữu ích cho các công
việc khai thác dữ liệu chuỗi thờigiankhácnhau.Dođó việc tìm kiếm motif của dữ liệu
chuỗi thời gian là một trong những kỹ thuật phổ biến trong việc khai thác dữ liệu chuỗi
thời gian.
Motif trong dữ liệu chuỗi thời gian là những chuỗicon(Subsequense)tươngtự xuất hiện
lặpđilặp lại nhiều lần trong tập dữ liệu thời gian.Kíchthước của dữ liệu chuỗi thời gian
thường rất lớnvàngàycànggiatănglàvấnđề gâykhókhănchocácgiải thuật khai thác
motif.
Trong luậnvănnàysử dụng kỹ thuậtbămđược gọi là giải thuật Hashing phát hiện motif
trên tập dữ liệu chuỗi thờigiancókíchthước lớn. Từ dữ liệuthô(rawdata)banđầu sau
khi thực hiện bước chuẩn hóa (nomalization) sẽ tiếp tục thực hiện thu giảm số chiều
(dimensionality reduction) và rời rạc hóa (discretization) về dạng chuỗi ký tự. Sử dụng
cửa sổ trượt(slidingwindow)cókíchthướcw(wdongườidùngđịnhnghĩa)trượt qua tất
cả các ký tự trong chuỗi dữ liệu. Các chuỗi con sinh ra từ cửa sổ trượt gọi là các từ
(word), mỗi từ đượcxemnhưmộtđặctrưng(feature).Một bảngbăm(hashtable)được
dùngđể chứacácđặctrưngnày,haiđặctrưngkhớp (match) với nhau sẽ được chứa trong
cùng mộtthùngbăm(bucket).Tìmthùngbămcókíchthước lớn nhất, các phần tử trong
thùngbămnàysẽ là ứng viên motif. Thực hiện tìm các thể hiện motif từ ứng viên motif
và ngưỡng khoảng cách tốiđaThresholdMax (ThresholdMax dongườidùngđịnhnghĩa)dựa
trên hàm tính khoảng cách Euclid. Giải thuật Hashing giải quyết bài toán khai thác motif
trong thời gian tuyến tính vớikíchthước tập dữ liệu, không gian sử dụng bộ nhớ gầnnhư
hằng số.