Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

(Luận Án Tiến Sĩ) Xây Dựng Mô Hình Lai Cho Bài Toán Dự Báo Theo Tiếp Cận Mờ Hướng Dữ Liệu.pdf
Nội dung xem thử
Mô tả chi tiết
ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KHOA HỌC
NGUYỄN ĐỨC HIỂN
XÂY DỰNG MÔ HÌNH LAI
CHO BÀI TOÁN DỰ BÁO
THEO TIẾP CẬN MỜ HƯỚNG DỮ LIỆU
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
HUẾ - NĂM 2019
ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KHOA HỌC
NGUYỄN ĐỨC HIỂN
XÂY DỰNG MÔ HÌNH LAI
CHO BÀI TOÁN DỰ BÁO
THEO TIẾP CẬN MỜ HƯỚNG DỮ LIỆU
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 9480101
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học:
PGS.TS. Lê Mạnh Thạnh
HUẾ - NĂM 2019
i
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện dưới sự hướng
dẫn của PGS.TS. Lê Mạnh Thạnh. Các kết quả được viết chung với các tác giả khác
đều được sự đồng ý của đồng tác giả trước khi đưa vào luận án. Các kết quả trong
luận án là trung thực và chưa từng được công bố trong bất kỳ công trình nào khác.
Thừa Thiên Huế, ngày 20 tháng 06 năm 2019
Tác giả
Nguyễn Đức Hiển
ii
LỜI CẢM ƠN
Luận án được thực hiện tại Khoa Công nghệ thông tin – Trường Đại học khoa
học – Đại học Huế, dưới sự hướng dẫn của PGS.TS. Lê Mạnh Thạnh. Tôi xin bày tỏ
lòng biết ơn sâu sắc đến Thầy về định hướng khoa học, người đã động viên, trao đổi
nhiều kiến thức và chỉ bảo tôi vượt qua những khó khăn để hoàn thành luận án này.
Tôi cũng xin gửi lời cảm ơn chân thành đến các nhà khoa học, tác giả của các
công trình công bố đã được trích dẫn trong luận án, đây là những tư liệu quý, kiến
thức liên quan quan trọng giúp Nghiên cứu sinh hoàn thành luận án; Xin cảm ơn đến
tất cả các Thầy, Cô tại Khoa Công nghệ thông tin – Trường Đại học Khoa học – Đại
học Huế và các nhà khoa học đã góp ý, phản biện các công trình nghiên cứu của tôi.
Tôi trân trọng cảm ơn Khoa Công nghệ thông tin, Phòng đào tạo sau đại học
thuộc Trường đại học Khoa học – Đại học Huế đã tạo điều kiện thuận lợi cho tôi trong
suốt quá trình nghiên cứu thực hiện luận án.
Xin cảm ơn Ban giám hiệu Trường cao đẳng Công nghệ thông tin, các đồng
nghiệp tại Khoa Công nghệ thông tin đã quan tâm giúp đỡ, tạo điều kiện để tôi có thể
thực hiện kế hoạch nghiên cứu đảm bảo tiến độ.
Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè, những người đã
luôn ủng hộ, giúp đỡ và hỗ trợ tôi về mọi mặt để tôi yên tâm học tập đạt kết quả tốt.
Luận án cũng là món quà tinh thần mà tác giả trân trọng gửi tặng đến các thành viên
trong Gia đình.
iii
DANH MỤC THUẬT NGỮ
Thuật ngữ Tiếng Anh Viết tắt Diễn giải Tiếng Việt
A priori knowledge Tri thức tiên nghiệm
Adaptive-Network-based
Fuzzy Inference System ANFIS Mạng thích nghi dựa trên cơ sở hệ suy
luận mờ
Artificial Neural Networks ANN Mạng nơ-ron nhân tạo
Classification Phân lớp
Clustering Phân cụm
Data driven fuzzy models Mô hình mờ hướng dữ liệu
Directional Symmetry DS Sự đổi hướng của dữ liệu thời gian
Exponential Moving Average EMA Đường trung bình động hàm mũ
Explanation-Based Learning EBL Học dựa trên sự giải thích
Forecasting Dự báo
Fuzzy models Mô hình mờ
Fuzzy rules-based models Mô hình dựa trên luật mờ
Genetic Algorithms GA Giải thuật di truyền
Gross Domestic Product GDP Tổng sản phẩm quốc nội
Hierarchical Clustering HC Phân cụm theo thứ bậc
Interpretability Tính có thể diễn dịch được
Knowledge-Based Inductive
Learning
KBIL Học quy nạp dựa trên tri thức
Magnetic Resonance Imaging MRI Hình ảnh đa phổ cộng hưởng từ
Mean Absolute Error MAE Sai số tuyệt đối trung bình
Mean Absolute Percent Error MAPE Sai số phần trăm tuyệt đối trung bình
Mean Square Error MSE Sai số bình phương trung bình
Multi Inputs and Single
Output
MISO Hệ thống nhiều đầu vào và một đầu ra
Normalize Mean Square Error NMSE Sai số bình phương trung bình chuẩn
hóa
Prediction Dự đoán
Radial Basis Functions RBF Hàm cơ sở hướng tâm
Radial Basis Network RBN Mạng nơ-ron RBN
iv
Regression Hồi quy
Relative Difference in
Percentage of Price
RDP Sai biệt tương đối (%) của giá
Relevance-Based Learning RBL Học dựa trên sự thích hợp
Root Mean Squared Error RMSE Sai số bình phương trung bình gốc
Self-Organizing Map SOM Mạng tự tổ chức / Bản đồ tự tổ chức
Support Vector SV Véc-tơ hỗ trợ
Support Vector Machine SVM Máy học véc-tơ hỗ trợ
ε-Support Vector Regression ε-SVR Máy học véc-tơ hỗ trợ hồi quy
SVM-based fuzzy models f-SVM Mô hình mờ dựa trên SVM
SVM-based Interpretable
Fuzzy models
SVM-IF Mô hình mờ có thể diễn dịch được
dựa trên SVM
Takagi, Sugeno and Kang TSK Mô hình mờ TSK
v
MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................ i
LỜI CẢM ƠN .............................................................................................................ii
DANH MỤC THUẬT NGỮ ..................................................................................... iii
MỤC LỤC ................................................................................................................... v
DANH MỤC BẢNG BIỂU .................................................................................... viii
DANH MỤC HÌNH ẢNH ......................................................................................... ix
MỞ ĐẦU ..................................................................................................................... 1
1. Tính cấp thiết của đề tài ................................................................................. 1
2. Mục tiêu nghiên cứu ...................................................................................... 7
3. Cách tiếp cận và phương pháp nghiên cứu .................................................... 7
4. Phạm vi và đối tượng nghiên cứu .................................................................. 8
5. Đóng góp của luận án .................................................................................... 9
6. Bố cục của luận án ......................................................................................... 9
Chương 1. TRÍCH XUẤT MÔ HÌNH MỜ HƯỚNG DỮ LIỆU DỰA TRÊN MÁY
HỌC VÉC-TƠ HỖ TRỢ .......................................................................................... 12
1.1. Cơ bản về logic mờ ...................................................................................... 12
1.1.1. Lý thuyết tập mờ .................................................................................... 12
1.1.2. Luật mờ “IF-THEN” ............................................................................. 14
1.2. Mô hình mờ hướng dữ liệu .......................................................................... 16
1.2.1. Mô hình mờ Mamdani ........................................................................... 17
1.2.2. Mô hình mờ TSK ................................................................................... 19
1.3. Sinh luật mờ từ dữ liệu ................................................................................ 22
1.4. Máy học véc-tơ hỗ trợ ................................................................................. 23
1.4.1. Lý thuyết máy học Véc-tơ hỗ trợ .......................................................... 23
1.4.2. Máy học Véc-tơ hỗ trợ cho vấn đề tối ưu hóa hồi qui ........................... 25
1.5. Trích xuất mô hình mờ TSK dựa vào máy học véc-tơ hỗ trợ ..................... 29
1.6. Lựa chọn các tham số .................................................................................. 35
1.6.1. Chọn các tham số của hàm thành viên .................................................. 35
1.6.2. Vai trò của tham số ε ............................................................................. 35
vi
1.7. Tổ chức thực nghiệm ................................................................................... 39
1.7.1. Mô tả thực nghiệm ................................................................................. 39
1.7.2. Bài toán hồi quy phi tuyến..................................................................... 40
1.7.3. Bài toán dự báo dữ liệu chuỗi thời gian hỗn loạn Mackey-Glass ......... 43
1.8. Tiểu kết Chương 1 ....................................................................................... 45
Chương 2. TÍCH HỢP TRI THỨC TIÊN NGHIỆM VÀO MÔ HÌNH MỜ HƯỚNG
DỮ LIỆU ................................................................................................................... 47
2.1. Tri thức tiên nghiệm .................................................................................... 47
2.2. Vai trò của tri thức tiên nghiệm trong học mô hình mờ .............................. 48
2.2.1. Học dựa trên sự giải thích (EBL) .......................................................... 49
2.2.2. Học dựa trên sự thích hợp (RBL) .......................................................... 52
2.2.3. Học quy nạp dựa trên tri thức (KBIL) ................................................... 54
2.3. Xác định tri thức tiên nghiệm để tích hợp vào mô hình mờ trích xuất từ máy
học véc-tơ hỗ trợ .................................................................................................... 56
2.4. Tích hợp tri thức tiên nghiệm vào mô hình mờ trích xuất từ máy học véc-tơ
hỗ trợ 61
2.4.1. Đặt vấn đề .............................................................................................. 61
2.4.2. Thuật toán SVM-IF ............................................................................... 63
2.4.3. Qui trình trích xuất mô hình mờ dựa trên thuật toán SVM-IF có lựa
chọn giá trị tối ưu cho các tham số ................................................................... 65
2.5. Tổ chức thực nghiệm ................................................................................... 67
2.5.1. Mô tả thực nghiệm ................................................................................. 67
2.5.2. Bài toán hồi quy phi tuyến..................................................................... 68
2.5.3. Bài toán dự báo dữ liệu chuỗi thời gian hỗn loạn Mackey-Glass ......... 70
2.5.4. Hệ thống Lorenz .................................................................................... 73
2.6. Tiểu kết Chương 2 ....................................................................................... 77
Chương 3. LAI GHÉP KỸ THUẬT PHÂN CỤM VỚI MÔ HÌNH MỜ HƯỚNG
DỮ LIỆU ................................................................................................................... 78
3.1. Bài toán dự báo ............................................................................................ 78
3.2. Dự báo dữ liệu chuỗi thời gian .................................................................... 81
3.2.1. Bài toán dự báo dữ liệu chuỗi thời gian ................................................ 81
3.2.2. Đánh giá độ phù hợp của mô hình dự báo ............................................. 83
3.3. Đề xuất mô hình mờ dự báo dữ liệu chuỗi thời gian ................................... 85
3.4. Phân cụm dữ liệu đầu vào ............................................................................ 86
vii
3.4.1. Kỹ thuật phân cụm k-Means ................................................................. 88
3.4.2. Kỹ thuật phân cụm SOM ....................................................................... 89
3.4.3. Phân cụm dữ liệu đầu vào bằng SOM ................................................... 92
3.5. Mô hình thực nghiệm cho bài toán dự báo giá giá cổ phiếu ....................... 93
3.5.1. Lựa chọn dữ liệu đầu vào ...................................................................... 95
3.5.2. Lựa chọn các thông số đánh giá hiệu quả mô hình ............................... 96
3.6. Triển khai thực nghiệm ................................................................................ 97
3.6.1. Dữ liệu thực nghiệm .............................................................................. 97
3.6.2. Phân tích kết quả thực nghiệm .............................................................. 98
3.7. Tiểu kết Chương 3 ..................................................................................... 106
KẾT LUẬN ............................................................................................................. 108
Những công trình của tác giả liên quan đến luận án ............................................... 110
TÀI LIỆU THAM KHẢO ....................................................................................... 112
viii
DANH MỤC BẢNG BIỂU
Bảng 1.1. Tập 6 luật trích xuất được ....................................................................... 41
Bảng 1.2. Giá trị sai số RMSE trong các trường hợp thử nghiệm (C=10) .............. 42
Bảng 1.3. Kết quả dự đoán trên 50 mẫu dữ liệu xác thực trong cho các trường hợp
thực nghiệm của bài toán 1.7.2 ................................................................................. 43
Bảng 1.4. Kết quả dự đoán trên 200 mẫu dữ liệu xác thực trong cho các trường hợp
thực nghiệm của bài toán 1.7.3 ................................................................................. 44
Bảng 2.1. Tập 6 luật trích xuất được từ mô hình đã tối ưu hóa ............................... 68
Bảng 2.2. So sánh kết quả các mô hình qua thông số RMSE .................................. 69
Bảng 2.3. Diễn dịch ngữ nghĩa cho các luật ở Bảng 2.1 ......................................... 70
Bảng 2.4. Tập 9 luật trích xuất được từ 800 mẫu dữ liệu huấn luyện của thực
nghiệm 2.5.3 .............................................................................................................. 71
Bảng 2.5. So sánh kết quả các mô hình qua thông số RMSE .................................. 73
Bảng 2.6. Tập luật trích xuất được từ 1000 mẫu dữ liệu huấn luyện ...................... 74
Bảng 2.7. So sánh kết quả các mô hình qua thông số RMSE .................................. 76
Bảng 3.1. Thể hiện các thuộc tính lựa chọn và công thức tính của chúng ............... 96
Bảng 3.2. Nguồn dữ liệu thực nghiệm ...................................................................... 98
Bảng 3.3. Kết quả thử nghiệm trên mô hình SVM nguyên thủy .............................. 99
Bảng 3.4. Kết quả thử nghiệm trên mô hình RBN ................................................... 99
Bảng 3.5. Kết quả thử nghiệm trên mô hình SOM+SVM ...................................... 100
Bảng 3.6. Kết quả thử nghiệm trên mô hình SOM+ANFIS ................................... 101
Bảng 3.7. Kết quả thử nghiệm trên mô hình SOM+f-SVM ................................... 101
Bảng 3.8. Kết quả thử nghiệm trên mô hình SOM+SVM-IF ................................. 104
Bảng 3.9. Tập 5 luật trong 1 phân cụm trích xuất từ dữ liệu huấn luyện của mã cổ
phiếu S&P500 ......................................................................................................... 105
ix
DANH MỤC HÌNH ẢNH
Hình 1.1. Đồ thị của 3 hàm thành viên phổ biến: (a) tam giác, (b) hình thang, (c)
Gauss ......................................................................................................................... 13
Hình 1.2. Cấu trúc cơ bản của một mô hình mờ ...................................................... 16
Hình 1.3. Hình ảnh phân lớp với SVM .................................................................... 24
Hình 1.4. Quá trình xác định hàm quyết định đầu ra của máy học véc-tơ hỗ trợ .... 29
Hình 1.5. Quá trình xác định hàm đầu ra của hệ thống mờ TSK ............................. 30
Hình 1.6. Sơ đồ khối của thuật toán trích xuất tập luật mờ TSK dựa vào máy học
véc-tơ hỗ trợ .............................................................................................................. 34
Hình 1.7. Mối quan hệ giữa số lượng véc-tơ hỗ trợ và tham số �� (giá trị của �� tương
ứng theo thứ tự các hình vẽ là 0.5, 0.2, 0.1 và 0.01) ................................................. 36
Hình 1.8. Thuật toán f-SVM..................................................................................... 37
Hình 1.9. Thuật toán trích xuất tập luật mờ TSK dựa vào máy học véc-tơ hỗ trợ có
lựa chọn giá trị tham số tối ưu................................................................................... 38
Hình 1.10. Phân bố các hàm thành viên mờ: (a) trường hợp 50 luật ứng với �� = 0.0
và (b) trường hợp 6 luật ứng với �� = 0.1 .................................................................. 41
Hình 2.1. Kịch bản học EBL .................................................................................... 50
Hình 2.2. Kịch bản học RBL .................................................................................... 53
Hình 2.3. Mô hình học KBIL ................................................................................... 54
Hình 2.4. Thuật toán SVM-IF .................................................................................. 63
Hình 2.5. Thuật toán InterpretabilityTest ................................................................. 64
Hình 2.6. Quy trình trích xuất tập luật mờ TSK từ máy học véc-tơ hỗ trợ có tích
hợp tri thức tiên nghiệm ............................................................................................ 66
Hình 2.7. Kết quả mô hình đã tối ưu hóa (RMSE = 0.0183) ................................... 69
Hình 2.8. Kết quả dự đoán trên 200 mẫu dữ liệu xác thực của thực nghiệm 2.5.3
(trường hợp RMSE = 0.0092) ................................................................................... 72
Hình 2.9. (a) Kết quả mô hình đã tối ưu hóa (RMSE = 0.0043), (b)(c)(d) Phân bố
các hàm thành viên tương ứng với x(t-1), y(t-1) và z(t-1) ........................................ 75
Hình 3.1. Mô hình nhiều giai đoạn cho bài toán dự báo dữ liệu chuỗi thời gian ..... 86
x
Hình 3.2. (a) Một ví dụ SOM. (b) Phân bố lục giác và hình chữ nhật của SOM ..... 90
Hình 3.3. Mô hình dự báo giá cổ phiếu lai ghép giữa SOM và f-SVM hoặc SVM-IF
................................................................................................................................... 94
Hình 3.4. Biểu đồ so sánh giá trị thông số NMSE ................................................. 103
Hình 3.5. Biểu đồ so sánh giá trị thông số MAE .................................................... 103
Hình 3.6. Biểu đồ so sánh giá trị thông số DS ....................................................... 104
1
MỞ ĐẦU
1. Tính cấp thiết của đề tài
Dự báo là một khoa học và nghệ thuật tiên đoán những sự việc sẽ xảy ra trong
tương lai, trên cơ sở phân tích khoa học về các dữ liệu đã thu thập được. Thuật ngữ
dự báo (forecasting) thường được sử dụng trong ngữ cảnh là quá trình đưa ra dự đoán
(prediction) về tương lai dựa trên dữ liệu trong quá khứ và hiện tại, tuy nhiên các
nguyên tắc của nó cũng hoàn toàn có thể ứng dụng để dự đoán các biến chéo. Chẳng
hạn, người ta có thể dựa vào giá cổ phiếu trong quá khứ và hiện tại để dự đoán giá cổ
phiếu trong tương lai. Tuy nhiên, người ta cũng có thể sử dụng những chỉ số của kinh
tế vi mô để dự đoán được giá cổ phiếu, hay có thể dựa vào những đặc điểm cho trước
của một ngôi nhà để dự đoán giá của ngôi nhà đó, … Có hai loại cơ bản của kỹ thuật
dự báo [9]:
- Kỹ thuật dự báo định tính dựa trên các ý kiến, đánh giá, quan điểm, trực giác
hay kinh nghiệm của chuyên gia. Kỹ thuật này thường được sử dụng khi dữ
liệu quá khứ không đầy đủ hay đối tượng dự báo bị ảnh hưởng bởi những
nhân tố không thể lượng hóa.
- Kỹ thuật dự báo định lượng, ngược lại với kỹ thuật định tính, dựa trên các
phương pháp thống kê để phân tích dữ liệu lịch sử. Kỹ thuật này được sử
dụng khi có đầy đủ dữ liệu lịch sử liên quan đến vấn đề dự báo, dữ liệu lượng
hóa được và có một giả định về mối quan hệ giữa giá trị dữ liệu trong quá
khứ hoặc giữa giá trị của các biến khác với biến cần dự báo.
Kỹ thuật dự báo định lượng sẽ dựa trên việc phân tích dữ liệu lịch sử để vẽ ra
và mô hình hóa chiều hướng vận động của đối tượng phù hợp với một mô hình toán
học nào đó, đồng thời sử dụng mô hình này cho việc dự báo xu hướng tương lai. Các
kỹ thuật phân tích hồi quy cho phép xây dựng các mô hình hồi quy mô tả mối quan
hệ giữa biến cần dự báo Y với các biến độc lập X [9][10]. Các mô hình máy học thống
kê như máy học véc-tơ hỗ trợ, mạng nơ-ron nhân tạo, … cũng được nhiều nhà khoa