Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Phát triển mô hình dự báo dữ liệu chuỗi thời gian ngắn hạn
Nội dung xem thử
Mô tả chi tiết
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐAI Ḥ OC Ṃ Ở THÀNH PHỐ HỒ CHÍMINH
--------------------------------------
PHAM NG ̣ OC C ̣ ẢNH
PHÁT TRIỂN MÔ HÌNH DỰ BÁO
DỮ LIỆU CHUỖI THỜI GIAN
NGẮN HẠN
LUÂN VĂN TH ̣ AC S ̣ ĨKHOA HOC Ṃ ÁY TÍNH
TP. Hồ ChíMinh, Năm 2019
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐAI Ḥ OC Ṃ Ở THÀNH PHỐ HỒ CHÍMINH
--------------------------------------
PHAM NG ̣ OC C ̣ ẢNH
PHÁT TRIỂN MÔ HÌNH DỰ BÁO
DỮ LIỆU CHUỖI THỜI GIAN
NGẮN HẠN
Chuyên ngành : Khoa hoc ṃ áy tính
Mãsố chuyên ngành : 60 48 01 01
LUÂN VĂN TH ̣ AC S ̣ ĨKHOA HOC Ṃ ÁY TÍNH
Ngườ
i hướng dâñ khoa hoc:̣
TS. Pham Văn Chung ̣
TP. Hồ ChíMinh, Năm 2019
i
LỜI CAM ĐOAN
Tôi cam đoan rằng luận văn “PHÁT TRIỂN MÔ HÌNH DỰBÁO DỮLIÊU ̣
CHUỖI THỜI GIAN NGẮN HAṆ ” là công trình nghiên cứu của chính tôi.
Ngoại trừ những tài liệu tham khảo được trích dẫn trong luận văn này, tôi cam
đoan rằng toàn phần hay những phần nhỏ của luận văn này chưa từng được
công bố hoặc được sử dụng để nhận bằng cấp ở những nơi khác.
Không có sản phẩm/nghiên cứu nào của người khác được sử dụng trong luận
văn này mà không được trích dẫn theo đúng quy định.
Luận văn này chưa bao giờ được nộp để nhận bất kỳ bằng cấp nào tại các
trường đại học hoặc cơ sở đào tạo khác.
Tp. Hồ ChíMinh, tháng 7 năm 2019.
Ngườ
i thực hiện đề tài
Pham Ng ̣ oc C̣ ảnh
ii
LỜI CẢM ƠN
Tôi xin được gửi lời cảm ơn trân trọng và sâu sắc nhất tới tiến sĩPham Văn ̣
Chung – thầy đã tận tình chỉ bảo, hướng dẫn, truyền đạt kiến thức và kinh nghiêm ̣
quý báu cho tôi trong suốt quá trình nghiên cứu thực hiện luân văn này. ̣
Trong quá trình học tập, triển khai nghiên cứu luân văn và nh ̣ ững gì đạt được
hôm nay, tôi luôn nhớ đến công lao giảng dạy và hướng dẫn của quí thầy, cô trường
Đại học Mở TP. HCM, đặc biệt là quí thầy, cô trong khoa Sau đai ḥ oc ṿ à khoa Công
nghê ̣thông tin.
Măc ḍ ù đãcố gắng rất nhiều trong quá
trinh th ̀ ưc hi ̣ ên lu ̣ ân văn, song v ̣ ớ
i giớ
i
hạn thờ
i gian và sựhan ch ̣ ế của khả năng bản thân nên không thể không có những
thiếu só
t. Kính mong nhận được sự chia sẻ và những ý kiến đóng góp quý báu của
quí thầy cô giáo và các bạn hoc viên. ̣
Tp. Hồ ChíMinh, tháng 7 năm 2019.
Ngườ
i thực hiện đề tài
Pham Ng ̣ oc C̣ ảnh
iii
TÓM TẮT
Hiện nay, bài toán dự báo dữ liệu chuỗi thời gian nhận được nhiều sự quan
tâm của các nhà khoa học.
Nhiều phương pháp đã được đề xuất, tuy nhiên đa số áp dụng cho từng loại dữ
liệu cụ thể và đều có những ưu nhược điểm riêng. Trong đó, phổ biến là hai phương
pháp dự báo: dựa trên kỹ thuật làm trơn hàm mũ bởi đặc điểm không yêu cầu dữ liệu
đầu vào lớn và mạng nơ ron nhân tạo bởi nắm bắt được tính phi tuyến của dữ liệu đầu
vào.
Tuy nhiên, nhiều nghiên cứu chỉ ra rằng đối với dữ liệu có tính xu hướng và
tính mùa thì chất lượng dự báo của phương pháp mạng nơ ron nhân tạo không cao.
Tương tự, đối với dữ liệu có tính phi tuyến chất lượng dự báo của phương pháp làm
trơn hàm mũ không tốt.
Trong luận văn này, với ý tưởng tận dụng khả năng xấp xỉ hàm phi tuyến của
mạng nơ ron nhân tạo (ANN) và khả năng xấp xỉ tốt thành phần mùa và xu hướng
của phương pháp làm trơn hàm mũ bậc 3 (ES3), chúng tôi đề xuất mô hình dựbáo
dữliêu chu ̣ ỗi thờ
i gian ngắn han ḅ ằng cách xây dựng và hiện thực mô hình lai ghép
giữa mạng nơ ron nhân tạo với kỹ thuật làm trơn hàm mũ bậc 3 (ANN-ES3). Mô hình
đề xuất có khả năng dự báo đa dạng các loại dữ liệu và cho kết quả dự báo tốt hơn.
Đồng thời, chúng tôi cũng hiện thực ba phương pháp dự báo: ANN, ES3 và lai ghép
ANN với kỹ thuật làm trơn hàm mũ bậc 1 (ANN-ES1) để so sánh với phương pháp
đề xuất.
Tiến hành thực nghiệm dự báo với dữ liệu ngắn hạn thực tế, mô hình lai ghép
ANN-ES3 do chúng tôi đề xuất cho chất lượng dự báo tốt hơn so với ba mô hình còn
lại (ANN, ES3, and hybrid ANN-ES1).
iv
ABSTRACT
Currently, time series data forecasting gets much attention from the scientists.
Many forecasting methods have been proposed, however, most of them are
applied to specific data and each method has its own advantages and disadvantages.
Among them, the popular are two forecasting methods: based on exponential
smoothing technique because it does not require large input data and based on
artificial neuron network because it is able to capture non-linearity of input data.
However, many studies show that for trend and seasonal data, the quality of
the artificial neuron network is not high. Similarly, for non-linear data, the quality of
the exponential smoothing technique is not good.
In this thesis, with the idea of utilizing the nonlinear approximation capability
of the artificial neural network (ANN) and the ability to approximate the seasonal and
trend component of the triple exponential smoothing method (ES3), we proposed a
new model to forecast short-term time series data by developing and implementing
hybrid model between artificial neural network and triple exponential smoothing
method (ANN-ES3). This hybrid model is able to forecast various types of data and
gives better forecasting results. We also implement three forecasting methods: ANN,
ES3 and hybrid model between ANN and single exponential smoothing (ANN-ES1)
to compare with the proposed method.
Through the forecast experiment with actual short-term time series data, the
proposed hybrid method (ANN-ES3) give better forecasting results than the other
three models (ANN, ES3, and hybrid ANN-ES1).
v
MUC L ̣ UC̣
LỜI CAM ĐOAN ........................................................................................................i
LỜI CẢM ƠN .............................................................................................................ii
TÓM TẮT ........................................................................................................... iii
MUC L ̣ UC̣ .............................................................................................................v
DANH MUC H ̣ ÌNH ................................................................................................ viii
DANH MUC B ̣ ẢNG...................................................................................................x
DANH MỤC TỪ VIẾT TẮT.....................................................................................xi
CHƯƠNG 1: GIỚI THIÊỤ ........................................................................................1
1.1 CƠ SỞ HÌNH THÀNH LUÂN VĂN ̣ ............................................................1
1.1.1 Đinh ngh ̣ ia chu ̃ ỗi dữliêu th ̣ ờ
i gian .........................................................1
1.1.2 Các thành phần của dữliêu chu ̣ ỗi thờ
i gian............................................1
1.1.3 Phân tích dữliêu chu ̣ ỗi thờ
i gian và ứng dụng .......................................3
1.1.4 Tầm quan trong v ̣ à ứng dung c ̣ ủa dựbáo dữliêu chu ̣ ỗi thờ
i gian..........4
1.1.5 Các phương pháp dựbáo dữliêu chu ̣ ỗi thờ
i gian...................................5
1.2 TÍNH CẤP THIẾT CỦA ĐỀ TÀI.................................................................5
1.3 MUC TIÊU NGHIÊN C ̣ ỨU..........................................................................8
1.3.1 Muc tiêu nghiên c ̣ ứu tổng quá
t ...............................................................8
1.3.2 Muc tiêu nghiên c ̣ ứu cu ̣thể.....................................................................8
1.4 ĐỐI TƯƠNG V ̣ À PHẠM VI NGHIÊN CỨU ..............................................9
1.5 Ý NGHIA KHOA H ̃ OC ̣ VÀ THỰC TIỄN CỦA ĐỀ TÀI............................9
1.6 CẤU TRÚC LUÂN VĂN ̣ ...........................................................................10
CHƯƠNG 2: TỔNG THUÂT C̣ ÁC CÔNG TRÌNH LIÊN QUAN.........................11
2.1 CÔNG TRÌNH CỦA BOX VÀ JENKINS..................................................11
2.1.1 Mô hình ARIMA ..................................................................................11
2.1.2 Mô hình Seasonal ARIMA ...................................................................11
2.1.3 Ưu điểm của mô hình Box-Jenkins ......................................................12
2.1.4 Nhược điểm của mô hình Box-Jenkins.................................................12
2.2 CÔNG TRÌNH CỦA HOLT-WINTERS ....................................................13
vi
2.2.1 Giớ
i thiêu mô h ̣ ình ............................................................................... 13
2.2.2 Ưu điểm................................................................................................ 13
2.2.3 Nhươc đi ̣ ểm.......................................................................................... 14
2.3 MANG NƠ RON NHÂN T ̣ AỌ .................................................................. 14
2.3.1 Ưu điểm................................................................................................ 14
2.3.2 Nhươc đi ̣ ểm.......................................................................................... 15
2.4 CÁC CÔNG TRÌNH GẦN ĐÂY ............................................................... 16
2.4.1 Tình hinh nghiên c ̀ ứu dựbáo chuỗi dữliêu th ̣ ờ
i gian hiên nay ̣ ........... 16
2.4.3 Môt ṣ ố mô hinh lai gh ̀ ép ...................................................................... 17
CHƯƠNG 3: CƠ SỞ LÝ THUYẾT ........................................................................19
3.1 PHƯƠNG PHÁP LÀM TRƠN KIỂU HÀM MŨ...................................... 19
3.1.1 Mô hinh l ̀ àm trơn hàm mũbậc một (ES1) ........................................... 19
3.1.2 Mô hinh l ̀ àm trơn hàm mũbâc hai (ES2) ̣ ............................................ 21
3.1.3 Mô hinh l ̀ àm trơn hàm mũbâc ba (ES3) ̣ .............................................. 23
3.1.4 Mô hinh c ̀ ông v ̣ à mô hình nhân ........................................................... 24
3.2 MÔ HÌNH MANG NƠ RON NHÂN T ̣ AỌ ................................................ 26
3.2.1 Cấu trúc tổng quá
t của môt ANN ̣ ........................................................ 26
3.2.2 Qui trình xử lý thông tin của một ANN............................................... 27
3.2.3 Quá
trình hoc c ̣ ủa ANN ....................................................................... 29
3.2.4 Nguyên tắc hoat đ̣ ông v ̣ à các giải thuât hu ̣ ấn luyên ṃ ang nơ ron ̣ ....... 30
3.3 HƯỚNG TIẾP CẬN MÔ HÌNH LAI GHÉP ............................................. 41
3.3.1 Lý do chon ḳ ỹthuât ḷ àm trơn hàm mũđể bổ sung cho ANN trong dự
báo dữliêu chu ̣ ỗi thờ
i gian ngắn haṇ ................................................................ 41
3.3.2 Sử dung ph ̣ ần mềm R để ước lương c ̣ ác tham số cho mô hình ES3.... 41
3.3.3 Thưc hi ̣ ên mô hình lai ghép ANN ̣ -ES3................................................ 42
CHƯƠNG 4: HIỆN THỰC VÀ THỬ NGHIỆM ....................................................45
4.1 HIỆN THỰC............................................................................................... 45
4.1.1 Mô đun ANN ....................................................................................... 45
4.1.2 Mô đun làm trơn hàm mũ .................................................................... 47
4.1.3 Mô đun lai ghép ................................................................................... 49
4.2 DỮ LIỆU THỬ NGHIÊṂ .......................................................................... 50
vii
4.3 KẾT QUẢ THỬ NGHIÊM V ̣ À ĐÁNH GIÁ..............................................52
4.3.1 Bộ dữ liệu 1: Sản xuất sắt cơ bản hàng tháng tại Úc ............................54
4.3.2 Bộ dữ liệu 2: Số liệu tài chính M2 hàng tháng tại Mỹ .........................56
4.3.3 Bộ dữ liệu 3: Lượng tiêu thụ Chocolate hàng tháng tại Úc ..................58
4.3.4 Bộ dữ liệu 4: Nhiệt độ cao nhất hàng tháng tại Paris, Pháp .................60
4.3.5 Bộ dữ liệu 5: Số liệu đóng cửa của chỉ số công nghiệp Dow-Jones.....62
4.3.6 Bộ dữ liệu 6: Số nữ thất nghiệp hàng tháng tại Mỹ..............................64
4.3.7 Bộ dữ liệu 7: Doanh số xi măng hàng quý tại Úc.................................66
4.3.8 Bộ dữ liệu 8: Mực nước hàng tháng của hồ Erie..................................68
4.3.9 Bộ dữ liệu 9: Sản lượng điện hàng quý tại Úc......................................70
4.3.10 Bộ dữ liệu 10: Số lượng người di cư hàng tháng tại Úc .......................72
4.4 TỔNG HỢP, ĐÁNH GIÁ VÀ NHẬN XÉT CHUNG................................73
CHƯƠNG 5: KẾT LUÂṆ ........................................................................................77
5.1 Những công việc đã thực hiện được............................................................77
5.2 Kết quả đạt được..........................................................................................78
5.3 Măt ḥ an ch ̣ ế .................................................................................................78
5.4 Hướng phá
t triển của luân văn ̣ .....................................................................78
TÀI LIÊU THAM KH ̣ ẢO.........................................................................................80
PHỤ LỤC ...........................................................................................................82
PHỤLUC A ̣ ...........................................................................................................82
PHỤLUC B ̣ ...........................................................................................................84
PHỤLUC C ̣ ...........................................................................................................95
PHỤLUC D ̣ .........................................................................................................105
viii
DANH MUC Ḥ ÌNH
Hình 1.1: Hình ảnh một chuỗi thời gian ............................................................1
Hình 1.2: Mô tả thành phần xu hướng tiến lên..................................................2
Hình 1.3: Mô tả thành phần mùa .......................................................................2
Hình 1.4: Mô tả thành phần chu kỳ....................................................................3
Hình 1.5: Ví dụdự báo dữ liệu chuỗi thời gian .................................................4
Hình 1.6: Môt chu ̣ ỗi dữ liệu thời gian tuyến tính...............................................6
Hình 1.7: Môt chu ̣ ỗi dữ liệu thời gian phi tuyến tính ........................................6
Hình 3.1: Một chuỗi dữliêu th ̣ ờ
i gian không có
thờ
i vụvà xu hướng rõràng 20
Hình 3.2: Một dự báo bằng phương pháp ES1 ................................................21
Hình 3.3: Một ví dụ về dữ liệu có tính mùa......................................................22
Hình 3.4: Một dự báo bằng phương pháp ES2 ................................................22
Hình 3.5: Một dự báo bằng mô hình công v ̣ à mô hình nhân ...........................25
Hình 3.6: Minh hoa ṃ ôt ANN ̣ ..........................................................................26
Hình 3.7: Mô tả kiến trúc ANN ........................................................................26
Hình 3.8: Mô tả qui trình xử lý thông tin của một ANN ..................................27
Hình 3.9: Mô tả về hàm truyền ........................................................................28
Hình 3.10: Mô tả các kiểu kiến trúc ANN........................................................29
Hình 3.11: Mô tả môt perceptron ̣ .....................................................................30
Hình 3.12: Mô tả về giải thuật lan truyền ngược.............................................35
Hình 3.13: Mãgiả cho giải thuật RPROP .......................................................39
Hình 3.14: Mô hình dự báo lai ghép................................................................42
Hình 4.1: Các mô đun của mô hình lai ghép. ..................................................45
Hình 4.2: Giao diện mô đun ANN....................................................................46
Hình 4.3: Giao diện mô đun làm trơn hàm mũ ................................................48
Hình 4.4: Giao diện mô đun lai ghép...............................................................49
Hình 4.5: Bộ dữ liệu 1 – Sản xuất sắt cơ bản hàng tháng tại Úc ....................54
Hình 4.6: Sai số dự báo của 4 mô hình cho bộ dữ liệu 1.................................54
ix
Hình 4.7: Bộ dữ liệu 2 – Số liệu tài chính M2 hàng tháng tại Mỹ...................56
Hình 4.8: Sai số kết quả dự báo của 4 mô hình cho bộ dữ liệu 2 ....................56
Hình 4.9: Bộ dữ liệu 3 – Lượng tiêu thụ Chocolate hàng tháng tại Úc ..........58
Hình 4.10: Sai số dự báo của 4 mô hình cho bộ dữ liệu 3...............................58
Hình 4.11: Bộ dữ liệu 4 – Nhiệt độ cao nhất hàng tháng tại Paris.................60
Hình 4.12: Sai số dự báo của 4 mô hình cho bộ dữ liệu 4...............................60
Hình 4.13: Bộ dữ liệu 5 – Số liệu đóng cửa chỉ số Dow-Jones.......................62
Hình 4.14: Sai số dự báo của 4 mô hình cho bộ dữ liệu 5...............................62
Hình 4.15: Bộ dữ liệu 6 – Số người nữ thất nghiệp hàng tháng tại Mỹ ..........64
Hình 4.16: Sai số dự báo của 4 mô hình cho bộ dữ liệu 6...............................64
Hình 4.17: Bộ dữ liệu 7 – Doanh số xi măng hàng quý tại Úc........................66
Hình 4.18: Sai số dự báo của 4 mô hình cho bộ dữ liệu 7...............................66
Hình 4.19: Bộ dữ liệu 8 – Mực nước trung bình hàng tháng của hồ Erie.......68
Hình 4.20: Sai số dự báo của 4 mô hình cho bộ dữ liệu 8...............................68
Hình 4.21: Bộ dữ liệu 9 – Sản lượng điện hàng quý tại Úc.............................70
Hình 4.22: Sai số dự báo của 4 mô hình cho bộ dữ liệu 9...............................70
Hình 4.23: Bộ dữ liệu 10 – Số lượng người di cư hàng tháng tại Úc..............72
Hình 4.24: Sai số dự báo của 4 mô hình cho bộ dữ liệu 10.............................72
Hình 4.25: Biểu đồ so sánh độ chính xác dự báo ............................................75
x
DANH MUC B ̣ ẢNG
Bảng 4.1: Bảng mô tả 10 bộdữ liệu thử nghiệm .............................................52
Bảng 4.2: Cấu hình tốt nhất ứng với các mô hình cho bộ dữ liệu 1 ................55
Bảng 4.3: Cấu hình tốt nhất cho các mô hình ứng với bộ dữ liệu 2 ................57
Bảng 4.4: Cấu hình tốt nhất cho các mô hình ứng với bộ dữ liệu 3 ................59
Bảng 4.5: Cấu hình tốt nhất cho các mô hình ứng với bộ dữ liệu 4 ................61
Bảng 4.6: Cấu hình tốt nhất cho các mô hình ứng với bộ dữ liệu 5 ................63
Bảng 4.7: Cấu hình tốt nhất cho các mô hình ứng với bộ dữ liệu 6 ................65
Bảng 4.8: Cấu hình tốt nhất cho các mô hình ứng với bộ dữ liệu 7 ................67
Bảng 4.9: Cấu hình tốt nhất cho các mô hình ứng với bộ dữ liệu 8 ................69
Bảng 4.10: Cấu hình tốt nhất cho các mô hình ứng với bộ dữ liệu 9 ..............71
Bảng 4.11: Cấu hình tốt nhất cho các mô hình ứng với bộ dữ liệu 10 ............73
Bảng 4.12: Bảng so sánh sai số dự báo MAPE của 4 mô hình trên 10 bộ dữ
liệu thử nghiêṃ .................................................................................................74
Bảng 4.13: Bảng so sánh thời gian chạy và độ chính xác dự báo trung bình
của bốn mô hình ...............................................................................................75
xi
DANH MỤC TỪ VIẾT TẮT
Viết tắt Tiếng anh Ý nghiã
ANN Atifical Neural Network Mang nơron nhân t ̣ aọ
ANN-ES1 Atifical Neural Network - Simple
Exponential Smoothing
Lai ghép mang nơ ron v ̣ à
làm trơn hàm mũbâc I ̣
ANN-ES3 Atifical Neural Network - Triple
Exponential Smoothing
Lai ghép mang nơ ron v ̣ à
làm trơn hàm mũbâc III ̣
AR Autoregressive Mô hình tựhồi quy
ARMA Autoregressive Moving Average Mô hình tựhồi quy trung
bình trươṭ
ARIMA Autoregression Integrated Moving
Average
Mô hình tựhồi quy tích
hơp trung b ̣ ình trươṭ
ES Exponential Smoothing Làm trơn hàm mũ
ES1 Simple Exponential Smoothing Làm trơn hàm mũbậc 1
ES2 Double Exponential Smoothing Làm trơn hàm mũbậc 2
ES3 Triple Exponential Smoothing Làm trơn hàm mũbậc 3,
còn gọi là là Holt-Winter
MA Moving Average Mô hình trung bình trươṭ
PE Processing Elements Những thành phần xử lý
TS Time Series Chuỗi thờ
i gian
SARIMA Seasonal Autoregression Integrated
Moving Average
Mô hình tự hồi quy trung
bình trượt có tính mùa
1
CHƯƠNG 1: GIỚI THIỆU
CHƯƠNG 1: GIỚI THIÊỤ
1.1 CƠ SỞ HÌNH THÀNH LUÂN VĂN ̣
1.1.1 Đinh ngh ̣ iã chuỗi dữliêu th ̣ ờ
i gian
Môt ṭ âp ḥ ơp c ̣ ác quan sá
t theo trình tựthờ
i gian được gọi là dữliêu chu ̣ ỗi thờ
i
gian [19]. Vídu ̣một chuỗi dữliêụ thờ
i gian được minh họa như hình 1.1 [19], trong
hình này trục hoành là những khoảng thời gian đều nhau, trục tung là những giá trị
đo được theo thời gian liên tiếp đều nhau đó, gọi chúng là đại lượng X.
Hình 1.1: Hình ảnh một chuỗi thời gian
Các mô hình chuỗi thờ
i gian thường dùng trong việc dự báo hiện nay gồm có:
- Các mô hinh h ̀ ồi quy.
- Các mô hinh x ̀ ác suất.
- Các mô hinh t ̀ ất đinh. ̣
1.1.2 Các thành phần của dữliêu chu ̣ ỗi thờ
i gian
Trong thực tế, một chuỗi thời gian rất đa dạng. Tuy vậy, có thể có các thành
phần chính như sau:
- Thành phần xu hướng dài hạn (long – term trend component): để đại diện cho
yếu tố xu hướng, nó thể hiện trong thời gian dài thì đại lượng X có thể có sự giảm
hoặc tăng. Có thể biểu diễn trên đồ thị thành phần này như là một đường cong
trơn hoặc một đường thẳng. Đây thường là kết quả của các yếu tố dà
i haṇ , ví dụ
như yếu tố thay đổi về nhân khẩu, công nghê, du l ̣ ịch hay sở thích giải trí và tiêu