Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam
Nhận diện thao túng giá chứng khoán Việt Nam bằng phương pháp học theo nhóm
Nội dung xem thử
Mô tả chi tiết
1
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
--------∞0∞--------
NGUYỄN XUÂN THỊNH
NHẬN DIỆN THAO TÚNG GIÁ
CHỨNG KHOÁN VIỆT NAM
BẰNG PHƯƠNG PHÁP HỌC THEO NHÓM
LUẬN VĂN THẠC SĨ
KHOA HỌC MÁY TÍNH
TP. HỒ CHÍ MINH, NĂM 2022
2
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
--------∞0∞--------
NGUYỄN XUÂN THỊNH
NHẬN DIỆN THAO TÚNG GIÁ
CHỨNG KHOÁN VIỆT NAM
BẰNG PHƯƠNG PHÁP HỌC THEO NHÓM
Chuyên ngành: Khoa học máy tính
Mã số chuyên ngành: 8 48 01 01
LUẬN VĂN THẠC SĨ
KHOA HỌC MÁY TÍNH
Giảng viên hướng dẫn: TS. PHẠM VĂN CHUNG
TP. HỒ CHÍ MINH, NĂM 2022
TRƯỜNG ĐẠI HỌC MỞ
THÀNH PHỐ HỒ CHÍ MINH
KHOA ĐÀO TẠO SAU ĐẠI HỌC
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
GIẤY XÁC NHẬN
Tôi tên là: Nguyễn Xuân Thịnh
Ngày sinh: 24/04/1983 Nơi sinh: Lâm Đồng
Chuyên ngành: Khoa Học Máy Tính Mã học viên: 1884801010015
Tôi đồng ý cung cấp toàn văn thông tin luận văn tốt nghiệp hợp lệ về bản quyền cho
Thư viện trường đại học Mở Thành phố Hồ Chí Minh. Thư viện trường đại học Mở
Thành phố Hồ Chí Minh sẽ kết nối toàn văn thông tin luận văn tốt nghiệp vào hệ thống
thông tin khoa học của Sở Khoa học và Công nghệ Thành phố Hồ Chí Minh.
Ký tên
Nguyễn Xuân Thịnh
i
LỜI CAM ĐOAN
Tôi cam đoan rằng luận văn “Nhận Diện Thao Túng Giá Chứng Khoán Việt
Nam Bằng Phương Pháp Học Theo Nhóm” là bài nghiên cứu của chính tôi.
Ngoại trừ những tài liệu tham khảo được trích dẫn trong luận văn này, tôi
cam đoan rằng toàn phần hay những phần nhỏ của luận văn này chưa từng được
công bố hoặc được sử dụng để nhận bằng cấp ở những nơi khác.
Không có sản phẩm/nghiên cứu nào của người khác được sử dụng trong luận
văn này mà không được trích dẫn theo đúng quy định.
Luận văn này chưa bao giờ được nộp để nhận bất kỳ bằng cấp nào tại các
trường đại học hoặc cơ sở đào tạo khác.
Thành phố Hồ Chí Minh, năm 2022
Nguyễn Xuân Thịnh
ii
LỜI CÁM ƠN
Trong quá trình thực hiện và hoàn thành đề tài luận văn “Nhận Diện Thao
Túng Giá Chứng Khoán Việt Nam Bằng Phương Pháp Học Theo Nhóm” tôi đã
nhận được nhiều sự giúp đỡ, động viên, chỉ bảo nhiệt tình của các bạn và quý thầy
trong khoa Công nghệ Thông Tin trường Đại Học Mở TP. HCM.
Tôi xin được phép gửi lời cảm ơn chân thành đến:
Người Thầy hướng dẫn khoa học của tôi: Tiến sĩ Phạm Văn Chung. Em đặc
biệt cám ơn Thầy đã vô cùng tận tình và hết lòng hướng dẫn, chỉ bảo em không chỉ
trong quá trình học tập mà còn trong suốt quá trình làm luận văn. Thầy đã dùng
kinh nghiệm thực tiễn phong phú, rộng lớn để dẫn dắt em, giúp em đã có thêm
nhiều kiến thức và sự hiểu biết về khoa học, về đề tài mình nghiên cứu. Thầy luôn
là động lực để em nhìn vào mà phấn đấu nhiều hơn nữa.
Quý Thầy trong ngành Khoa Học Máy Tính khoa Sau Đại Học, trường Đại
học Mở TP.HCM đã giảng dạy em trong suốt hơn 2 năm học tại trường.
Các Anh Chị đang công tác tại văn phòng Khoa Đào Tạo Sau Đại Học,
trường Đại học Mở TP.HCM đã luôn nhiệt tình chỉ dẫn, giúp đỡ và giải đáp các
thắc mắc của tôi trong suốt quá trình học cũng như làm luận văn.
Sau tất cả, dù đã rất nỗ lực nhưng do thời gian, kinh nghiệm và trình độ còn
hạn chế, luận văn sẽ không thể tránh khỏi những thiếu sót. Tác giả rất mong nhận
được sự cảm thông cũng như những chỉ dẫn, đóng góp ý kiến của Quý Thầy Cô và
các chuyên gia, các nhà khoa học để bài nghiên cứu được hoàn thiện hơn.
Xin chân thành cám ơn!
iii
TÓM TẮT
Sự phát triển nhanh chóng của thị trường chứng khoán, đặc biệt ở các thị
trường mới nổi như Việt Nam kéo theo các hành vi gian lận nhằm thu lợi cho các cá
nhân và tổ chức. Thao túng giá chứng khoán là hành vi gây thiệt hại lớn cho hệ
thống tài chính cũng như làm mất lòng tin của các nhà đầu tư hay của các công ty
tham gia niêm yết. Việc phát hiện ra các hành vi thao túng giá để từ đó có những
chế tài xử phạt và bảo vệ lợi ích của nhà đầu tư là thách thức cho các nhà quản lý thị
trường và là mục tiêu cho các công trình nghiên cứu, đặc biệt là trong lĩnh vực máy
học.
Hiện không có nhiều bộ dữ liệu về thao túng giá chứng khoán cung cấp cho
nghiên cứu và ứng dụng trong thực tiễn, ở Việt Nam hiện tại cũng chưa có công
trình nghiên cứu trong lĩnh vực máy học về nhận diện các hành vi thao túng giá
chứng khoán
Luận văn đã đóng góp thêm một bộ dữ liệu về thao túng giá chứng khoán của
thị trường Việt Nam gồm 12158 mẫu và 12 thuộc tính. Bộ dữ liệu này có thể sử
dụng cho các mục đích nghiên cứu trong tương lai và trong thực tiễn.
Luận văn đã ứng dụng các mô hình học theo nhóm phổ biến Stacking,
Bagging, Boosting để phân lớp dữ liệu, từ đó có sự so sánh hiệu suất giữa các mô
hình phân lớp. Kết quả thử nghiệm trên 2 bộ dữ liệu thao túng giá của thị trường Ấn
Độ và thị trường Việt Nam cho thấy kết quả phân lớp của Bagging-Random Forest
tốt hơn Boosting-XGBoost và Stacking-ANN. Từ đó có thể xây dựng ứng dụng hỗ
trợ các nhà quản lý thị trường phát hiện và đưa danh sách các cổ phiếu đang có dấu
hiệu bị thao túng giá vào theo dõi và có chế tài xử lý nhằm bảo vệ lợi ích của các
nhà đầu tư, các công ty niêm yết tham gia vào thị trường.
iv
ABSTRACT
The rapid development of the stock market, especially in emerging markets
such as Vietnam, brings about frauds to gain benefits for individuals and
organizations. Stock price manipulation is an act that causes great damage to the
financial system as well as distrust of investors or listed companies. Detection of
price manipulation so that there are sanctions and protection of investors' interests is
a challenge for market managers and a target for research, especially in the field of
machine learning.
Currently, there are not many datasets on stock price manipulation to provide
research and practice, and in Vietnam, there is currently no research in the field of
machine learning on detection of stock price manipulation.
The thesis has contributed an additional dataset on stock price manipulation
of the Vietnamese market, including 12158 samples and 12 attributes. This dataset
can be used for future research purposes and can be applied in practice.
The thesis has applied popular ensemble learning models Stacking, Bagging
and Boosting to classify data, thereby comparing the performance between the
classification models. The test results on two datasets of stock price manipulation of
the Indian market and the Vietnamese market show that the classification result of
Bagging-Random Forest is better than Boosting-XGBoost and Stacking-ANN.
From there, it is possible to build an application to support market managers to
detect and put a list of stocks showing signs of price manipulation to monitor and
have sanctions to protect the interests of investors, listed companies participate in
the market.
v
MỤC LỤC
LỜI CAM ĐOAN ..................................................................................................... i
LỜI CÁM ƠN ......................................................................................................... ii
TÓM TẮT .............................................................................................................. iii
ABSTRACT ........................................................................................................... iv
MỤC LỤC .............................................................................................................. v
DANH MỤC CÁC HÌNH .................................................................................... viii
DANH MỤC CÁC BẢNG ...................................................................................... x
DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT .......................................... xi
CHƯƠNG 1: MỞ ĐẦU ........................................................................................... 1
1.1 Cơ sở hình thành luận văn ............................................................................. 1
1.2 Tổng quan về TTCK ...................................................................................... 4
1.3 Hành vi thao túng giá trên TTCK ................................................................... 5
1.4 Các nghiên cứu liên quan ............................................................................... 7
1.4.1 Nghiên cứu của Leangarun và ctg. ................................................................. 8
1.4.2 Nghiên cứu của Zhai và ctg. .......................................................................... 8
1.4.3 Nghiên cứu của Li và ctg. .............................................................................. 9
1.4.4 Nghiên cứu của Leangarun và ctg. ............................................................... 10
1.4.5 Nghiên cứu của Rizvi và ctg. ....................................................................... 10
1.4.6 Nghiên cứu của Wang và ctg. ...................................................................... 11
1.4.7 Nghiên cứu của Sridha và ctg. ..................................................................... 11
1.5 Mục tiêu nghiên cứu .................................................................................... 13
1.6 Đối tượng và phạm vi nghiên cứu ................................................................ 14
1.6.1 Đối tượng nghiên cứu .................................................................................. 14
1.6.2 Phạm vi nghiên cứu ..................................................................................... 14
1.7 Phương pháp nghiên cứu của luận văn ......................................................... 14
1.8 Tính khoa học và tính thực tiễn của luận văn ............................................... 15
1.8.1 Tính khoa học .............................................................................................. 15
1.8.2 Tính thực tiễn .............................................................................................. 15
1.9 Cấu trúc của luận văn .................................................................................. 16
1.10 Tóm tắt chương 1 ........................................................................................ 16
vi
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT ...................................................................... 17
2.1 Mạng Neural ................................................................................................ 17
2.1.1 Cấu trúc mạng Neural .................................................................................. 17
2.1.2 Quá trình huấn luyện mạng Neural ............................................................... 21
2.2 Học theo nhóm (Ensemble Learning) ........................................................... 22
2.2.1 Stacking ....................................................................................................... 23
2.2.1.1 Xác thực chéo k-phần với Stacking ........................................................ 25
2.2.1.2 Kết hợp nhãn tạo ra với dữ liệu huấn luyện ban đầu ............................. 26
2.2.1.3 Kết hợp các dự đoán cho tập dữ liệu kiểm tra ....................................... 27
2.2.1.4 Stacking đa tầng (Multi-Level Stacking) ................................................ 28
2.2.1.5 Các phương pháp Stacking khác ........................................................... 29
2.2.2 Bagging ....................................................................................................... 29
2.2.2.1 Phương pháp Bootstrap ........................................................................ 30
2.2.2.2 MHHĐ của Bagging ............................................................................. 31
2.2.2.3 Random Forest ...................................................................................... 32
2.2.3 Boosting ...................................................................................................... 34
2.2.3.1 Adaptive Boosting (AdaBoost) ............................................................... 35
2.2.3.2 Gradient Boosting và Extreme Gradient Boosting ................................. 37
2.3 Tóm tắt chương 2 ........................................................................................ 39
CHƯƠNG 3: PHƯƠNG PHÁP THỰC HIỆN ....................................................... 40
3.1 BDL thao túng giá chứng khoán .................................................................. 40
3.2 Xây dựng BDL thao túng giá chứng khoán Việt Nam .................................. 43
3.2.1 Thu thập dữ liệu và tiền xử lý ...................................................................... 43
3.2.1.1 Tiền xử lý dữ liệu .................................................................................. 44
3.2.1.2 Các bước thu thập và tiền xử lý dữ liệu thao túng giá chứng khoán Việt
Nam .............................................................................................................. 44
3.2.2 Chuẩn hóa dữ liệu ........................................................................................ 50
3.2.3 Chia tách và rò rỉ dữ liệu .............................................................................. 51
3.2.3.1 Chia tách dữ liệu ................................................................................... 51
3.2.3.2 Rò rỉ dữ liệu .......................................................................................... 52
3.3 Phân lớp dữ liệu ........................................................................................... 52
3.3.1 Phân lớp sử dụng ANN ................................................................................ 53
vii
3.3.2 Mô hình phân lớp Stacking - ANN .............................................................. 53
3.3.3 Mô hình phân lớp Bagging - RF .................................................................. 54
3.3.4 Mô hình phân lớp Boosting - XGB .............................................................. 55
3.3.5 Các mô hình phân lớp khác .......................................................................... 56
3.3.5.1 K Nearest Neighbor (KNN) ................................................................... 56
3.3.5.2 Naïve Bayes (NB) .................................................................................. 56
3.3.5.3 Support Vector Machine (SVM)............................................................. 57
3.3.5.4 Linear và Quadratic Discriminant Analysis (LDA và QDA) .................. 57
3.3.5.5 Logistic Regression (LR) ....................................................................... 57
3.4 Tóm tắt chương 3 ........................................................................................ 57
CHƯƠNG 4: THỰC NGHIỆM ............................................................................. 58
4.1 Môi trường thực nghiệm và đề xuất phân chia dữ liệu ................................. 58
4.2 Kết quả thực nghiệm với BDL Ấn Độ .......................................................... 58
4.2.1 Mô hình Stacking - ANN ............................................................................. 58
4.2.2 Mô hình Bagging - RF ................................................................................. 61
4.2.3 Mô hình Boosting – XGB ............................................................................ 62
4.3 Kết quả thực nghiệm với BDL Việt Nam ..................................................... 64
4.3.1 Mô hình Stacking – ANN cho BDL Việt Nam ............................................. 64
4.3.2 Mô hình Bagging – RF cho BDL Việt Nam ................................................. 67
4.3.3 Mô hình Boosting – XGB cho BDL Việt Nam ............................................. 68
4.3.4 Áp dụng các mô hình phân lớp khác ............................................................ 70
4.4 Kết luận chương 4 ....................................................................................... 71
CHƯƠNG 5: KẾT QUẢ ĐẠT ĐƯỢC VÀ HƯỚNG PHÁT TRIỂN ..................... 73
5.1 Kết quả đạt được và hạn chế ........................................................................ 73
5.1.1 Kết quả đạt được và các đóng góp của luận văn ........................................... 73
5.1.2 Hạn chế của luận văn ................................................................................... 73
5.2 Hướng phát triển .......................................................................................... 74
TÀI LIỆU THAM KHẢO
PHỤ LỤC