Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

T
PREMIUM
Số trang
117
Kích thước
12.0 MB
Định dạng
PDF
Lượt xem
1278

Nhận diện thao túng giá chứng khoán Việt Nam bằng phương pháp học theo nhóm

Nội dung xem thử

Mô tả chi tiết

1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH

--------∞0∞--------

NGUYỄN XUÂN THỊNH

NHẬN DIỆN THAO TÚNG GIÁ

CHỨNG KHOÁN VIỆT NAM

BẰNG PHƯƠNG PHÁP HỌC THEO NHÓM

LUẬN VĂN THẠC SĨ

KHOA HỌC MÁY TÍNH

TP. HỒ CHÍ MINH, NĂM 2022

2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH

--------∞0∞--------

NGUYỄN XUÂN THỊNH

NHẬN DIỆN THAO TÚNG GIÁ

CHỨNG KHOÁN VIỆT NAM

BẰNG PHƯƠNG PHÁP HỌC THEO NHÓM

Chuyên ngành: Khoa học máy tính

Mã số chuyên ngành: 8 48 01 01

LUẬN VĂN THẠC SĨ

KHOA HỌC MÁY TÍNH

Giảng viên hướng dẫn: TS. PHẠM VĂN CHUNG

TP. HỒ CHÍ MINH, NĂM 2022

TRƯỜNG ĐẠI HỌC MỞ

THÀNH PHỐ HỒ CHÍ MINH

KHOA ĐÀO TẠO SAU ĐẠI HỌC

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập – Tự do – Hạnh phúc

GIẤY XÁC NHẬN

Tôi tên là: Nguyễn Xuân Thịnh

Ngày sinh: 24/04/1983 Nơi sinh: Lâm Đồng

Chuyên ngành: Khoa Học Máy Tính Mã học viên: 1884801010015

Tôi đồng ý cung cấp toàn văn thông tin luận văn tốt nghiệp hợp lệ về bản quyền cho

Thư viện trường đại học Mở Thành phố Hồ Chí Minh. Thư viện trường đại học Mở

Thành phố Hồ Chí Minh sẽ kết nối toàn văn thông tin luận văn tốt nghiệp vào hệ thống

thông tin khoa học của Sở Khoa học và Công nghệ Thành phố Hồ Chí Minh.

Ký tên

Nguyễn Xuân Thịnh

i

LỜI CAM ĐOAN

Tôi cam đoan rằng luận văn “Nhận Diện Thao Túng Giá Chứng Khoán Việt

Nam Bằng Phương Pháp Học Theo Nhóm” là bài nghiên cứu của chính tôi.

Ngoại trừ những tài liệu tham khảo được trích dẫn trong luận văn này, tôi

cam đoan rằng toàn phần hay những phần nhỏ của luận văn này chưa từng được

công bố hoặc được sử dụng để nhận bằng cấp ở những nơi khác.

Không có sản phẩm/nghiên cứu nào của người khác được sử dụng trong luận

văn này mà không được trích dẫn theo đúng quy định.

Luận văn này chưa bao giờ được nộp để nhận bất kỳ bằng cấp nào tại các

trường đại học hoặc cơ sở đào tạo khác.

Thành phố Hồ Chí Minh, năm 2022

Nguyễn Xuân Thịnh

ii

LỜI CÁM ƠN

Trong quá trình thực hiện và hoàn thành đề tài luận văn “Nhận Diện Thao

Túng Giá Chứng Khoán Việt Nam Bằng Phương Pháp Học Theo Nhóm” tôi đã

nhận được nhiều sự giúp đỡ, động viên, chỉ bảo nhiệt tình của các bạn và quý thầy

trong khoa Công nghệ Thông Tin trường Đại Học Mở TP. HCM.

Tôi xin được phép gửi lời cảm ơn chân thành đến:

Người Thầy hướng dẫn khoa học của tôi: Tiến sĩ Phạm Văn Chung. Em đặc

biệt cám ơn Thầy đã vô cùng tận tình và hết lòng hướng dẫn, chỉ bảo em không chỉ

trong quá trình học tập mà còn trong suốt quá trình làm luận văn. Thầy đã dùng

kinh nghiệm thực tiễn phong phú, rộng lớn để dẫn dắt em, giúp em đã có thêm

nhiều kiến thức và sự hiểu biết về khoa học, về đề tài mình nghiên cứu. Thầy luôn

là động lực để em nhìn vào mà phấn đấu nhiều hơn nữa.

Quý Thầy trong ngành Khoa Học Máy Tính khoa Sau Đại Học, trường Đại

học Mở TP.HCM đã giảng dạy em trong suốt hơn 2 năm học tại trường.

Các Anh Chị đang công tác tại văn phòng Khoa Đào Tạo Sau Đại Học,

trường Đại học Mở TP.HCM đã luôn nhiệt tình chỉ dẫn, giúp đỡ và giải đáp các

thắc mắc của tôi trong suốt quá trình học cũng như làm luận văn.

Sau tất cả, dù đã rất nỗ lực nhưng do thời gian, kinh nghiệm và trình độ còn

hạn chế, luận văn sẽ không thể tránh khỏi những thiếu sót. Tác giả rất mong nhận

được sự cảm thông cũng như những chỉ dẫn, đóng góp ý kiến của Quý Thầy Cô và

các chuyên gia, các nhà khoa học để bài nghiên cứu được hoàn thiện hơn.

Xin chân thành cám ơn!

iii

TÓM TẮT

Sự phát triển nhanh chóng của thị trường chứng khoán, đặc biệt ở các thị

trường mới nổi như Việt Nam kéo theo các hành vi gian lận nhằm thu lợi cho các cá

nhân và tổ chức. Thao túng giá chứng khoán là hành vi gây thiệt hại lớn cho hệ

thống tài chính cũng như làm mất lòng tin của các nhà đầu tư hay của các công ty

tham gia niêm yết. Việc phát hiện ra các hành vi thao túng giá để từ đó có những

chế tài xử phạt và bảo vệ lợi ích của nhà đầu tư là thách thức cho các nhà quản lý thị

trường và là mục tiêu cho các công trình nghiên cứu, đặc biệt là trong lĩnh vực máy

học.

Hiện không có nhiều bộ dữ liệu về thao túng giá chứng khoán cung cấp cho

nghiên cứu và ứng dụng trong thực tiễn, ở Việt Nam hiện tại cũng chưa có công

trình nghiên cứu trong lĩnh vực máy học về nhận diện các hành vi thao túng giá

chứng khoán

Luận văn đã đóng góp thêm một bộ dữ liệu về thao túng giá chứng khoán của

thị trường Việt Nam gồm 12158 mẫu và 12 thuộc tính. Bộ dữ liệu này có thể sử

dụng cho các mục đích nghiên cứu trong tương lai và trong thực tiễn.

Luận văn đã ứng dụng các mô hình học theo nhóm phổ biến Stacking,

Bagging, Boosting để phân lớp dữ liệu, từ đó có sự so sánh hiệu suất giữa các mô

hình phân lớp. Kết quả thử nghiệm trên 2 bộ dữ liệu thao túng giá của thị trường Ấn

Độ và thị trường Việt Nam cho thấy kết quả phân lớp của Bagging-Random Forest

tốt hơn Boosting-XGBoost và Stacking-ANN. Từ đó có thể xây dựng ứng dụng hỗ

trợ các nhà quản lý thị trường phát hiện và đưa danh sách các cổ phiếu đang có dấu

hiệu bị thao túng giá vào theo dõi và có chế tài xử lý nhằm bảo vệ lợi ích của các

nhà đầu tư, các công ty niêm yết tham gia vào thị trường.

iv

ABSTRACT

The rapid development of the stock market, especially in emerging markets

such as Vietnam, brings about frauds to gain benefits for individuals and

organizations. Stock price manipulation is an act that causes great damage to the

financial system as well as distrust of investors or listed companies. Detection of

price manipulation so that there are sanctions and protection of investors' interests is

a challenge for market managers and a target for research, especially in the field of

machine learning.

Currently, there are not many datasets on stock price manipulation to provide

research and practice, and in Vietnam, there is currently no research in the field of

machine learning on detection of stock price manipulation.

The thesis has contributed an additional dataset on stock price manipulation

of the Vietnamese market, including 12158 samples and 12 attributes. This dataset

can be used for future research purposes and can be applied in practice.

The thesis has applied popular ensemble learning models Stacking, Bagging

and Boosting to classify data, thereby comparing the performance between the

classification models. The test results on two datasets of stock price manipulation of

the Indian market and the Vietnamese market show that the classification result of

Bagging-Random Forest is better than Boosting-XGBoost and Stacking-ANN.

From there, it is possible to build an application to support market managers to

detect and put a list of stocks showing signs of price manipulation to monitor and

have sanctions to protect the interests of investors, listed companies participate in

the market.

v

MỤC LỤC

LỜI CAM ĐOAN ..................................................................................................... i

LỜI CÁM ƠN ......................................................................................................... ii

TÓM TẮT .............................................................................................................. iii

ABSTRACT ........................................................................................................... iv

MỤC LỤC .............................................................................................................. v

DANH MỤC CÁC HÌNH .................................................................................... viii

DANH MỤC CÁC BẢNG ...................................................................................... x

DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT .......................................... xi

CHƯƠNG 1: MỞ ĐẦU ........................................................................................... 1

1.1 Cơ sở hình thành luận văn ............................................................................. 1

1.2 Tổng quan về TTCK ...................................................................................... 4

1.3 Hành vi thao túng giá trên TTCK ................................................................... 5

1.4 Các nghiên cứu liên quan ............................................................................... 7

1.4.1 Nghiên cứu của Leangarun và ctg. ................................................................. 8

1.4.2 Nghiên cứu của Zhai và ctg. .......................................................................... 8

1.4.3 Nghiên cứu của Li và ctg. .............................................................................. 9

1.4.4 Nghiên cứu của Leangarun và ctg. ............................................................... 10

1.4.5 Nghiên cứu của Rizvi và ctg. ....................................................................... 10

1.4.6 Nghiên cứu của Wang và ctg. ...................................................................... 11

1.4.7 Nghiên cứu của Sridha và ctg. ..................................................................... 11

1.5 Mục tiêu nghiên cứu .................................................................................... 13

1.6 Đối tượng và phạm vi nghiên cứu ................................................................ 14

1.6.1 Đối tượng nghiên cứu .................................................................................. 14

1.6.2 Phạm vi nghiên cứu ..................................................................................... 14

1.7 Phương pháp nghiên cứu của luận văn ......................................................... 14

1.8 Tính khoa học và tính thực tiễn của luận văn ............................................... 15

1.8.1 Tính khoa học .............................................................................................. 15

1.8.2 Tính thực tiễn .............................................................................................. 15

1.9 Cấu trúc của luận văn .................................................................................. 16

1.10 Tóm tắt chương 1 ........................................................................................ 16

vi

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT ...................................................................... 17

2.1 Mạng Neural ................................................................................................ 17

2.1.1 Cấu trúc mạng Neural .................................................................................. 17

2.1.2 Quá trình huấn luyện mạng Neural ............................................................... 21

2.2 Học theo nhóm (Ensemble Learning) ........................................................... 22

2.2.1 Stacking ....................................................................................................... 23

2.2.1.1 Xác thực chéo k-phần với Stacking ........................................................ 25

2.2.1.2 Kết hợp nhãn tạo ra với dữ liệu huấn luyện ban đầu ............................. 26

2.2.1.3 Kết hợp các dự đoán cho tập dữ liệu kiểm tra ....................................... 27

2.2.1.4 Stacking đa tầng (Multi-Level Stacking) ................................................ 28

2.2.1.5 Các phương pháp Stacking khác ........................................................... 29

2.2.2 Bagging ....................................................................................................... 29

2.2.2.1 Phương pháp Bootstrap ........................................................................ 30

2.2.2.2 MHHĐ của Bagging ............................................................................. 31

2.2.2.3 Random Forest ...................................................................................... 32

2.2.3 Boosting ...................................................................................................... 34

2.2.3.1 Adaptive Boosting (AdaBoost) ............................................................... 35

2.2.3.2 Gradient Boosting và Extreme Gradient Boosting ................................. 37

2.3 Tóm tắt chương 2 ........................................................................................ 39

CHƯƠNG 3: PHƯƠNG PHÁP THỰC HIỆN ....................................................... 40

3.1 BDL thao túng giá chứng khoán .................................................................. 40

3.2 Xây dựng BDL thao túng giá chứng khoán Việt Nam .................................. 43

3.2.1 Thu thập dữ liệu và tiền xử lý ...................................................................... 43

3.2.1.1 Tiền xử lý dữ liệu .................................................................................. 44

3.2.1.2 Các bước thu thập và tiền xử lý dữ liệu thao túng giá chứng khoán Việt

Nam .............................................................................................................. 44

3.2.2 Chuẩn hóa dữ liệu ........................................................................................ 50

3.2.3 Chia tách và rò rỉ dữ liệu .............................................................................. 51

3.2.3.1 Chia tách dữ liệu ................................................................................... 51

3.2.3.2 Rò rỉ dữ liệu .......................................................................................... 52

3.3 Phân lớp dữ liệu ........................................................................................... 52

3.3.1 Phân lớp sử dụng ANN ................................................................................ 53

vii

3.3.2 Mô hình phân lớp Stacking - ANN .............................................................. 53

3.3.3 Mô hình phân lớp Bagging - RF .................................................................. 54

3.3.4 Mô hình phân lớp Boosting - XGB .............................................................. 55

3.3.5 Các mô hình phân lớp khác .......................................................................... 56

3.3.5.1 K Nearest Neighbor (KNN) ................................................................... 56

3.3.5.2 Naïve Bayes (NB) .................................................................................. 56

3.3.5.3 Support Vector Machine (SVM)............................................................. 57

3.3.5.4 Linear và Quadratic Discriminant Analysis (LDA và QDA) .................. 57

3.3.5.5 Logistic Regression (LR) ....................................................................... 57

3.4 Tóm tắt chương 3 ........................................................................................ 57

CHƯƠNG 4: THỰC NGHIỆM ............................................................................. 58

4.1 Môi trường thực nghiệm và đề xuất phân chia dữ liệu ................................. 58

4.2 Kết quả thực nghiệm với BDL Ấn Độ .......................................................... 58

4.2.1 Mô hình Stacking - ANN ............................................................................. 58

4.2.2 Mô hình Bagging - RF ................................................................................. 61

4.2.3 Mô hình Boosting – XGB ............................................................................ 62

4.3 Kết quả thực nghiệm với BDL Việt Nam ..................................................... 64

4.3.1 Mô hình Stacking – ANN cho BDL Việt Nam ............................................. 64

4.3.2 Mô hình Bagging – RF cho BDL Việt Nam ................................................. 67

4.3.3 Mô hình Boosting – XGB cho BDL Việt Nam ............................................. 68

4.3.4 Áp dụng các mô hình phân lớp khác ............................................................ 70

4.4 Kết luận chương 4 ....................................................................................... 71

CHƯƠNG 5: KẾT QUẢ ĐẠT ĐƯỢC VÀ HƯỚNG PHÁT TRIỂN ..................... 73

5.1 Kết quả đạt được và hạn chế ........................................................................ 73

5.1.1 Kết quả đạt được và các đóng góp của luận văn ........................................... 73

5.1.2 Hạn chế của luận văn ................................................................................... 73

5.2 Hướng phát triển .......................................................................................... 74

TÀI LIỆU THAM KHẢO

PHỤ LỤC

Tải ngay đi em, còn do dự, trời tối mất!