Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Phương pháp ước lượng Lasso: Cơ sở toán học và ứng dụng: Đề tài nghiên cứu khoa học / Bùi Thị Thiện Mỹ, Trần Thị Thu Hương, Nguyễn Thị Yến
Nội dung xem thử
Mô tả chi tiết
TRƢỜNG ĐẠI HỌC NGÂN HÀNG TP HỒ CHÍ MINH
---------------------------------
PHƢƠNG PHÁP ƢỚC LƢỢNG LASSO:
CƠ SỞ TOÁN HỌC VÀ ỨNG DỤNG
ĐỀ TÀI KHOA HỌC CẤP CƠ SỞ
Người thực hiện: Bùi Thị Thiện Mỹ
Trần Thị Thu Hƣơng
Nguyễn Thị Yến
TP HỒ CHÍ MINH – 2021
i
MỤC LỤC
MỤC LỤC.................................................................................................................. i
DANH MỤC BẢNG BIỂU.....................................................................................iii
DANH MỤC HÌNH ẢNH....................................................................................... iv
PHẦN MỞ ĐẦU....................................................................................................... 1
1. Lý do chọn đề tài................................................................................................. 1
2. Mục đích nghiên cứu .......................................................................................... 3
3. Đối tƣợng và phạm vi nghiên cứu ..................................................................... 3
4. Phƣơng pháp nghiên cứu................................................................................... 4
5. Những đóng góp mới của đề tài......................................................................... 4
CHƢƠNG 1. CƠ SỞ LÝ THUYẾT CỦA PHƢƠNG PHÁP LASSO................. 5
1.1. Các kiến thức liên quan................................................................................... 5
1.1.1. Hàm lồi và các tính chất...................................................................... 5
1.1.2. Điều kiện cần và đủ để hàm lồi đạt cực tiểu. ...................................... 6
1.2. Phƣơng pháp Lasso cho mô hình hồi quy tuyến tính................................... 7
1.2.1 Bài toán tổng quát................................................................................. 7
1.2.2. Cơ sở toán học của phương pháp Lasso.............................................. 9
1.2.3. Thuật toán tìm ước lượng Lasso........................................................ 10
1.3. Phƣơng pháp Lasso cho bài toán phân loại ................................................ 14
1.3.1. Mô hình hồi quy Logistic (LR) ......................................................... 14
1.3.2. Mô hình hồi quy Lasso-Logistic (LL)............................................... 15
1.4. Tính chất của ƣớc lƣợng Lasso .................................................................... 16
1.4.1. Bậc tự do............................................................................................ 16
1.4.2. Tính duy nhất..................................................................................... 16
1.4.3. Tính chệch ......................................................................................... 17
1.4.4. Tính vững .......................................................................................... 17
CHƢƠNG 2. ỨNG DỤNG LASSO TRÊN BÀI TOÁN HỒI QUY .................. 18
2.1. Mô hình nghiên cứu và các biến................................................................... 18
2.2 Quy trình tính toán......................................................................................... 20
2.3. Kết quả tính toán ........................................................................................... 21
2.4. Kết luận .......................................................................................................... 25
ii
CHƢƠNG 3. ỨNG DỤNG LASSO TRÊN BÀI TOÁN PHÂN LOẠI.............. 26
3.1. Giới thiệu........................................................................................................ 26
3.2. Khung phân tích vấn đề xây dựng mô hình đánh giá tín dụng................. 27
3.2.1. Khái niệm đánh giá tín dụng ............................................................. 27
3.2.2. Các yếu tố đầu vào ............................................................................ 28
3.3. Các phƣơng pháp thống kê trong xây dựng mô hình đánh giá tín dụng . 29
3.3.1. Các phương pháp thống kê truyền thống .......................................... 29
3.3.2. Các mô hình học máy trong đánh giá tín dụng ................................. 31
3.4. Vấn đề mất cân bằng dữ liệu trong bài toán phân loại.............................. 32
3.4.1. Phương pháp CSL ............................................................................. 33
3.4.2. Các kỹ thuật tái chọn mẫu ................................................................. 33
3. 5. Mô hình đánh giá tín dụng SMOTE-Lasso-Logistic................................. 35
Quy trình thực hiện mô hình SMOTE-Lasso-Logistic................................ 35
3.6. Kết quả thực nghiệm ..................................................................................... 36
3.6.1. Dữ liệu thực nghiệm.......................................................................... 36
3.6.2. Các độ đo đánh giá hiệu quả của mô hình......................................... 37
3.6.3. Hiệu quả mô hình SMOTE-Lasso-Logistic....................................... 39
3.6.4 Nhận xét.............................................................................................. 44
PHẦN KẾT LUẬN ................................................................................................ 45
TÀI LIỆU THAM KHẢO..................................................................................... 46
PHỤ LỤC................................................................................................................ 51
1. Dữ liệu tỉ suất sinh lợi và các yếu tố nội tại của ngân hàng.......................... 51
2. Dữ liệu khách hàng tín dụng ........................................................................... 55
3. Mã code chƣơng 2............................................................................................. 57
4. Mã code chƣơng 3............................................................................................. 62
iii
DANH MỤC BẢNG BIỂU
Bảng 1. Thuật toán giảm chiều ............................................................................... 12
Bảng 2. Thuật toán giảm chiều theo quỹ đạo. ......................................................... 13
Bảng 3. Các biến giải thích trong mô hình. ............................................................. 19
Bảng 4. Thống kê mô tả các biến............................................................................. 19
Bảng 5. Kết quả ước lượng bằng phương pháp Lasso với tốt nhất. ..................... 22
Bảng 6. So sánh MSE từ Lasso với tốt nhất và OLS trên tập kiểm tra ................ 23
Bảng 7. Các yếu tố quan trọng trong đánh giá tín dụng theo quy tắc 5C và FICO. 28
Bảng 8. Thuật toán SMOTE(T, k, r)........................................................................ 34
Bảng 9. Quy trình thực hiện mô hình SMOTE-Lasso-Logistic............................... 35
Bảng 10. Ma trận nhầm lẫn trong đánh giá tín dụng ............................................... 37
Bảng 11. Kết quả ước lượng mô hình SMOTE-Lasso-Logistic .............................. 40
Bảng 12. Ma trận nhầm lẫn với ngưỡng 63.35% trên tập kiểm tra ......................... 42
Bảng 13. Các độ đo hiệu quả của SMOTE-Lasso-Logistic trên tập kiểm tra ......... 42
Bảng 14. Giá trị AUC và KS của các mô hình LL, LR, DT kết hợp các kỹ thuật lấy
mẫu........................................................................................................................... 43
iv
DANH MỤC HÌNH ẢNH
Hình 1. Đồ thị hàm lồi (a) và không lồi (b)............................................................... 5
Hình 2. Minh họa hình học hàm mục tiêu và miền giới hạn của Lasso và Ridge ..... 9
Hình 3. Đồ thị của toán tử biên mềm....................................................................... 11
Hình 4. Sự biến thiên của các ước lượng hệ số theo . .......................................... 21
Hình 5. Sự biến thiên của CVM theo lambda.......................................................... 22
Hình 6. Biểu đồ của mô hình (2.1)................................................................. 24
Hình 7. Biểu đồ của mô hình (2.2)................................................................. 25
Hình 8. Minh họa mô hình Cây quyết định ............................................................. 32
Hình 9. Minh họa đường cong ROC và AUC ......................................................... 39
1
PHẦN MỞ ĐẦU
1. Lý do chọn đề tài
Ngày nay, trong lĩnh vực kinh tế, tài chính và quản trị, các nghiên cứu được
thực hiện thông qua phân tích dữ liệu và mô hình ngày càng phổ biến. Kết quả các
nghiên cứu bằng phương pháp định lượng này bị ảnh hưởng bởi các yếu tố đầu vào
như độ tin cậy của dữ liệu, tần suất lấy dữ liệu, các biến số trong mô hình, định
dạng mô hình… Trong đó, lựa chọn biến số có liên quan là vấn đề quan trọng hàng
đầu, đặc biệt đối với bài toán hồi quy (regression) và bài toán phân loại
(classification). Lựa chọn biến (variable selection) được hiểu là lựa chọn tập con
gồm các biến tốt nhất cho mô hình.
Xét mô hình thống kê như sau:
( ) với (
) (1)
Ký hiệu: ̂ ̂( ) là ước lượng của Khi đó, trung bình bình phương sai
số ước lượng (mean squared error) của mô hình được phân tích thành: độ chệch
(biasness), phương sai (variance) và sai số (Hastie, Tibshirani & Friedman, 2017).
( ̂)
[ ( ) ̂( )]
, ( ̂( ) ( )-
, ( ) ( ̂( )-
(
)
Độ chệch Phương sai Phương sai sai số
Trong đó, thành phần sai số là thành phần không thể tránh khỏi trong mọi
mô hình. Thành phần độ chệch và phương sai phụ thuộc vào sự phức tạp của mô
hình. Khi mô hình có ít biến giải thích, ̂( ) có độ chệch lớn và phương sai nhỏ.
Ngược lại, khi mô hình nhiều biến giải thích, tính phức tạp vì thế tăng lên, ̂( ) có
độ chệch nhỏ nhưng phương sai lớn. Ý tưởng lựa chọn biến nhằm tối ưu hóa sự
đánh đổi giữa độ chệch và phương sai của ̂( ). Các phương pháp thường được sử
dụng trong lựa chọn biến là Chọn lựa tập con tốt nhất (The best subset selection),
Tiếp cận từng bước (Stepwise approach) và Lasso (Roncalli, 2020).