Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Phương pháp ước lượng Lasso: Cơ sở toán học và ứng dụng: Đề tài nghiên cứu khoa học / Bùi Thị Thiện Mỹ, Trần Thị Thu Hương, Nguyễn Thị Yến
PREMIUM
Số trang
68
Kích thước
1.6 MB
Định dạng
PDF
Lượt xem
1463

Phương pháp ước lượng Lasso: Cơ sở toán học và ứng dụng: Đề tài nghiên cứu khoa học / Bùi Thị Thiện Mỹ, Trần Thị Thu Hương, Nguyễn Thị Yến

Nội dung xem thử

Mô tả chi tiết

TRƢỜNG ĐẠI HỌC NGÂN HÀNG TP HỒ CHÍ MINH

---------------------------------

PHƢƠNG PHÁP ƢỚC LƢỢNG LASSO:

CƠ SỞ TOÁN HỌC VÀ ỨNG DỤNG

ĐỀ TÀI KHOA HỌC CẤP CƠ SỞ

Người thực hiện: Bùi Thị Thiện Mỹ

Trần Thị Thu Hƣơng

Nguyễn Thị Yến

TP HỒ CHÍ MINH – 2021

i

MỤC LỤC

MỤC LỤC.................................................................................................................. i

DANH MỤC BẢNG BIỂU.....................................................................................iii

DANH MỤC HÌNH ẢNH....................................................................................... iv

PHẦN MỞ ĐẦU....................................................................................................... 1

1. Lý do chọn đề tài................................................................................................. 1

2. Mục đích nghiên cứu .......................................................................................... 3

3. Đối tƣợng và phạm vi nghiên cứu ..................................................................... 3

4. Phƣơng pháp nghiên cứu................................................................................... 4

5. Những đóng góp mới của đề tài......................................................................... 4

CHƢƠNG 1. CƠ SỞ LÝ THUYẾT CỦA PHƢƠNG PHÁP LASSO................. 5

1.1. Các kiến thức liên quan................................................................................... 5

1.1.1. Hàm lồi và các tính chất...................................................................... 5

1.1.2. Điều kiện cần và đủ để hàm lồi đạt cực tiểu. ...................................... 6

1.2. Phƣơng pháp Lasso cho mô hình hồi quy tuyến tính................................... 7

1.2.1 Bài toán tổng quát................................................................................. 7

1.2.2. Cơ sở toán học của phương pháp Lasso.............................................. 9

1.2.3. Thuật toán tìm ước lượng Lasso........................................................ 10

1.3. Phƣơng pháp Lasso cho bài toán phân loại ................................................ 14

1.3.1. Mô hình hồi quy Logistic (LR) ......................................................... 14

1.3.2. Mô hình hồi quy Lasso-Logistic (LL)............................................... 15

1.4. Tính chất của ƣớc lƣợng Lasso .................................................................... 16

1.4.1. Bậc tự do............................................................................................ 16

1.4.2. Tính duy nhất..................................................................................... 16

1.4.3. Tính chệch ......................................................................................... 17

1.4.4. Tính vững .......................................................................................... 17

CHƢƠNG 2. ỨNG DỤNG LASSO TRÊN BÀI TOÁN HỒI QUY .................. 18

2.1. Mô hình nghiên cứu và các biến................................................................... 18

2.2 Quy trình tính toán......................................................................................... 20

2.3. Kết quả tính toán ........................................................................................... 21

2.4. Kết luận .......................................................................................................... 25

ii

CHƢƠNG 3. ỨNG DỤNG LASSO TRÊN BÀI TOÁN PHÂN LOẠI.............. 26

3.1. Giới thiệu........................................................................................................ 26

3.2. Khung phân tích vấn đề xây dựng mô hình đánh giá tín dụng................. 27

3.2.1. Khái niệm đánh giá tín dụng ............................................................. 27

3.2.2. Các yếu tố đầu vào ............................................................................ 28

3.3. Các phƣơng pháp thống kê trong xây dựng mô hình đánh giá tín dụng . 29

3.3.1. Các phương pháp thống kê truyền thống .......................................... 29

3.3.2. Các mô hình học máy trong đánh giá tín dụng ................................. 31

3.4. Vấn đề mất cân bằng dữ liệu trong bài toán phân loại.............................. 32

3.4.1. Phương pháp CSL ............................................................................. 33

3.4.2. Các kỹ thuật tái chọn mẫu ................................................................. 33

3. 5. Mô hình đánh giá tín dụng SMOTE-Lasso-Logistic................................. 35

Quy trình thực hiện mô hình SMOTE-Lasso-Logistic................................ 35

3.6. Kết quả thực nghiệm ..................................................................................... 36

3.6.1. Dữ liệu thực nghiệm.......................................................................... 36

3.6.2. Các độ đo đánh giá hiệu quả của mô hình......................................... 37

3.6.3. Hiệu quả mô hình SMOTE-Lasso-Logistic....................................... 39

3.6.4 Nhận xét.............................................................................................. 44

PHẦN KẾT LUẬN ................................................................................................ 45

TÀI LIỆU THAM KHẢO..................................................................................... 46

PHỤ LỤC................................................................................................................ 51

1. Dữ liệu tỉ suất sinh lợi và các yếu tố nội tại của ngân hàng.......................... 51

2. Dữ liệu khách hàng tín dụng ........................................................................... 55

3. Mã code chƣơng 2............................................................................................. 57

4. Mã code chƣơng 3............................................................................................. 62

iii

DANH MỤC BẢNG BIỂU

Bảng 1. Thuật toán giảm chiều ............................................................................... 12

Bảng 2. Thuật toán giảm chiều theo quỹ đạo. ......................................................... 13

Bảng 3. Các biến giải thích trong mô hình. ............................................................. 19

Bảng 4. Thống kê mô tả các biến............................................................................. 19

Bảng 5. Kết quả ước lượng bằng phương pháp Lasso với tốt nhất. ..................... 22

Bảng 6. So sánh MSE từ Lasso với tốt nhất và OLS trên tập kiểm tra ................ 23

Bảng 7. Các yếu tố quan trọng trong đánh giá tín dụng theo quy tắc 5C và FICO. 28

Bảng 8. Thuật toán SMOTE(T, k, r)........................................................................ 34

Bảng 9. Quy trình thực hiện mô hình SMOTE-Lasso-Logistic............................... 35

Bảng 10. Ma trận nhầm lẫn trong đánh giá tín dụng ............................................... 37

Bảng 11. Kết quả ước lượng mô hình SMOTE-Lasso-Logistic .............................. 40

Bảng 12. Ma trận nhầm lẫn với ngưỡng 63.35% trên tập kiểm tra ......................... 42

Bảng 13. Các độ đo hiệu quả của SMOTE-Lasso-Logistic trên tập kiểm tra ......... 42

Bảng 14. Giá trị AUC và KS của các mô hình LL, LR, DT kết hợp các kỹ thuật lấy

mẫu........................................................................................................................... 43

iv

DANH MỤC HÌNH ẢNH

Hình 1. Đồ thị hàm lồi (a) và không lồi (b)............................................................... 5

Hình 2. Minh họa hình học hàm mục tiêu và miền giới hạn của Lasso và Ridge ..... 9

Hình 3. Đồ thị của toán tử biên mềm....................................................................... 11

Hình 4. Sự biến thiên của các ước lượng hệ số theo . .......................................... 21

Hình 5. Sự biến thiên của CVM theo lambda.......................................................... 22

Hình 6. Biểu đồ của mô hình (2.1)................................................................. 24

Hình 7. Biểu đồ của mô hình (2.2)................................................................. 25

Hình 8. Minh họa mô hình Cây quyết định ............................................................. 32

Hình 9. Minh họa đường cong ROC và AUC ......................................................... 39

1

PHẦN MỞ ĐẦU

1. Lý do chọn đề tài

Ngày nay, trong lĩnh vực kinh tế, tài chính và quản trị, các nghiên cứu được

thực hiện thông qua phân tích dữ liệu và mô hình ngày càng phổ biến. Kết quả các

nghiên cứu bằng phương pháp định lượng này bị ảnh hưởng bởi các yếu tố đầu vào

như độ tin cậy của dữ liệu, tần suất lấy dữ liệu, các biến số trong mô hình, định

dạng mô hình… Trong đó, lựa chọn biến số có liên quan là vấn đề quan trọng hàng

đầu, đặc biệt đối với bài toán hồi quy (regression) và bài toán phân loại

(classification). Lựa chọn biến (variable selection) được hiểu là lựa chọn tập con

gồm các biến tốt nhất cho mô hình.

Xét mô hình thống kê như sau:

( ) với (

) (1)

Ký hiệu: ̂ ̂( ) là ước lượng của Khi đó, trung bình bình phương sai

số ước lượng (mean squared error) của mô hình được phân tích thành: độ chệch

(biasness), phương sai (variance) và sai số (Hastie, Tibshirani & Friedman, 2017).

( ̂)

[ ( ) ̂( )]

, ( ̂( ) ( )-

, ( ) ( ̂( )-

(

)

Độ chệch Phương sai Phương sai sai số

Trong đó, thành phần sai số là thành phần không thể tránh khỏi trong mọi

mô hình. Thành phần độ chệch và phương sai phụ thuộc vào sự phức tạp của mô

hình. Khi mô hình có ít biến giải thích, ̂( ) có độ chệch lớn và phương sai nhỏ.

Ngược lại, khi mô hình nhiều biến giải thích, tính phức tạp vì thế tăng lên, ̂( ) có

độ chệch nhỏ nhưng phương sai lớn. Ý tưởng lựa chọn biến nhằm tối ưu hóa sự

đánh đổi giữa độ chệch và phương sai của ̂( ). Các phương pháp thường được sử

dụng trong lựa chọn biến là Chọn lựa tập con tốt nhất (The best subset selection),

Tiếp cận từng bước (Stepwise approach) và Lasso (Roncalli, 2020).

Tải ngay đi em, còn do dự, trời tối mất!