Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Ứng dụng thuật toán rừng ngẫu nhiên mờ để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
Nội dung xem thử
Mô tả chi tiết
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM
NGUYỄN THỊ THU AN
ỨNG DỤNG THUẬT TOÁN RỪNG NGẪU NHIÊN MỜ
ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ
RỦI RO TRONG BẢO HIỂM XE CƠ GIỚI
Chuyên ngành: Hệ thống thông tin
Mã số: 61.49.01.04
TÓM TẮT
LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN
Đà Nẵng – Năm 2017
Công trình được hoàn thành tại
TRƯỜNG ĐẠI HỌC SƯ PHẠM - ĐHĐN
Người hướng dẫn khoa học: TS. NGUYỄN TRẦN QUỐC VINH
Phản biện 1: TS. Phạm Anh Phương
Phản biện 2: PGS.TS. Hoàng Quang
Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc
sĩ Hệ thống thông tin họp tại Trường Đại học Sư phạm – ĐHĐN vào
ngày 30 tháng 7 năm 2017.
Có thể tìm hiểu luận văn tại:
- Thư viện Trường Đại học Sư phạm Đà Nẵng, Đại học Đà Nẵng.
- Trung tâm thông tin học liệu, Đại học Đà Nẵng.
1
MỞ ĐẦU
1. Lý do chọn đề tài
Trong những năm gần đây, sự phát triển mạnh mẽ của công nghệ
thông tin đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ
thống thông tin tăng nhanh một cách chóng mặt. Bên cạnh đó, việc tin
học hóa một cách ồ ạt và nhanh chóng của các hoạt động sản xuất, kinh
doanh cũng như nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta
một lượng dữ liệu lưu trữ khổng lồ. Hàng triệu cơ sở dữ liệu đã được sử
dụng cho các hoạt động sản xuất, kinh doanh và quản lý,...
Theo thống kê, dân số tại Quảng Ngãi hiện có 1.200.000 người,
tập trung ở 12 huyện và thành phố. Trong đó có khoản 593.243 phương
tiện cơ giới tham gia giao thông và có 20.114 ô tô, 573.129 môtô các
loại. Theo số liệu của Ủy ban An toàn giao thông tỉnh Quảng Ngãi,
trong năm 2015 có khoản 792 vụ tại nạn giao thông, làm hỏng 1.467
phương tiện ô tô xe máy các loại, đa số tập trung ở các vùng đồng bằng.
Mức tăng trưởng kinh tế của Quảng Ngãi đạt được là khá cao
nhưng đi liền với nó là vấn đề về tai nạn giao thông và ùn tắc giao
thông, đặc biệt là giao thông đường bộ, số vụ giao thông không ngừng
tăng cả về quy mô và số lượng. Đây là mối lo ngại lớn nhất đối với chủ
xe cơ giới bởi vì họ không chỉ gây thiệt hại cho bản thân mà còn phải
chịu trách nhiệm đối với bên thứ ba. Để khắc phục tổn hại cho các bên,
bảo hiểm xe cơ giới đã ra đời và đã chứng minh được sự cần thiết khách
quan của loại hình bảo hiểm này.
Trong lĩnh vực kinh doanh này, công tác đánh giá rủi ro xe cơ
giới rất quan trọng và hết sức phức tạp. Quy trình tác nghiệp đòi hỏi
người thẩm định vừa phải có trình độ chuyên môn nghiệp vụ cao, vừa
phải có nhiều kinh nghiệm thực tiễn. Tuy nhiên, hầu hết các công ty đều
chỉ chú trọng đến vấn đề doanh thu mà ít quan tâm đến công tác đánh
giá rủi ro, đa phần việc đánh giá rủi ro đều thủ công, sơ sài và cảm tính
dẫn đến hiệu quả kinh doanh thường không như mong muốn.
2
Mặt khác, vấn đề giải quyết bồi thường khi có tổn thất xảy ra cần
“Nhanh, Đúng, Đủ” sẽ mang lại cho khách hàng niềm tin, cũng như sự
sẻ chia những rủi ro mà họ gặp phải. Vấn đề bồi thường sau tai nạn
mang tính nhạy cảm rất cao và tác động không nhỏ đến tính hiệu quả
của hoạt động kinh doanh bảo hiểm.
Nắm bắt được vấn đề trên cũng như tính cấp thiết của hoạt động
đánh giá rủi ro và bồi thường tổn thất trong bảo hiểm xe cơ giới, tôi
thấy cần phải xây dựng triển khai hệ thống ứng dụng công nghệ thông
tin nhằm đáp ứng nhu cầu phân tích, xử lý và hỗ trợ đến mức tối đa cho
công tác đánh giá và bồi thường rủi ro trong bảo hiểm xe cơ giới.
Hiện nay, đã có một số công trình nghiên cứu được sử dụng để
xây dựng hệ thống đánh giá rủi ro trong xe cơ giới như: thuật toán C4.5,
thuật toán rừng nhẫu nhiên,... nhưng thuật toán rừng ngẫu nhiên mờ
chưa được sử dụng. Vì vậy tôi chọn đề tài: “Ứng dụng thuật toán rừng
ngẫu nhiên mờ để xây dựng hệ thống trợ giúp đánh giá rủi ro trong
bảo hiểm xe cơ giới” để làm luận văn thạc sỹ của mình.
2. Mục tiêu nghiên cứu
- Nghiên cứu thuật toán liên quan đến cây quyết định.
- Phân tích, so sánh đánh giá và triển khai áp dụng thuật toán
Random Forest và Fuzzy Random Forest.
- Xây dựng hệ thống trợ giúp đánh giá rủi ro xe cơ giới, đảm bảo
đầy đủ các yêu cầu về mặt chuyên môn trong lĩnh vực bảo hiểm xe cơ
giới và nâng cao hiệu quả kinh doanh trong đơn vị.
3. Đối tượng và phạm vi nghiên cứu
3.1. Đối tượng nghiên cứu
- Nghiên cứu về các quy định, quy trình trong đánh giá rủi ro xe
cơ giới.
- Các vấn đề liên quan đến độ rủi ro trong bảo hiểm xe cơ giới.
- Hồ sơ khách hàng tham gia mua bảo hiểm xe cơ giới tại Công ty
Cổ phần Bảo hiểm AAA tại Quảng Ngãi.
3
- Các phương pháp khai phá dữ liệu.
3.2. Phạm vi nghiên cứu
- Kỹ thuật khai phá dữ liệu rừng ngẫu nhiên (Random Forest) và
rừng ngẫu nhiên mờ (Fuzzy Random Forest).
- Các biểu mẫu, số liệu kinh doanh của Công ty Cổ phần Bảo
hiểm AAA tại Quảng Ngãi trong khoảng thời gian 2013, 2014, 2015.
- Thống kê, phân tích các số liệu thực tế, xây dựng bộ dữ liệu
mẫu dùng để kiểm tra, thử nghiệm chương trình và đưa ra nhận xét,
đánh giá kết quả đạt được.
4. Phương pháp nghiên cứu
4.1. Nghiên cứu lý thuyết
- Nghiên cứu tài liệu, ngôn ngữ và các công nghệ có liên quan.
- Khai phá dữ liệu và phân lớp dữ liệu.
- Giải thuật xây dựng cây quyết định.
- Nghiên cứu về Thuật toán Random Forest và Fuzzy Random
Forest trong việc dự đoán và phân loại thông tin.
4.2. Nghiên cứu thực nghiệm
- Tiến hành thu thập và tổng hợp các tài liệu liên quan đến quy
trình thẩm định và đánh giá hồ sơ đối với lĩnh vực bảo hiểm xe cơ giới.
- Vận dụng các cơ sở lý thuyết để xây dựng ứng dụng, tiến hành
kiểm thử so sánh đánh giá hiệu suất của ứng dụng.
5. Dự kiến kết quả
5.1. Kết quả về lý thuyết
- Hiểu thêm được phương pháp khai phá dữ liệu.
- Ứng dụng phương pháp khai phá dữ liệu vào dự đoán tính rủi ro
trong khai thác bảo hiểm hiện tại nhằm nâng cao hiệu quả kinh doanh
trong đơn vị.
5.2. Kết quả thực tiễn
- Xây dựng hệ thống hỗ trợ đánh giá rủi ro cho xe cơ giới tại
Công ty Cổ phần Bảo hiểm AAA tại Quảng Ngãi.
4
- Hệ thống giúp đánh giá rủi ro nhanh chóng nhưng vẫn đảm bảo
về mặt tối ưu, có chức năng cơ bản và dễ sử dụng.
6. Ý nghĩa khoa học và thực tiễn của luận văn
Áp dụng lý thuyết về thuật toán rừng ngẫu nhiên mờ vào bài toán
đánh giá rủi ro trong khai thác bảo hiểm cho xe cơ giới.
Về mặt thực tiễn, ứng dụng phân tích dữ liệu kinh doanh của
công ty trong những năm gần đây, qua đó phát hiện các trường hợp bảo
hiểm xe cơ giới có mức độ rủi ro cao.
Giúp dự đoán và hỗ trợ ra các quyết định chính xác, tránh những
tình huống bồi thường theo cảm tính, đồng thời hạn chế các trường hợp
rủi ro và tăng hiệu quả kinh doanh của công ty.
7. Bố cục luận văn
Chương 1: Nghiên cứu tổng quan
Chương 2: Ứng dụng cây quyết định trong công tác đánh giá rủi
ro và bồi thường trong bảo hiểm xe cơ giới
Chương 3: Xây dựng chương trình và thử nghiệm ứng dụng
Cuối cùng là những đánh giá, kết luận và hướng phát triển của đề
tài.
CHƯƠNG 1
NGHIÊN CỨU TỔNG QUAN
1.1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1.1. Sơ lược về khai phá dữ liệu
Trong thời đại ngày nay, cùng với sự phát triển vượt bậc của
công nghệ thông tin, các hệ thống thông tin có thể lưu trữ một khối
lượng lớn dữ liệu về hoạt động hàng ngày của chúng. Từ khối dữ liệu
này, các kỹ thuật trong khai phá dữ liệu và máy học có thể dùng để trích
xuất những thông tin hữu ích mà chúng ta chưa biết. Các tri thức vừa
học được có thể vận dụng để cải thiện hiệu quả hoạt động của hệ thống
thông tin ban đầu.
Như vậy ta có thể khái quát hóa khái niệm khai phá dữ liệu là
5
“quá trình khảo sát và phân tích một lượng lớn các dữ liệu được lưu trữ
trong các cơ sở dữ liệu (CSDL), kho dữ liệu… để từ đó trích xuất ra các thông
tin quan trọng, có giá trị tiềm ẩn bên trong”.
1.1.2. Các kỹ thuật áp dụng trong khai phá dữ liệu
- Học có giám sát (supervised learning)
- Học không có giám sát (unsupervised learning)
- Học bán giám sát (semi-supervised learning)
- Học tăng cường (reinforcement learning)
1.1.3. Các bước xây dựng hệ thống khai phá dữ liệu
1.1.4. Ứng dụng của khai phá dữ liệu
1.1.5. Khó khăn trong khai phá dữ liệu
1.2. PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU
1.2.1. Phân lớp dữ liệu
Phân lớp dữ liệu là gán các mẫu mới vào các lớp với độ chính xác
cao nhất để dự báo cho các bộ dữ liệu (mẫu) mới.
Đầu vào là một tập các mẫu dữ liệu huấn luyện, với một nhãn
phân lớp cho mỗi mẫu dữ liệu. Đầu ra là mô hình dự đoán (bộ phân lớp)
dựa trên tập huấn luyện và những nhãn phân lớp.
1.2.2. Quá trình phân lớp dữ liệu
Quá trình phân lớp dữ liệu gồm hai bước [14]:
- Bước thứ nhất (learning): quá
trình hoc nhằm xây d ̣ ưng m ̣ ôt ̣
mô hình mô tả tâp c ̣ ác lớp dữliêu hay c ̣ ác khá
i niêm đ ̣ inh trư ̣ ớc.
- Bước thứ hai (classification): bước này dùng mô hình đãxây
dưng đư ̣ ơc ̣ ở bước thứ nhất để phân lớp dữliêu ṃ ớ
i.
1.2.3. Các vấn đề liên quan đến phân lớp dữ liệu
1.3. CÂY QUYẾT ĐỊNH
1.3.1. Cây quyết định ID3
1.3.2. Cây quyết định mờ (Fuzzy Decision tree)
1.4. RỪNG NGẪU NHIÊN
1.4.1. Rừng ngẫu nhiên (Random Forest)
Random Forest là một phương pháp học quần thể để phân loại,
hồi quy và các nhiệm vụ khác, hoạt động bằng cách xây dựng vô số các
6
quyết định trong thời gian đào tạo và đầu ra của lớp là mô hình phân lớp
hoặc hồi quy của những cây riêng biệt. Nó như là một nhóm phân loại
và hồi quy cây không cắt tỉa được làm từ các lựa chọn ngẫu nhiên của
các mẫu dữ liệu huấn luyện. Tính năng ngẫu nhiên được chọn trong quá
trình cảm ứng. Dự đoán được thực hiện bằng cách kết hợp (đa số phiếu
để phân loại hoặc trung bình cho hồi quy) dự đoán của quần thể.
Thuật toán Random Forest (RF)
Function RF (input: E, Output: Random Forest)
Begin
1. Tạo cây con S: Lấy ngẫu nhiên có hoàn lại |E| từ mẫu tập huấn
luyện E
2. Xây dựng cây quyết định (Decision Tree – DT) từ tập con S.
3. Lặp lại bước 1 và bước 2 cho tới khi tất cả cây quyết định (DT)
được xây dựng.
End.
1.4.2. Rừng ngẫu nhiên mờ (Fuzzy Random Forest)
Hiện nay có rất nhiều kỹ thuật và thuật toán giải quyết vấn đề
phân lớp. Tuy nhiên, đa số các bài toán phân lớp này được áp dụng trên
dữ liệu đầy đủ và được đo đạc chính xác. Nhưng trên thực tế các dữ liệu
thu thập được hầu như không hoàn hảo, dữ liệu méo mó, dữ liệu không
đầy đủ,... việc xử lý các dạng dữ liệu này rất khó khăn và tốn kém. Hơn
nữa các thông tin này thường được điều chỉnh bởi các chuyên gia. Do
đó, tính xác thực của dữ liệu trở nên mơ hồ. Vậy nên cần thiết xử lý trực
tiếp các dạng thông tin này [3].
Rừng ngẫu nhiên có hai yếu tố ngẫu nhiên, một là bagging được
sử dụng lựa chọn tập dữ liệu được sử dụng như dữ liệu đầu vào cho mỗi
cây; và hai là tập các thuộc tính được coi là ứng cử viên cho mỗi nút
chia. Tính ngẫu nhiên nhằm tăng sự đa dạng của cây và cải thiện chính
xác kết quả dự báo trên các cây trong rừng. Khi rừng ngẫu nhiên được
xây dựng thì 1/3 đối tượng quan sát (exambles) được loại bỏ ra khỏi dữ
liệu huấn luyện của mỗi cây trong rừng. Các đối tượng này được gọi là
7
“out of bag - OOB”. Mỗi cây sẽ có các tập đối tượng OOB khác nhau.
Các đối tượng OOB không sử dụng để xây dựng các cây và được sử dụng
thử nghiệm cho mỗi cây tương ứng.
Chúng tôi phát hiện ra rằng độ chính xác phân lớp có thể được cải
thiện với dữ liệu không chắc chắn khi sử dụng sức mạnh ngẫu nhiên của
phương pháp Fuzzy Random Forest để tăng sự đa dạng của cây và sự linh
hoạt của tập mờ.
Để phân loại, chúng tôi sử dụng phương pháp luận của rừng ngẫu
nhiên và kết hợp xử lý dữ liệu hoàn hảo, sau đó xây dựng rừng ngẫu
nhiên sử dụng cây mờ như phân loại cơ sở. Do đó, chúng tôi cố gắng sử
dụng sự vững mạnh của một quần thể cây, sức mạnh của sự ngẫu nhiênNess để tăng sự đa dạng của các cây trong rừng, sự linh hoạt của logic
mờ và tập mờ để quản lý dữ liệu không hoàn hảo.
Thuật toán Fuzzy Random Forest (FRF) tương tự thuật toán
Random Forest, chỉ khác là thay cây quyết định trong thuật toán RF bởi cây
quyết định mờ.
Function FRF (input: E, Fuzzy Partition; output: Fuzzy
Random Forest)
Begin
1. Tạo tập con S: Lấy ngẫu nhiên có hoàn lại |E| mẫu từ tập huấn
luyện E.
2. Xây dựng cây quyết định mờ (Fuzzy Decision Tree – FDT) từ
tập con S.
3. Lặp lại bước 1 và bước 2 cho tới khi tất cả các cây quyết định
mờ (FDT) được xây dựng.
End.
1.4.3. Mô hình phân lớp với rừng ngẫu nhiên mờ
a. Các ký hiệu
- T là số cây trong rừng ngẫu nhiên mờ (FRF)
- Nt là tổng số nút lá trong cây thứ t với t=1,2,3,…,T. Đặc tính
phân lớp của cây quyết định mờ là một mẫu có thể thuộc về một lá hoặc
nhiều lá khác nhau do sự chồng chéo của tập mờ tạo ra một số phân
8
hoạch mà một thuộc tính cùng tồn tại trên các phân hạch khác nhau.
- I là tổng số lớp của dữ liệu mẫu.
- E mẫu sử dụng huấn luyện hoặc kiểm tra.
-
,
( ) t n e
là độ phụ thuộc mẫu e của nút lá n trên cây t
- Support là độ hỗ trợ của lớp I trong mỗi lá bằng
( ) i
n
E
Support n
E
với
Ei
là tổng mức độ thuộc của các mẫu e trong lớp I
của nút lá n,
E
n
là tổng mức độ thuộc của đối tượng e trong nút lá n.
- L_FRF là ma trận có kích thước
Nt
T MAX
, với :
max{ , ,..., } 1 2 MAX N N N N T t
,
trong đó mỗi phần tử của ma trận là một véctơ có kích thước I có
support(i) bằng độ hỗ trợ của nút lá n trên cây t. Một số phần tử của ma
trận không chứ thông tin vì tất cả các cây không có lá nào đạt
MAX Nt
.
Tuy nhiên ma trận L_FRF bao gồm tất cả các thông tin được tạo ra bởi
FRF, trong khi các thông tin này được sử dụng để phân lớp các mẫu e.
- T_FRFt,i là ma trận có kích thước (
T 1
) bao gồm độ chắc chắn
(confidence) của mỗi cây t đối với mỗi lớp i.
- D_FRFi là một véc tơ có kích thước I, chỉ độ chắc chắn của FRF
đối với mỗi lớp i
b. Phân lớp trong rừng ngẫu nhiên mờ
Phân lớp mờ được P.Bonissone và các cộng sự đưa ra hai dạng
mô hình được gọi là Mô hình 1 (Strategy 1) và Mô hình 2 (Strategy 2)
như sau:
Hình 1.16. Mô hình phân lớp mờ
9
- Mô hình 1 (kí hiệu Strategy 1)
Thuật toán. FRF Classification (strategy 1)
FRFClassification(Input e, Fuzzy Random Forest; Output c)
Begin
DecisionsOfTrees(in: e, Fuzzy Random Forest; out: T_FRF);
DecisionsOfTrees(in: T_FRF; out: c);
End;
DecisionsOfTrees(in: e, Fuzzy Random Forest; out: T_FRF)
Begin
1) Tạo ma trận L_FRF
2) For each tree t do {For each class i do T_FRt,i=Faggre11(t, i,
L_FRF)}
End;
DecisionsOfTrees(in: T_FRF; out: c)
Begin
1) For each class i do D_FRFi=Faggre12(i, L_FRF)
2) c=argmaxi,i=1...I {D_FRFi}
End.
Trong đó, ma trận L_FRF và hàm tổng hợp thông tin Faggre
được xác định như sau:
- Ma trận L_FRF đươc tạo ra bằng cách quét mẫu e trên các cây t
- Các hàm tổng hợp thông tin Fagge coi như trọng số của cây
trong FRF và xác định như sau:
, , ; 1..
1 1
1 if arg max _
1 , , _
1 otherwise
Nt
t n j j j I
n
i L FRF
Fagge t i L FRF
2 ,
1
er (OO ) 1 , _ _
(OO )
T
T
t i
t T
rors B Faggre i T FRF T FRF
size B
Với
là hàm thuộc được xác định:
1 0 min arg
( max arg) min arg max arg
max min
0 max arg
x p m
p m x
x p m x p m
p p
p m x
10
Trong đó:
1..
er (OO )
max max
(OO )
t
t T
t
rors B
p
size B
là tỷ lệ lỗi lớn nhất
trong các cây của rừng,
er (OO )
(OO )
t
t
rors B
size B
tỷ lệ lỗi của cây t,
er (OO )t
rors B
số lỗi khi thực hiện phân lớp thực hiện trên cây t sử dụng
dữ liệu kiểm thử OOB, size(OOBt) kích thước của dữ liệu kiểm tra
OOB của cây t. pmin là tỷ lệ lỗi của cây t và
max min
arg
4
p p
m
.
Các cây trong FRF bao giờ cũng có trọng số lớn hơn 0. Trọng số
thể hiện tỷ lệ lỗi, vì thế cây có tỷ lệ lỗi thấp nhất thì có trọng số là 1.
- Mô hình 2 (kí hiệu Strategy 2)
Thuật toán FRF Classification (Strategy 2)
FRFclassification(in: e, Fuzzy random Forest; out: c) )
Begin)
1. Tạo ma trận L_FRF)
2. For each class i do D_FRFi=Faggre2(I,L_FRF) )
3. c=argmaxi,i=1...I {D_FRFi}
end;
Trong thuật toán này thì ma trận L_FRF được tạo ra thông qua
chạy mẫu e trên cây trong rừng và hàm tổng hợp thông tin Faggre 2 được
xác định bởi công thức sau:
2 , ,
1 1
( ) ( , _ ) _
( )
T Nt
t
t n i
t n t
errors OOB
Faggre i T FRF T FRF
size OOB
(2.4)
Với hàm phụ thuộc
( )
( )
t
t
errors OOB
size OOB
được xác định tương tự
thuật toán FRF Classification (strategy 1).