Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Ứng dụng thuật toán rừng ngẫu nhiên mờ để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
PREMIUM
Số trang
121
Kích thước
6.9 MB
Định dạng
PDF
Lượt xem
1850

Ứng dụng thuật toán rừng ngẫu nhiên mờ để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới

Nội dung xem thử

Mô tả chi tiết

ĐẠI HỌC ĐÀ NẴNG

TRƯỜNG ĐẠI HỌC SƯ PHẠM

NGUYỄN THỊ THU AN

ỨNG DỤNG THUẬT TOÁN RỪNG NGẪU NHIÊN MỜ

ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ

RỦI RO TRONG BẢO HIỂM XE CƠ GIỚI

Chuyên ngành: Hệ thống thông tin

Mã số: 61.49.01.04

TÓM TẮT

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Đà Nẵng – Năm 2017

Công trình được hoàn thành tại

TRƯỜNG ĐẠI HỌC SƯ PHẠM - ĐHĐN

Người hướng dẫn khoa học: TS. NGUYỄN TRẦN QUỐC VINH

Phản biện 1: TS. Phạm Anh Phương

Phản biện 2: PGS.TS. Hoàng Quang

Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc

sĩ Hệ thống thông tin họp tại Trường Đại học Sư phạm – ĐHĐN vào

ngày 30 tháng 7 năm 2017.

Có thể tìm hiểu luận văn tại:

- Thư viện Trường Đại học Sư phạm Đà Nẵng, Đại học Đà Nẵng.

- Trung tâm thông tin học liệu, Đại học Đà Nẵng.

1

MỞ ĐẦU

1. Lý do chọn đề tài

Trong những năm gần đây, sự phát triển mạnh mẽ của công nghệ

thông tin đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ

thống thông tin tăng nhanh một cách chóng mặt. Bên cạnh đó, việc tin

học hóa một cách ồ ạt và nhanh chóng của các hoạt động sản xuất, kinh

doanh cũng như nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta

một lượng dữ liệu lưu trữ khổng lồ. Hàng triệu cơ sở dữ liệu đã được sử

dụng cho các hoạt động sản xuất, kinh doanh và quản lý,...

Theo thống kê, dân số tại Quảng Ngãi hiện có 1.200.000 người,

tập trung ở 12 huyện và thành phố. Trong đó có khoản 593.243 phương

tiện cơ giới tham gia giao thông và có 20.114 ô tô, 573.129 môtô các

loại. Theo số liệu của Ủy ban An toàn giao thông tỉnh Quảng Ngãi,

trong năm 2015 có khoản 792 vụ tại nạn giao thông, làm hỏng 1.467

phương tiện ô tô xe máy các loại, đa số tập trung ở các vùng đồng bằng.

Mức tăng trưởng kinh tế của Quảng Ngãi đạt được là khá cao

nhưng đi liền với nó là vấn đề về tai nạn giao thông và ùn tắc giao

thông, đặc biệt là giao thông đường bộ, số vụ giao thông không ngừng

tăng cả về quy mô và số lượng. Đây là mối lo ngại lớn nhất đối với chủ

xe cơ giới bởi vì họ không chỉ gây thiệt hại cho bản thân mà còn phải

chịu trách nhiệm đối với bên thứ ba. Để khắc phục tổn hại cho các bên,

bảo hiểm xe cơ giới đã ra đời và đã chứng minh được sự cần thiết khách

quan của loại hình bảo hiểm này.

Trong lĩnh vực kinh doanh này, công tác đánh giá rủi ro xe cơ

giới rất quan trọng và hết sức phức tạp. Quy trình tác nghiệp đòi hỏi

người thẩm định vừa phải có trình độ chuyên môn nghiệp vụ cao, vừa

phải có nhiều kinh nghiệm thực tiễn. Tuy nhiên, hầu hết các công ty đều

chỉ chú trọng đến vấn đề doanh thu mà ít quan tâm đến công tác đánh

giá rủi ro, đa phần việc đánh giá rủi ro đều thủ công, sơ sài và cảm tính

dẫn đến hiệu quả kinh doanh thường không như mong muốn.

2

Mặt khác, vấn đề giải quyết bồi thường khi có tổn thất xảy ra cần

“Nhanh, Đúng, Đủ” sẽ mang lại cho khách hàng niềm tin, cũng như sự

sẻ chia những rủi ro mà họ gặp phải. Vấn đề bồi thường sau tai nạn

mang tính nhạy cảm rất cao và tác động không nhỏ đến tính hiệu quả

của hoạt động kinh doanh bảo hiểm.

Nắm bắt được vấn đề trên cũng như tính cấp thiết của hoạt động

đánh giá rủi ro và bồi thường tổn thất trong bảo hiểm xe cơ giới, tôi

thấy cần phải xây dựng triển khai hệ thống ứng dụng công nghệ thông

tin nhằm đáp ứng nhu cầu phân tích, xử lý và hỗ trợ đến mức tối đa cho

công tác đánh giá và bồi thường rủi ro trong bảo hiểm xe cơ giới.

Hiện nay, đã có một số công trình nghiên cứu được sử dụng để

xây dựng hệ thống đánh giá rủi ro trong xe cơ giới như: thuật toán C4.5,

thuật toán rừng nhẫu nhiên,... nhưng thuật toán rừng ngẫu nhiên mờ

chưa được sử dụng. Vì vậy tôi chọn đề tài: “Ứng dụng thuật toán rừng

ngẫu nhiên mờ để xây dựng hệ thống trợ giúp đánh giá rủi ro trong

bảo hiểm xe cơ giới” để làm luận văn thạc sỹ của mình.

2. Mục tiêu nghiên cứu

- Nghiên cứu thuật toán liên quan đến cây quyết định.

- Phân tích, so sánh đánh giá và triển khai áp dụng thuật toán

Random Forest và Fuzzy Random Forest.

- Xây dựng hệ thống trợ giúp đánh giá rủi ro xe cơ giới, đảm bảo

đầy đủ các yêu cầu về mặt chuyên môn trong lĩnh vực bảo hiểm xe cơ

giới và nâng cao hiệu quả kinh doanh trong đơn vị.

3. Đối tượng và phạm vi nghiên cứu

3.1. Đối tượng nghiên cứu

- Nghiên cứu về các quy định, quy trình trong đánh giá rủi ro xe

cơ giới.

- Các vấn đề liên quan đến độ rủi ro trong bảo hiểm xe cơ giới.

- Hồ sơ khách hàng tham gia mua bảo hiểm xe cơ giới tại Công ty

Cổ phần Bảo hiểm AAA tại Quảng Ngãi.

3

- Các phương pháp khai phá dữ liệu.

3.2. Phạm vi nghiên cứu

- Kỹ thuật khai phá dữ liệu rừng ngẫu nhiên (Random Forest) và

rừng ngẫu nhiên mờ (Fuzzy Random Forest).

- Các biểu mẫu, số liệu kinh doanh của Công ty Cổ phần Bảo

hiểm AAA tại Quảng Ngãi trong khoảng thời gian 2013, 2014, 2015.

- Thống kê, phân tích các số liệu thực tế, xây dựng bộ dữ liệu

mẫu dùng để kiểm tra, thử nghiệm chương trình và đưa ra nhận xét,

đánh giá kết quả đạt được.

4. Phương pháp nghiên cứu

4.1. Nghiên cứu lý thuyết

- Nghiên cứu tài liệu, ngôn ngữ và các công nghệ có liên quan.

- Khai phá dữ liệu và phân lớp dữ liệu.

- Giải thuật xây dựng cây quyết định.

- Nghiên cứu về Thuật toán Random Forest và Fuzzy Random

Forest trong việc dự đoán và phân loại thông tin.

4.2. Nghiên cứu thực nghiệm

- Tiến hành thu thập và tổng hợp các tài liệu liên quan đến quy

trình thẩm định và đánh giá hồ sơ đối với lĩnh vực bảo hiểm xe cơ giới.

- Vận dụng các cơ sở lý thuyết để xây dựng ứng dụng, tiến hành

kiểm thử so sánh đánh giá hiệu suất của ứng dụng.

5. Dự kiến kết quả

5.1. Kết quả về lý thuyết

- Hiểu thêm được phương pháp khai phá dữ liệu.

- Ứng dụng phương pháp khai phá dữ liệu vào dự đoán tính rủi ro

trong khai thác bảo hiểm hiện tại nhằm nâng cao hiệu quả kinh doanh

trong đơn vị.

5.2. Kết quả thực tiễn

- Xây dựng hệ thống hỗ trợ đánh giá rủi ro cho xe cơ giới tại

Công ty Cổ phần Bảo hiểm AAA tại Quảng Ngãi.

4

- Hệ thống giúp đánh giá rủi ro nhanh chóng nhưng vẫn đảm bảo

về mặt tối ưu, có chức năng cơ bản và dễ sử dụng.

6. Ý nghĩa khoa học và thực tiễn của luận văn

Áp dụng lý thuyết về thuật toán rừng ngẫu nhiên mờ vào bài toán

đánh giá rủi ro trong khai thác bảo hiểm cho xe cơ giới.

Về mặt thực tiễn, ứng dụng phân tích dữ liệu kinh doanh của

công ty trong những năm gần đây, qua đó phát hiện các trường hợp bảo

hiểm xe cơ giới có mức độ rủi ro cao.

Giúp dự đoán và hỗ trợ ra các quyết định chính xác, tránh những

tình huống bồi thường theo cảm tính, đồng thời hạn chế các trường hợp

rủi ro và tăng hiệu quả kinh doanh của công ty.

7. Bố cục luận văn

Chương 1: Nghiên cứu tổng quan

Chương 2: Ứng dụng cây quyết định trong công tác đánh giá rủi

ro và bồi thường trong bảo hiểm xe cơ giới

Chương 3: Xây dựng chương trình và thử nghiệm ứng dụng

Cuối cùng là những đánh giá, kết luận và hướng phát triển của đề

tài.

CHƯƠNG 1

NGHIÊN CỨU TỔNG QUAN

1.1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1.1. Sơ lược về khai phá dữ liệu

Trong thời đại ngày nay, cùng với sự phát triển vượt bậc của

công nghệ thông tin, các hệ thống thông tin có thể lưu trữ một khối

lượng lớn dữ liệu về hoạt động hàng ngày của chúng. Từ khối dữ liệu

này, các kỹ thuật trong khai phá dữ liệu và máy học có thể dùng để trích

xuất những thông tin hữu ích mà chúng ta chưa biết. Các tri thức vừa

học được có thể vận dụng để cải thiện hiệu quả hoạt động của hệ thống

thông tin ban đầu.

Như vậy ta có thể khái quát hóa khái niệm khai phá dữ liệu là

5

“quá trình khảo sát và phân tích một lượng lớn các dữ liệu được lưu trữ

trong các cơ sở dữ liệu (CSDL), kho dữ liệu… để từ đó trích xuất ra các thông

tin quan trọng, có giá trị tiềm ẩn bên trong”.

1.1.2. Các kỹ thuật áp dụng trong khai phá dữ liệu

- Học có giám sát (supervised learning)

- Học không có giám sát (unsupervised learning)

- Học bán giám sát (semi-supervised learning)

- Học tăng cường (reinforcement learning)

1.1.3. Các bước xây dựng hệ thống khai phá dữ liệu

1.1.4. Ứng dụng của khai phá dữ liệu

1.1.5. Khó khăn trong khai phá dữ liệu

1.2. PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU

1.2.1. Phân lớp dữ liệu

Phân lớp dữ liệu là gán các mẫu mới vào các lớp với độ chính xác

cao nhất để dự báo cho các bộ dữ liệu (mẫu) mới.

Đầu vào là một tập các mẫu dữ liệu huấn luyện, với một nhãn

phân lớp cho mỗi mẫu dữ liệu. Đầu ra là mô hình dự đoán (bộ phân lớp)

dựa trên tập huấn luyện và những nhãn phân lớp.

1.2.2. Quá trình phân lớp dữ liệu

Quá trình phân lớp dữ liệu gồm hai bước [14]:

- Bước thứ nhất (learning): quá

trình hoc nhằm xây d ̣ ưng m ̣ ôt ̣

mô hình mô tả tâp c ̣ ác lớp dữliêu hay c ̣ ác khá

i niêm đ ̣ inh trư ̣ ớc.

- Bước thứ hai (classification): bước này dùng mô hình đãxây

dưng đư ̣ ơc ̣ ở bước thứ nhất để phân lớp dữliêu ṃ ớ

i.

1.2.3. Các vấn đề liên quan đến phân lớp dữ liệu

1.3. CÂY QUYẾT ĐỊNH

1.3.1. Cây quyết định ID3

1.3.2. Cây quyết định mờ (Fuzzy Decision tree)

1.4. RỪNG NGẪU NHIÊN

1.4.1. Rừng ngẫu nhiên (Random Forest)

Random Forest là một phương pháp học quần thể để phân loại,

hồi quy và các nhiệm vụ khác, hoạt động bằng cách xây dựng vô số các

6

quyết định trong thời gian đào tạo và đầu ra của lớp là mô hình phân lớp

hoặc hồi quy của những cây riêng biệt. Nó như là một nhóm phân loại

và hồi quy cây không cắt tỉa được làm từ các lựa chọn ngẫu nhiên của

các mẫu dữ liệu huấn luyện. Tính năng ngẫu nhiên được chọn trong quá

trình cảm ứng. Dự đoán được thực hiện bằng cách kết hợp (đa số phiếu

để phân loại hoặc trung bình cho hồi quy) dự đoán của quần thể.

Thuật toán Random Forest (RF)

Function RF (input: E, Output: Random Forest)

Begin

1. Tạo cây con S: Lấy ngẫu nhiên có hoàn lại |E| từ mẫu tập huấn

luyện E

2. Xây dựng cây quyết định (Decision Tree – DT) từ tập con S.

3. Lặp lại bước 1 và bước 2 cho tới khi tất cả cây quyết định (DT)

được xây dựng.

End.

1.4.2. Rừng ngẫu nhiên mờ (Fuzzy Random Forest)

Hiện nay có rất nhiều kỹ thuật và thuật toán giải quyết vấn đề

phân lớp. Tuy nhiên, đa số các bài toán phân lớp này được áp dụng trên

dữ liệu đầy đủ và được đo đạc chính xác. Nhưng trên thực tế các dữ liệu

thu thập được hầu như không hoàn hảo, dữ liệu méo mó, dữ liệu không

đầy đủ,... việc xử lý các dạng dữ liệu này rất khó khăn và tốn kém. Hơn

nữa các thông tin này thường được điều chỉnh bởi các chuyên gia. Do

đó, tính xác thực của dữ liệu trở nên mơ hồ. Vậy nên cần thiết xử lý trực

tiếp các dạng thông tin này [3].

Rừng ngẫu nhiên có hai yếu tố ngẫu nhiên, một là bagging được

sử dụng lựa chọn tập dữ liệu được sử dụng như dữ liệu đầu vào cho mỗi

cây; và hai là tập các thuộc tính được coi là ứng cử viên cho mỗi nút

chia. Tính ngẫu nhiên nhằm tăng sự đa dạng của cây và cải thiện chính

xác kết quả dự báo trên các cây trong rừng. Khi rừng ngẫu nhiên được

xây dựng thì 1/3 đối tượng quan sát (exambles) được loại bỏ ra khỏi dữ

liệu huấn luyện của mỗi cây trong rừng. Các đối tượng này được gọi là

7

“out of bag - OOB”. Mỗi cây sẽ có các tập đối tượng OOB khác nhau.

Các đối tượng OOB không sử dụng để xây dựng các cây và được sử dụng

thử nghiệm cho mỗi cây tương ứng.

Chúng tôi phát hiện ra rằng độ chính xác phân lớp có thể được cải

thiện với dữ liệu không chắc chắn khi sử dụng sức mạnh ngẫu nhiên của

phương pháp Fuzzy Random Forest để tăng sự đa dạng của cây và sự linh

hoạt của tập mờ.

Để phân loại, chúng tôi sử dụng phương pháp luận của rừng ngẫu

nhiên và kết hợp xử lý dữ liệu hoàn hảo, sau đó xây dựng rừng ngẫu

nhiên sử dụng cây mờ như phân loại cơ sở. Do đó, chúng tôi cố gắng sử

dụng sự vững mạnh của một quần thể cây, sức mạnh của sự ngẫu nhiên￾Ness để tăng sự đa dạng của các cây trong rừng, sự linh hoạt của logic

mờ và tập mờ để quản lý dữ liệu không hoàn hảo.

Thuật toán Fuzzy Random Forest (FRF) tương tự thuật toán

Random Forest, chỉ khác là thay cây quyết định trong thuật toán RF bởi cây

quyết định mờ.

Function FRF (input: E, Fuzzy Partition; output: Fuzzy

Random Forest)

Begin

1. Tạo tập con S: Lấy ngẫu nhiên có hoàn lại |E| mẫu từ tập huấn

luyện E.

2. Xây dựng cây quyết định mờ (Fuzzy Decision Tree – FDT) từ

tập con S.

3. Lặp lại bước 1 và bước 2 cho tới khi tất cả các cây quyết định

mờ (FDT) được xây dựng.

End.

1.4.3. Mô hình phân lớp với rừng ngẫu nhiên mờ

a. Các ký hiệu

- T là số cây trong rừng ngẫu nhiên mờ (FRF)

- Nt là tổng số nút lá trong cây thứ t với t=1,2,3,…,T. Đặc tính

phân lớp của cây quyết định mờ là một mẫu có thể thuộc về một lá hoặc

nhiều lá khác nhau do sự chồng chéo của tập mờ tạo ra một số phân

8

hoạch mà một thuộc tính cùng tồn tại trên các phân hạch khác nhau.

- I là tổng số lớp của dữ liệu mẫu.

- E mẫu sử dụng huấn luyện hoặc kiểm tra.

-

,

( ) t n  e

là độ phụ thuộc mẫu e của nút lá n trên cây t

- Support là độ hỗ trợ của lớp I trong mỗi lá bằng

( ) i

n

E

Support n

E

với

Ei

là tổng mức độ thuộc của các mẫu e trong lớp I

của nút lá n,

E

n

là tổng mức độ thuộc của đối tượng e trong nút lá n.

- L_FRF là ma trận có kích thước

Nt

T MAX 

, với :

max{ , ,..., } 1 2 MAX N N N N T t

 ,

trong đó mỗi phần tử của ma trận là một véctơ có kích thước I có

support(i) bằng độ hỗ trợ của nút lá n trên cây t. Một số phần tử của ma

trận không chứ thông tin vì tất cả các cây không có lá nào đạt

MAX Nt

.

Tuy nhiên ma trận L_FRF bao gồm tất cả các thông tin được tạo ra bởi

FRF, trong khi các thông tin này được sử dụng để phân lớp các mẫu e.

- T_FRFt,i là ma trận có kích thước (

T 1

) bao gồm độ chắc chắn

(confidence) của mỗi cây t đối với mỗi lớp i.

- D_FRFi là một véc tơ có kích thước I, chỉ độ chắc chắn của FRF

đối với mỗi lớp i

b. Phân lớp trong rừng ngẫu nhiên mờ

Phân lớp mờ được P.Bonissone và các cộng sự đưa ra hai dạng

mô hình được gọi là Mô hình 1 (Strategy 1) và Mô hình 2 (Strategy 2)

như sau:

Hình 1.16. Mô hình phân lớp mờ

9

- Mô hình 1 (kí hiệu Strategy 1)

Thuật toán. FRF Classification (strategy 1)

FRFClassification(Input e, Fuzzy Random Forest; Output c)

Begin

DecisionsOfTrees(in: e, Fuzzy Random Forest; out: T_FRF);

DecisionsOfTrees(in: T_FRF; out: c);

End;

DecisionsOfTrees(in: e, Fuzzy Random Forest; out: T_FRF)

Begin

1) Tạo ma trận L_FRF

2) For each tree t do {For each class i do T_FRt,i=Faggre11(t, i,

L_FRF)}

End;

DecisionsOfTrees(in: T_FRF; out: c)

Begin

1) For each class i do D_FRFi=Faggre12(i, L_FRF)

2) c=argmaxi,i=1...I {D_FRFi}

End.

Trong đó, ma trận L_FRF và hàm tổng hợp thông tin Faggre

được xác định như sau:

- Ma trận L_FRF đươc tạo ra bằng cách quét mẫu e trên các cây t

- Các hàm tổng hợp thông tin Fagge coi như trọng số của cây

trong FRF và xác định như sau:

 

, , ; 1..

1 1

1 if arg max _

1 , , _

1 otherwise

Nt

t n j j j I

n

i L FRF

Fagge t i L FRF 

      

    

2 ,  

1

er (OO ) 1 , _ _

(OO )

T

T

t i

t T

rors B Faggre i T FRF T FRF

size B

 

      

Với

là hàm thuộc được xác định:

 

1 0 min arg

( max arg) min arg max arg

max min

0 max arg

x p m

p m x

x p m x p m

p p

p m x

    

  

     

 

  

10

Trong đó:

1..

er (OO )

max max

(OO )

t

t T

t

rors B

p

size B 

 

    

là tỷ lệ lỗi lớn nhất

trong các cây của rừng,

er (OO )

(OO )

t

t

rors B

size B

     

tỷ lệ lỗi của cây t,

er (OO )t

rors B

số lỗi khi thực hiện phân lớp thực hiện trên cây t sử dụng

dữ liệu kiểm thử OOB, size(OOBt) kích thước của dữ liệu kiểm tra

OOB của cây t. pmin là tỷ lệ lỗi của cây t và

max min

arg

4

p p

m

 .

Các cây trong FRF bao giờ cũng có trọng số lớn hơn 0. Trọng số

thể hiện tỷ lệ lỗi, vì thế cây có tỷ lệ lỗi thấp nhất thì có trọng số là 1.

- Mô hình 2 (kí hiệu Strategy 2)

Thuật toán FRF Classification (Strategy 2)

FRFclassification(in: e, Fuzzy random Forest; out: c) )

Begin)

1. Tạo ma trận L_FRF)

2. For each class i do D_FRFi=Faggre2(I,L_FRF) )

3. c=argmaxi,i=1...I {D_FRFi}

end;

Trong thuật toán này thì ma trận L_FRF được tạo ra thông qua

chạy mẫu e trên cây trong rừng và hàm tổng hợp thông tin Faggre 2 được

xác định bởi công thức sau:

2 , ,

1 1

( ) ( , _ ) _

( )

T Nt

t

t n i

t n t

errors OOB

Faggre i T FRF T FRF

size OOB

 

 

       

(2.4)

Với hàm phụ thuộc

( )

( )

t

t

errors OOB

size OOB

     

được xác định tương tự

thuật toán FRF Classification (strategy 1).

Tải ngay đi em, còn do dự, trời tối mất!