Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Ứng dụng khai phá dữ liệu xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm tàu cá
PREMIUM
Số trang
198
Kích thước
9.5 MB
Định dạng
PDF
Lượt xem
1466

Ứng dụng khai phá dữ liệu xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm tàu cá

Nội dung xem thử

Mô tả chi tiết

ĐẠI HỌC ĐÀ NẴNG

TRƯỜNG ĐẠI HỌC SƯ PHẠM

-------------------------------------

NGUYỄN PHƯƠNG NAM

ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ

XÂY DỰNG HỆ THỐNG TRỢ GIÚP

ĐÁNH GIÁ RỦI RO TRONG BẢO HIỂM TÀU CÁ

Chuyên ngành: Hệ thống thông tin

Mã số: 848.01.04

TÓM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Đà Nẵng - Năm 2019

Công trình được hoàn thành tại

TRƯỜNG ĐẠI HỌC SƯ PHẠM

Người hướng dẫn khoa học: TS. Nguyễn Trần Quốc Vinh

Phản biện 1: TS. Nguyễn Đình Lầu

Phản biện 2: TS. Phạm Văn Trung

Luận văn đã được bảo vệ trước Hội đồng chấm Luận văn tốt

nghiệp thạc sĩ ngành Hệ thống thông tin họp tại trường Đại học

Sư phạm vào ngày 06 tháng 4 năm 2019.

Có thể tìm hiểu luận văn tại:

- Thư viện Trường Đại học Sư phạm – ĐHĐN

- Khoa Công nghệ thông tin, trường Đại học Sư phạm - ĐHĐN

1

MỞ ĐẦU

1. Lý do chọn đề tài

Công nghệ thông tin ngày nay đã được ứng dụng rộng khắp

trong nhiều lĩnh vực của xã hội trong đó khai phá dữ liệu đã và đang

được ứng dụng thành công vào rất nhiều các lĩnh vực khác nhau như:

Bảo hiểm, tài chính, y học, giáo dục và viễn thông v.v.

Nền kinh tế ngày càng phát triển thì nhu cầu bảo hiểm càng lớn

và các loại hình bảo hiểm ngày càng đa dạng và được hoàn thiện. Bảo

hiểm góp phần giữ cho nền kinh tế ổn định, đảm bảo cho cá nhân, gia

đình, tổ chức xã hội và các doanh nghiệp luôn duy trì được quá trình

hoạt động sản xuất, kinh doanh của mình. Có thể nói, khai thác và

đánh bắt cá là một ngành chịu nhiều rủi ro và tổn thất. Ngành này phụ

thuộc nhiều vào điều kiện tự nhiên, môi trường hoạt động… Trong

quá trình khai thác các ngư dân thường xuyên phải đối mặt với vấn

đề rủi ro cho tàu, cho con người, máy móc, ngư lưới cụ. Quảng Ngãi

là một tỉnh duyên hải miền Trung có 192 km bờ biển với hơn 5.444

tàu cá và hàng vạn ngư dân tham gia nghề khai thác và đánh bắt cá

với sản lượng ước đạt trong năm 2016 là 191.400 tấn. Giải pháp phát

triển tàu cá bền vững cũng chính là giải pháp lâu dài để phát triển

kinh tế biển, góp phần bảo vệ an ninh và chủ quyền trên biển. Vì vậy

bảo hiểm tàu cá là một thị trường đầy hứa hẹn. Đặc biệt, với sự ra đời

của ra đời của nghị định 67/2014/NĐ_CP đã tạo điều kiện cho ngư

dân đóng mới tàu thuyền mạnh mẽ theo chiều hướng tích cực và thị

trường bảo hiểm tàu cá cũng không nằm ngoài luồng chuyển biến đó.

Trong lĩnh vực kinh doanh này, công tác đánh giá rủi ro đối

với tàu cá rất quan trọng và hết sức phức tạp. Quy trình tác nghiệp

đòi hỏi người thẩm định vừa phải có trình độ chuyên môn nghiệp vụ

cao, vừa phải có nhiều kinh nghiệm thực tiễn. Hầu hết các công ty

bảo hiểm chỉ chú trọng đến vấn đề doanh thu mà ít quan tâm đến

2

công tác đánh giá rủi ro, đa phần đều đánh giá một cách thủ công sơ

sài và cảm tính.

Vì vậy, hiệu quả kinh doanh thường không như mong muốn.

Mặt khác, vấn đề giải quyết bồi thường khi có tổn thất xảy ra cần

nhanh chóng, đầy đủ và chính xác sẽ mang lại cho khách hàng niềm

tin đối với các công ty bảo hiểm. Vấn đề bồi thường sau tai nạn mang

tính nhạy cảm rất cao và tác động không nhỏ đến tính hiệu quả của

hoạt động kinh doanh bảo hiểm.

Nắm bắt được vấn đề trên cũng như tính cấp thiết của hoạt

động đánh giá rủi ro và bồi thường tổn thất trong bảo hiểm tàu cá, tôi

thấy cần phải xây dựng triển khai hệ thống ứng dụng công nghệ

thông tin nhằm đáp ứng nhu cầu phân tích, xử lý và hỗ trợ đến mức

tối đa cho công tác đánh giá và bồi thường rủi ro trong bảo hiểm tàu

cá.

Xuất phát từ những lý do trên được sự đồng ý của TS. Nguyễn

Trần Quốc Vinh, tôi chọn đề tài: “Ứng dụng khai phá dữ liệu xây

dựng hệ thống trợ giúp đánh Giá rủi ro trong bảo hiểm tàu cá” để làm

luận văn thạc sỹ.

2. Mục tiêu nghiên cứu

2.1. Mục tiêu tổng quát

- Hướng đến là xây dựng hệ thống trợ giúp đánh giá rủi ro cho

tàu cá, đảm bảo đầy đủ các yêu cầu về mặt chuyên môn trong lĩnh

vực bảo hiểm tàu cá và hướng đến nâng cao hiệu quả kinh doanh

trong đơn vị.

2.2. Mục tiêu cụ thể

- Nêu bật những vấn đề hạn chế, đề xuất giải pháp khắc phục

những tồn tại. giúp tăng cường năng lực cạnh trạnh với các đối thủ

trên thị trường bảo hiểm tàu cá.

- Thu thập dữ liệu trong lĩnh vực bảo hiểm tàu cá tại Quảng

3

Ngãi.

- Tìm hiểu các thuật toán phân lớp C4.5 và rừng ngẫu nhiên

(random forest) và so sánh độ chính xác trên tập dữ liệu bảo hiểm tàu

cá thu thập được.

- Phân tích, thiết kế và phát triển hệ thống trợ giúp đánh giá rủi

ro bảo hiểm tàu cá trên cơ sở thuật toán phân lớp được chọn.

3. Đối tượng và phạm vi nghiên cứu

3.1. Đối tượng nghiên cứu

- Quy trình đánh giá rủi ro tàu cá.

- Các vấn đề liên quan đến độ rủi ro trong bảo hiểm tàu cá.

- Hồ sơ khách hàng tham gia mua bảo hiểm tàu cá

- Các kỹ thuật khai phá dữ liệu.

3.2. Phạm vi nghiên cứu

- Kỹ thuật khai phá dữ liệu cây quyết định C4.5, rừng ngẫu

nhiên (Random Forrest).

- Số liệu kinh doanh của Công ty Cổ phần Bảo Minh tại Quảng

Ngãi trong khoảng thời gian 2015, 2016.

4. Phương pháp nghiên cứu

4.1. Nghiên cứu lý thuyết

- Khai phá dữ liệu và phân lớp dữ liệu.

- Giải thuật xây dựng cây quyết định.

- Nghiên cứu về Thuật toán C4.5 và rừng ngẫu nhiên trong

việc dự đoán và phân loại thông tin.

4.2. Nghiên cứu thực nghiệm

- Tiến hành thu thập và tổng hợp các tài liệu liên quan đến quy

trình thẩm định và đánh giá hồ sơ đối với lĩnh vực bảo hiểm tàu cá

- Vận dụng các cơ sở lý thuyết để xây dựng ứng dụng, tiến

hành kiểm thử so sánh đánh giá hiệu suất của ứng dụng.

4

5. Dự kiến kết quả

- Hiểu thêm được phương pháp khai phá dữ liệu và ứng dụng

phương pháp khai phá dữ liệu vào dự đoán tính rủi ro trong khai thác

bảo hiểm nhằm nâng cao hiệu quả kinh doanh trong đơn vị.

- Xây dựng hệ thống hỗ trợ đánh giá rủi ro cho tàu cá tại Công

ty Cổ phần bảo hiểm Bảo Minh tại Quảng Ngãi.

- Hệ thống giúp đánh giá rủi ro nhanh chóng nhưng vẫn đảm

bảo về mặt tối ưu, có chức năng cơ bản và dễ sử dụng.

6. Ý nghĩa khoa học và thực tiễn của luận văn

Áp dụng lý thuyết về khai phá dữ liệu phân vào bài toán đánh

giá rủi ro trong khai thác bảo hiểm cho tàu cá .

Về mặt thực tiễn, ứng dụng có khả năng phân tích dữ liệu kinh

doanh của công ty trong những năm gần đây và qua đó có khả năng

phát hiện ra các trường hợp bảo hiểm tàu cá có mức độ rủi ro cao.

Giúp cho việc dự đoán nhằm hỗ trợ ra quyết định một cách

khoa học, tránh được các tình huống bồi thường theo cảm tính, hạn

chế các trường hợp rủi ro và tăng hiệu quả kinh doanh của công ty.

7. Bố cục luận văn

Chương 1: Nghiên cứu tổng quan

Chương này, tôi trình bày các cơ sở lý thuyết tổng quan về

khai phá dữ liệu, các kỹ thuật khai phá dữ liệu. Giới thiệu về cây

quyết định trong phân lớp dữ liệu. Giải thuật C4.5 và Random Forest.

Chương 2: Ứng dụng cây quyết định trong công tác đánh giá

rủi ro và bồi thường bảo hiểm tàu cá

Chương này, tôi sẽ tìm hiểu và phân tích hiện trạng tại đơn vị,

nêu lên những vấn đề hạn chế và đề xuất giải pháp khắc phục. So

sánh và đánh giá phân lớp giữa 2 thuật toán C4.5 và Random Forest.

Ứng dụng để xây dựng mô hình phân lớp dữ liệu để giải quyết bài

toán đặt ra.

5

Chương 3: Xây dựng và thử nghiệm ứng dụng

Tôi tập trung trình bày chi tiết về mô hình kiến trúc tổng thể

của hệ thống và xây dựng ứng dụng. Tiến hành thử nghiệm trên số

liệu thực tế, sau đó đánh giá kết quả đạt được và khả năng triển khai

ứng dụng trên toàn hệ thống.

Cuối cùng là những đánh giá, kết luận và hướng phát triển của

đề tài.

6

CHƯƠNG 1

NGHIÊN CỨU TỔNG QUAN

1.1. Tổng quan về khai phá dữ liệu

1.1.1. Sơ lược về khai phá dữ liệu

Khai phá dữ liệu là một lĩnh vực khoa học ra đời vào những

năm cuối thập kỷ 80 của thế kỷ XX, nhằm khai thác những thông tin,

tri thức hữu ích, tiềm ẩn trong các cơ sở dữ liệu (CSDL) của các tổ

chức, doanh nghiệp... Cùng với sự phát triển vượt bật của công nghệ

thông tin, các hệ thống thông tin có thể lưu trữ một khối lượng lớn dữ

liệu về hoạt động hàng ngày của chúng. Từ khối dữ liệu này, các kỹ

thuật trong khai phá dữ liệu (KPDL) và máy học (MH) có thể dùng

để trích xuất những thông tin hữu ích mà chúng ta chưa biết. Các tri

thức vừa học được có thể vận dụng để cải thiện hiệu quả hoạt động

của hệ thống thông tin ban đầu.

Khái niệm khai phá dữ liệu là “quá trình khảo sát và phân tích

một lượng lớn các dữ liệu được lưu trữ trong các CSDL, kho dữ

liệu… để từ đó trích xuất ra các thông tin quan trọng, có giá trị tiềm

ẩn bên trong”.

1.1.2. Các kỹ thuật áp dụng trong khai phá dữ liệu

Học có giám sát: Là quá trình gán nhãn lớp cho các phần tử

trong CSDL dựa trên một tập các ví dụ huấn luyện và các thông tin

về nhãn lớp đã biết.

Học không có giám sát: Là quá trình phân chia một tập dữ liệu

thành các lớp hay cụm dữ liệu tương tự nhau mà chưa biết trước các

thông tin về lớp hay tập các ví dụ huấn luyện.

Học nửa giám sát: Là quá trình phân chia một tập dữ liệu thành

các lớp dựa trên một tập nhỏ các ví dụ huấn luyện và các thông tin về

một số nhãn lớp đã biết trước.

1.1.3. Các bước xây dựng hệ thống khai phá dữ liệu

7

1.1.4. Ứng dụng của khai phá dữ liệu

1.1.5. Khó khăn trong khai phá dữ liệu

1.2. Phân lớp trong khai phá dữ liệu

1.2.1. Phân lớp dữ liệu

Phân lớp dữ liệu là gán các mẫu mới vào các lớp với độ chính

xác cao nhất để dự báo cho các bộ dữ liệu (mẫu) mới.

Đầu vào là một tập các mẫu dữ liệu huấn luyện, với một nhãn

phân lớp cho mỗi mẫu dữ liệu. Đầu ra là mô hình dự đoán (bộ phân

lớp) dựa trên tập huấn luyện và những nhãn phân lớp.

1.2.2. Quá trình phân lớp dữ liệu

Bước thứ nhất (learning): quá trình học nhằm xây dựng một

mô hình mô tả tập các lớp dữ liệu hay các khái niệm định trước.

Bước thứ hai (classi ication): bước này dùng mô hình đã xây

dựng được ở bước thứ nhất để phân lớp dữ liệu mới.

1.2.3. Các vấn đề liên quan đến phân lớp dữ liệu

1.3. Giới thiệu cây quyết định

1.3.1. Giới thiệu chung

1.3.2. Ưu điểm của cây quyết định

1.3.3. Các luật được rút ra từ cây quyết định

1.4. Thuật toán C4.5

1.4.1. Giới thiệu

Giải thuật C4.5 biểu diễn các khái niệm ở dạng các cây quyết

định. Biểu diễn này cho phép chúng ta xác định phân loại của một đối

tượng bằng cách kiểm tra các giá trị của nó trên một số thuộc tính nào

đó.

Đầu vào: Một tập hợp các ví dụ. Mỗi ví dụ bao gồm các thuộc

tính mô tả một tình huống, hay một đối tượng nào đó, và một giá trị

phân loại của nó.

Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các ví

8

dụ trong tập dữ liệu huấn luyện, và hy vọng là phân loại đúng cho cả

các ví dụ chưa gặp trong tương lai.

1.4.2. Giải thuật C4.5 xây dựng cây quyết định từ trên xuống

1.4.3. Chọn thuộc tính phân loại tốt nhất

1.4.4. Entropy đo tính thuần nhất của tập ví dụ

Khái niệm entropy của một tập S được định nghĩa trong lý

thuyết thông tin là số lượng mong đợi các bit cần thiết để mã hóa

thông tin về lớp của một thành viên rút ra một cách ngẫu nhiên từ tập

S. Trong trường hợp tối ưu, mã có độ dài ngắn nhất. Theo lý thuyết

thông tin, mã có độ dài tối ưu là mã gán –log2p bit cho thông điệp có

xác suất là p.

Trong trường hợp S là tập ví dụ, thì thành viên của S là một ví

dụ, mỗi ví dụ thuộc một lớp hay có một giá trị phân loại.

Entropy có giá trị nằm trong khoảng [0..1].

Entropy(S) = 0: tập ví dụ S chỉ toàn thuộc cùng một loại, hay S

là thuần nhất.

Entropy(S) = 1: tập ví dụ S có các ví dụ thuộc các loại là bằng

nhau.

0 < Entropy(S) < 1: tập ví dụ S có số lượng ví dụ thuộc các loại

khác nhau là không bằng nhau.

Tập S là tập dữ liệu huấn luyện, trong đó thuộc tính phân loại

có hai giá trị, giả sử là âm (-) và dương (+). Trong đó:

p+ là phần các ví dụ dương trong tập S.

p_ là phần các ví dụ âm trong tập S.

Khi đó, entropy đo độ pha trộn của tập S theo công thức sau:

Entropy(S) = -p+ log2 p+ - p￾log2 p￾Công thức Entropy tổng quát là:

2 i

c

i 1

Entropy(S)  pi

log p

 

9

Entropy là số đo độ pha trộn của một tập ví dụ, bây giờ chúng

ta sẽ định nghĩa một phép đo hiệu suất phân loại các ví dụ của một

thuộc tính. Phép đo này gọi là lượng thông tin thu được (hay độ lợi

thông tin), nó đơn giản là lượng giảm entropy mong đợi gây ra bởi

việc phân chia các ví dụ theo thuộc tính này.

Một cách chính xác hơn, Gain(S, A) của thuộc tính A, trên tập

S, được định nghĩa như sau:

Giá trị Value (A) là tập các giá trị có thể cho thuộc tính A, và

Sv là tập con của S mà A nhận giá trị v.

1.4.5. Tỷ suất lợi ích Gain Ratio

Thuật toán C4.5, một cải tiến của ID3, mở rộng cách

tính Information Gain thành Gain Ratio để cố gắng khắc phục sự

thiên lệch.

Gain Ratio được xác định bởi công thức sau:

Trong đó, SplitIn ormation(S, A) chính là thông tin do phân

tách của A trên cơ sở giá trị của thuộc tính phân loại S. Công thức

tính như sau:

1.4.6. Chuyển cây về dạng luật

1.5. Random Forest

1.5.1. Cơ sở và định nghĩa

Random Forest là một phương pháp học quần thể để phân loại,

Entropy(S )

S

S

Gain(S, A) Entropy(S) V

V Value(A)

V 

 

SplitInformation(S, A)

Gain(S, A) GainRatio( S,A) 

| S|

S

log

| S|

S

SplitInformation(S, A) i

2

c

i 1

i 

 

10

hồi quy và các nhiệm vụ khác, hoạt động bằng cách xây dựng vô số

các cây quyết định trong thời gian đào tạo và đầu ra của lớp là mô

hình phân lớp hoặc hồi quy của những cây riêng biệt. Nó như là một

nhóm phân loại và hồi quy cây không cắt tỉa được làm từ các lựa

chọn ngẫu nhiên của các mẫu dữ liệu huấn luyện. Tính năng ngẫu

nhiên được chọn trong quá trình cảm ứng. Dự đoán được thực hiện

bằng cách kết hợp (đa số phiếu để phân loại hoặc trung bình cho hồi

quy) dự đoán của quần thể.

1.5.2. Tóm tắt giải thuật

Đầu vào: là tập dữ liệu đào tạo.

Đầu ra: là mô hình Random Forest, Random Forest là tập hợp

nhiều cây quyết định n tree.

Với mỗi Cây n tree được xây dựng bằng các sử dụng thuật toán

sau:

Với N là số lượng các trường hợp của dữ liệu đào tạo, M là số

lượng các biến trong việc phân loại.

Lấy m là số các biến đầu vào được sử dụng để xác định việc

phân chia tại 1 Nút của cây, m < M.

Chọn 1 tập huấn luyện cho cây bằng cách chọn n ngẫu nhiên

với sự thay thế từ tất cả các trường hợp đào tạo có sẵn N. Sử dụng

các phần còn lại để ước lượng các lỗi của cây, bằng cách dự đoán các

lớp của chúng.

Với mỗi nút của cây, chọn ngẫu nhiên m là cơ sở phân chia tại

nút đó (độc lập với mỗi nút). Tính chia tốt nhất dựa trên các biến m

trong tập huấn luyện n.

Mỗi cây được trồng hoàn toàn và không tỉa (có thể được sử

dụng trong vệ xây dựng một bộ phân loại như các cây bình thường).

Đối với mỗi dự đoán mới được đưa vào. Nó được gán nhãn của

mẫu đạo tạo trong các nút cuối để kết thúc. Thủ tục sẽ được lập lại

11

qua tất cả các cây Ntree, và số phiếu bình chọn (với phân lớp) hay

trung bình (với hồi quy) của các cây Ntree là dự đoán của rừng ngẫu

nhiên.

1.5.3. Mô hình phân lớp với Random Forest

Hình 1.1. Mô hình phân lớp với Random Forest

1.5.4. Tạo ra n tập dữ liệu huấn luyện bằng cách sử dụng

Bootstrap

1.5.5. y dựng c y ngẫu nhiên

1.5.6. Tạo cây ngẫu nhiên

1.5.7. Đặc điểm của Random Forest

12

CHƯƠNG 2

ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG CÔNG TÁC ĐÁNH

GIÁ RỦI RO VÀ BỒI THƯỜNG BẢO HIỂM TÀU CÁ

2.1. Khái quát về thị trường bảo hiểm tàu cá

2.2. Đánh giá rủi ro tàu cá

2.2.1. Khái niệm rủi ro

2.2.2. Khái niệm về đánh giá rủi ro

2.2.3. Phạm vi bảo hiểm

2.2.4. Quy trình đánh giá rủi ro trong bảo hiểm tàu cá

2.2.5. Các yếu tố ảnh hưởng đến rủi ro trong bảo hiểm tàu cá

2.3. Phân tích hiện trạng

2.3.1. Chỉ số trong lĩnh vực kinh doanh bảo hiểm tàu cá

2.3.2. Giải pháp xây dựng hệ thống trợ giúp đánh giá rủi ro

trong bảo hiểm tàu cá

2.4. So sánh kết quả phân lớp giữa 2 thuật toán C4.5 và

Random Forest

2.4.1. Ứng dụng thuật toán C4.5

2.4.2. Ứng dụng Random Forresst

2.4.2.1. Phân tích dữ liệu

Có rất nhiều yếu tố ảnh hưởng đến tỉ lệ rủi ro trong bảo hiểm

tàu cá. Tuy nhiên ở đây, chúng ta chú trọng phân tích các tập thuộc

tính với những yếu tố chính trong bảng dữ liệu như sau:

Bảng 2.3. Bảng dữ liệu mẫu của 10 khách hàng

Các thuộc tính

Thuộc

tính

phân

loại

TT

Mục

Đích

Thời

gian

Kinh

nghiệm

Làm

nước

Số tiền

bồi

Khu

vực để

Phạm

vi

Rủi ro

13

sử

dụng

sử

dụng

lái tàu thường tàu hoạt

đông

1 Giả

cào

6 3 Có 10 Cầu

cảng

Gần

bờ

THẤP

2 Câu 8 7 Không 30 Không Gần

bờ

TB

3 Giả

cào

14 6 Không 50 Không Gần

bờ

CAO

4 Lặn 11 6 Có 10 Cầu

cảng

Xa

bờ

TB

5 Giả

cào

12 11 Có 20 Cầu

cảng

Gần

bờ

TB

6 Giả

cào

12 12 Không 50 Không Xa

bờ

CAO

7 Lặn 7 2 Có 10 Cầu

cảng

Gần

bờ

THẤP

8 Câu 6 4 Không 40 Không Xa

bờ

TB

9 Giả

cào

14 7 Không 50 Không Xa

bờ

TB

10 Giả

cào

9 4 Không 50 Cầu

cảng

Gần

bờ

CAO

Trong đó:

Thuộc tính Mục đích sử dụng là loại thộc tính Nominal có

giá trị [giả cào, lặn, câu]

+ Giả cào: Là tàu sử dụng lưới để đánh bắt cá

+ Lặn: Là tàu sử dụng con người lặn để đánh bắt cá…

+ Câu: Là tàu sử dụng lưỡi câu để đánh bắt cá …

Tải ngay đi em, còn do dự, trời tối mất!