Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
PREMIUM
Số trang
107
Kích thước
3.1 MB
Định dạng
PDF
Lượt xem
1657

Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới

Nội dung xem thử

Mô tả chi tiết

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

PHAN TRỌNG HẢI

ỨNG DỤNG KHAI PHÁ DỮ LIỆU

ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ RỦI

RO TRONG BẢO HIỂM XE CƠ GIỚI

Chuyên ngành: Hệ thống thông tin

Mã số: 60.48.01.04

TÓM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Đà Nẵng – Năm 2016

Công trình được hoàn thành tại

ĐẠI HỌC ĐÀ NẴNG

Ngƣời hƣớng dẫn khoa học: TS. Nguyễn Trần Quốc Vinh

Phản biện 1: PGS.TS Nguyễn Tấn Khôi

Phản biện 2: TS. Nguyễn Hoàng Hải

Luận văn sẽ được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp

thạc sĩ Kỹ thuật họp tại Đại học Đà Nẵng vào ngày ... tháng ... năm

2016.

* Có thể tìm hiểu luận văn tại:

 Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng

1

MỞ ĐẦU

1. Lý do chọn đề tài

Trong những năm gần đây, việc ứng dụng cộng nghệ thông tin

ngày càng rộng khắp. Vấn đề khai phá dữ liệu đã và đang ứng dụng

thành công vào rất nhiều các lĩnh vực khác nhau như: Bảo hiểm, tài

chính, y học, giáo dục và viễn thông v.v.

Mặt khác, cùng với sự phát triển mạnh mẽ của nền kinh tế và

đời sống xã hội, nhu cầu vận chuyển và tham gia giao thông bằng xe

cơ giới ở nước ta không ngừng tăng cao, mà còn đa dạng và phong

phú về chủng loại.

Theo thống kê, dân số tại Quảng Ngãi hiện có 1.200.000 người,

tập trung ở 12 huyện và thành phố. Trong đó có khoản 593.243

phương tiện cơ giới tham gia giao thông và có 20.114 ô tô, 573.129

môtô, xe máy. Theo số liệu của Ủy ban An toàn giao thông tỉnh

Quảng Ngãi, trong năm 2015 có khoản 792 vụ tại nạng giao thông,

làm hỏng 1.467 phương tiện ô tô xe máy các loại, đa số tập trung ở

các vùng đồng bằng.

Trong khi đó, hệ thống hạ tầng giao thông chưa thể đáp ứng tốt

nhu cầu lưu thông của một lượng xe cơ giới lớn như hiện nay. Những

người tham gia giao thông đều hiểu rằng, tai nạn có thể xảy ra bất kỳ

lúc nào, cho bất kỳ ai với những hậu quả khôn lường. Vì vậy, bảo

hiểm xe cơ giới đã ra đời và trở thành một nhu cầu thiết yếu với

những người tham gia điều khiển phương tiện giao thông. Điều này

đã mở ra những cơ hội lớn cho các công ty bảo hiểm xe cơ giới.

Những công ty nào có dịch vụ tốt, sẽ chiếm lĩnh được tỉ lệ khách

2

hàng nhiều hơn.

Trong lĩnh vực kinh doanh này, công tác đánh giá rủi ro xe cơ

giới rất quan trọng và hết sức phức tạp. Quy trình tác nghiệp đòi hỏi

người thẩm định vừa phải có trình độ chuyên môn nghiệp vụ cao, vừa

phải có nhiều kinh nghiệm thực tiễn. Hầu hết các công ty đều chỉ chú

trọng đến vấn đề doanh thu mà ít quan tâm đến công tác đánh giá rủi

ro, đa phần đều thủ công sơ sài và cảm tính. Vì vậy, hiệu quả kinh

doanh thường không như mong muốn.

Mặt khác, vấn đề giải quyết bồi thường khi có tổn thất xảy ra

cần “Nhanh, Đúng, Đủ” sẽ mang lại cho khách hàng niềm tin, cũng

như sự sẻ chia những rủi ro mà họ gặp phải. Vấn đề bồi thường sau

tai nạn mang tính nhạy cảm rất cao và tác động không nhỏ đến tính

hiệu quả của hoạt động kinh doanh bảo hiểm.

Nắm bắt được vấn đề trên cũng như tính cấp thiết của hoạt

động đánh giá rủi ro và bồi thường tổn thất trong bảo hiểm xe cơ

giới, tôi thấy cần phải xây dựng và triển khai hệ thống ứng dụng công

nghệ thông tin nhằm đáp ứng nhu cầu phân tích, xử lý và hỗ trợ đến

mức tối đa cho công tác đánh giá và bồi thường rủi ro trong bảo hiểm

xe cơ giới.

Xuất phát từ những lý do trên được sự đồng ý của TS. Nguyễn

Trần Quốc Vinh, tôi chọn đề tài: “Ứng Dụng Khai Phá Dữ Liệu Để

Xây Dựng Hệ Thống Trợ Giúp Đánh Giá Rủi Ro Trong Bảo Hiểm Xe

Cơ Giới” để làm luận văn thạc sĩ.

2. Mục tiêu nghiên cứu

Nghiên cứu các thuật toán liên quan đến cây quyết định. Phân

3

tích, so sánh, đánh giá và triển khai áp dụng thuật toán C4.5 và

Random Forest.

Trên cơ sở phân tích thực trạng và đề ra giải pháp ứng dụng

công nghệ thông tin. Hướng đến là xây dựng hệ thống trợ giúp đánh

giá rủi ro xe cơ giới, đảm bảo đầy đủ các yêu cầu về mặt chuyên môn

trong lĩnh vực bảo hiểm xe cơ giới.

3. Đối tƣợng và phạm vi nghiên cứu

3.1. Đối tƣợng nghiên cứu

- Quy trình đánh giá rủi ro xe cơ giới.

- Các vấn đề liên quan đến độ rủi ro trong bảo hiểm xe cơ giới.

- Hồ sơ khách hàng tham gia mua bảo hiểm xe cơ giới tại Công

ty Cổ phần bảo hiểm AAA tại Quảng Ngãi.

- Nghiên cứu về phân lớp dữ liệu trong khai phá dữ liệu.

3.2. Phạm vi nghiên cứu

- Kỹ thuật khai phá dữ liệu cây quyết định C4.5 và Random

Forest.

- Số liệu kinh doanh của Công ty Cổ phần Bảo hiểm AAA tại

Quảng Ngãi trong khoảng thời gian 2012, 2013, 2014.

4.Phƣơng pháp nghiên cứu

4.1. Nghiên cứu lý thuyết

- Nghiên cứu tài liệu, ngôn ngữ và các công nghệ có liên quan.

- Khai phá dữ liệu và phân lớp dữ liệu.

- Giải thuật xây dựng cây quyết định.

- Nghiên cứu về Thuật toán C4.5 và Random Forest trong việc

dự đoán và phân loại thông tin.

4

4.2. Nghiên cứu thực nghiệm

- Tiến hành thu thập và tổng hợp các tài liệu liên quan đến quy

trình thẩm định và đánh giá hồ sơ đối với lĩnh vực bảo hiểm xe cơ

giới.

- Vận dụng các cơ sở lý thuyết để xây dựng ứng dụng, tiến

hành kiểm thử so sánh đánh giá hiệu suất của ứng dụng.

5. Dự kiến kết quả

5.1. Kết quả về lý thuyết

Hiểu thêm được phương pháp khai phá dữ liệu.

- Ứng dụng phương pháp khai phá dữ liệu vào dự đoán tính rủi

ro trong khai thác bảo hiểm hiện tại nhằm nâng cao hiệu quả kinh

doanh trong đơn vị.

5.2. Kết quả thực tiễn

Xây dựng hệ thống hỗ trợ đánh giá rủi ro cho xe cơ giới tại

Công ty Cổ phần Bảo hiểm AAA tại Quảng Ngãi.

Hệ thống giúp đánh giá rủi ro nhanh chóng nhưng vẫn đảm

bảo về mặt tối ưu, có chức năng cơ bản và dễ sử dụng.

6. Ý nghĩa khoa học và thực tiễn của luận văn

Áp dụng lý thuyết về khai phá dữ liệu vào bài toán đánh giá rủi

ro trong khai thác bảo hiểm cho xe cơ giới.

Về mặt thực tiễn, ứng dụng có khả năng phân tích dữ liệu kinh

doanh của công ty trong những năm gần đây và qua đó có khả năng

phát hiện ra các trường hợp bảo hiểm xe cơ giới có mức độ rủi ro

cao.

5

Giúp cho việc dự đoán nhằm hỗ trợ ra quyết định một cách

khoa học, tránh được các tình huống bồi thường theo cảm tính, hạn

chế các trường hợp rủi ro và tăng hiệu quả kinh doanh của công ty.

7. Bố cục luận văn

Chương 1: Nghiên cứu tổng quan

Chương 2: Ứng dụng cây quyết định trong công tác đánh giá

rủi ro và bồi thường bảo hiểm xe cơ giới.

Chương 3: Xây dựng và thử nghiệm ứng dụng.

Cuối cùng là những đánh giá, kết luận và hướng phát triển của

đề tài.

6

CHƯƠNG 1

NGHIÊN CỨU TỔNG QUAN

1.1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1.1. Sơ lƣợc về khai phá dữ liệu

Trong thời đại ngày nay, cùng với sự phát triển vượt bật của

công nghệ thông tin, các hệ thống thông tin có thể lưu trữ một khối

lượng lớn dữ liệu về hoạt động hàng ngày của chúng. Từ khối dữ liệu

này, các kỹ thuật trong khai phá dữ liệu (KPDL) và máy học (MH) có

thể dùng để trích xuất những thông tin hữu ích mà chúng ta chưa biết.

Các tri thức vừa học được có thể vận dụng để cải thiện hiệu quả hoạt

động của hệ thống thông tin ban đầu.

Khái niệm khai phá dữ liệu là “quá trình khảo sát và phân tích

một lượng lớn các dữ liệu được lưu trữ trong các CSDL, kho dữ

liệu… để từ đó trích xuất ra các thông tin quan trọng, có giá trị tiềm

ẩn bên trong”.

1.1.2. Các kỹ thuật áp dụng trong khai phá dữ liệu

Học có giám sát: Là quá trình gán nhãn lớp cho các phần tử

trong CSDL dựa trên một tập các ví dụ huấn luyện và các thông tin

về nhãn lớp đã biết.

Học không có giám sát: Là quá trình phân chia một tập dữ liệu

thành các lớp hay cụm dữ liệu tương tự nhau mà chưa biết trước các

thông tin về lớp hay tập các ví dụ huấn luyện.

7

Học nửa giám sát: Là quá trình phân chia một tập dữ liệu thành

các lớp dựa trên một tập nhỏ các ví dụ huấn luyện và các thông tin về

một số nhãn lớp đã biết trước.

1.1.3. Các bƣớc xây dựng hệ thống khai phá dữ liệu

1.1.4. Ứng dụng của khai phá dữ liệu

1.1.5. Khó khăn trong khai phá dữ liệu

1.2. PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU

1.2.1. Phân lớp dữ liệu

Phân lớp dữ liệu là gán các mẫu mới vào các lớp với độ chính

xác cao nhất để dự báo cho các bộ dữ liệu (mẫu) mới.

Đầu vào là một tập các mẫu dữ liệu huấn luyện, với một nhãn

phân lớp cho mỗi mẫu dữ liệu. Đầu ra là mô hình dự đoán (bộ phân

lớp) dựa trên tập huấn luyện và những nhãn phân lớp.

1.2.2. Quá trình phân lớp dữ liệu

Bước thứ nhất (learning): quá trình học nhằm xây dựng một mô hình

mô tả tập các lớp dữ liệu hay các khái niệm định trước.

Bước thứ hai (classification): bước này dùng mô hình đã xây dựng

được ở bước thứ nhất để phân lớp dữ liệu mới.

1.2.3. Các vấn đề liên quan đến phân lớp dữ liệu

1.3. GIỚI THIỆU CÂY QUYẾT ĐỊNH

1.3.1. Giới thiệu chung

1.3.2. Ƣu điểm của cây quyết định

1.3.3. Các luật đƣợc rút ra từ cây quyết định

1.4. THUẬT TOÁN C4.5

1.4.1. Giới thiệu

8

Giải thuật C4.5 biểu diễn các khái niệm ở dạng các cây quyết

định. Biểu diễn này cho phép chúng ta xác định phân loại của một

đối tượng bằng cách kiểm tra các giá trị của nó trên một số thuộc tính

nào đó.

Đầu vào: Một tập hợp các ví dụ. Mỗi ví dụ bao gồm các thuộc

tính mô tả một tình huống, hay một đối tượng nào đó, và một giá trị

phân loại của nó.

Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các ví

dụ trong tập dữ liệu huấn luyện, và hy vọng là phân loại đúng cho cả

các ví dụ chưa gặp trong tương lai.

1.4.2. Giải thuật C4.5 xây dựng cây quyết định từ trên

xuống

1.4.3. Chọn thuộc tính phân loại tốt nhất

1.4.4. Entropy đo tính thuần nhất của tập ví dụ

Khái niệm entropy của một tập S được định nghĩa trong lý

thuyết thông tin là số lượng mong đợi các bit cần thiết để mã hóa

thông tin về lớp của một thành viên rút ra một cách ngẫu nhiên từ tập

S. Trong trường hợp tối ưu, mã có độ dài ngắn nhất. Theo lý thuyết

thông tin, mã có độ dài tối ưu là mã gán –log2p bit cho thông điệp có

xác suất là p.

Trong trường hợp S là tập ví dụ, thì thành viên của S là một ví

dụ, mỗi ví dụ thuộc một lớp hay có một giá trị phân loại.

Entropy có giá trị nằm trong khoảng [0..1].

Entropy(S) = 0: tập ví dụ S chỉ toàn thuộc cùng một loại, hay S

là thuần nhất.

Tải ngay đi em, còn do dự, trời tối mất!