Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
Nội dung xem thử
Mô tả chi tiết
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
PHAN TRỌNG HẢI
ỨNG DỤNG KHAI PHÁ DỮ LIỆU
ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ RỦI
RO TRONG BẢO HIỂM XE CƠ GIỚI
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04
TÓM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN
Đà Nẵng – Năm 2016
Công trình được hoàn thành tại
ĐẠI HỌC ĐÀ NẴNG
Ngƣời hƣớng dẫn khoa học: TS. Nguyễn Trần Quốc Vinh
Phản biện 1: PGS.TS Nguyễn Tấn Khôi
Phản biện 2: TS. Nguyễn Hoàng Hải
Luận văn sẽ được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp
thạc sĩ Kỹ thuật họp tại Đại học Đà Nẵng vào ngày ... tháng ... năm
2016.
* Có thể tìm hiểu luận văn tại:
Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng
1
MỞ ĐẦU
1. Lý do chọn đề tài
Trong những năm gần đây, việc ứng dụng cộng nghệ thông tin
ngày càng rộng khắp. Vấn đề khai phá dữ liệu đã và đang ứng dụng
thành công vào rất nhiều các lĩnh vực khác nhau như: Bảo hiểm, tài
chính, y học, giáo dục và viễn thông v.v.
Mặt khác, cùng với sự phát triển mạnh mẽ của nền kinh tế và
đời sống xã hội, nhu cầu vận chuyển và tham gia giao thông bằng xe
cơ giới ở nước ta không ngừng tăng cao, mà còn đa dạng và phong
phú về chủng loại.
Theo thống kê, dân số tại Quảng Ngãi hiện có 1.200.000 người,
tập trung ở 12 huyện và thành phố. Trong đó có khoản 593.243
phương tiện cơ giới tham gia giao thông và có 20.114 ô tô, 573.129
môtô, xe máy. Theo số liệu của Ủy ban An toàn giao thông tỉnh
Quảng Ngãi, trong năm 2015 có khoản 792 vụ tại nạng giao thông,
làm hỏng 1.467 phương tiện ô tô xe máy các loại, đa số tập trung ở
các vùng đồng bằng.
Trong khi đó, hệ thống hạ tầng giao thông chưa thể đáp ứng tốt
nhu cầu lưu thông của một lượng xe cơ giới lớn như hiện nay. Những
người tham gia giao thông đều hiểu rằng, tai nạn có thể xảy ra bất kỳ
lúc nào, cho bất kỳ ai với những hậu quả khôn lường. Vì vậy, bảo
hiểm xe cơ giới đã ra đời và trở thành một nhu cầu thiết yếu với
những người tham gia điều khiển phương tiện giao thông. Điều này
đã mở ra những cơ hội lớn cho các công ty bảo hiểm xe cơ giới.
Những công ty nào có dịch vụ tốt, sẽ chiếm lĩnh được tỉ lệ khách
2
hàng nhiều hơn.
Trong lĩnh vực kinh doanh này, công tác đánh giá rủi ro xe cơ
giới rất quan trọng và hết sức phức tạp. Quy trình tác nghiệp đòi hỏi
người thẩm định vừa phải có trình độ chuyên môn nghiệp vụ cao, vừa
phải có nhiều kinh nghiệm thực tiễn. Hầu hết các công ty đều chỉ chú
trọng đến vấn đề doanh thu mà ít quan tâm đến công tác đánh giá rủi
ro, đa phần đều thủ công sơ sài và cảm tính. Vì vậy, hiệu quả kinh
doanh thường không như mong muốn.
Mặt khác, vấn đề giải quyết bồi thường khi có tổn thất xảy ra
cần “Nhanh, Đúng, Đủ” sẽ mang lại cho khách hàng niềm tin, cũng
như sự sẻ chia những rủi ro mà họ gặp phải. Vấn đề bồi thường sau
tai nạn mang tính nhạy cảm rất cao và tác động không nhỏ đến tính
hiệu quả của hoạt động kinh doanh bảo hiểm.
Nắm bắt được vấn đề trên cũng như tính cấp thiết của hoạt
động đánh giá rủi ro và bồi thường tổn thất trong bảo hiểm xe cơ
giới, tôi thấy cần phải xây dựng và triển khai hệ thống ứng dụng công
nghệ thông tin nhằm đáp ứng nhu cầu phân tích, xử lý và hỗ trợ đến
mức tối đa cho công tác đánh giá và bồi thường rủi ro trong bảo hiểm
xe cơ giới.
Xuất phát từ những lý do trên được sự đồng ý của TS. Nguyễn
Trần Quốc Vinh, tôi chọn đề tài: “Ứng Dụng Khai Phá Dữ Liệu Để
Xây Dựng Hệ Thống Trợ Giúp Đánh Giá Rủi Ro Trong Bảo Hiểm Xe
Cơ Giới” để làm luận văn thạc sĩ.
2. Mục tiêu nghiên cứu
Nghiên cứu các thuật toán liên quan đến cây quyết định. Phân
3
tích, so sánh, đánh giá và triển khai áp dụng thuật toán C4.5 và
Random Forest.
Trên cơ sở phân tích thực trạng và đề ra giải pháp ứng dụng
công nghệ thông tin. Hướng đến là xây dựng hệ thống trợ giúp đánh
giá rủi ro xe cơ giới, đảm bảo đầy đủ các yêu cầu về mặt chuyên môn
trong lĩnh vực bảo hiểm xe cơ giới.
3. Đối tƣợng và phạm vi nghiên cứu
3.1. Đối tƣợng nghiên cứu
- Quy trình đánh giá rủi ro xe cơ giới.
- Các vấn đề liên quan đến độ rủi ro trong bảo hiểm xe cơ giới.
- Hồ sơ khách hàng tham gia mua bảo hiểm xe cơ giới tại Công
ty Cổ phần bảo hiểm AAA tại Quảng Ngãi.
- Nghiên cứu về phân lớp dữ liệu trong khai phá dữ liệu.
3.2. Phạm vi nghiên cứu
- Kỹ thuật khai phá dữ liệu cây quyết định C4.5 và Random
Forest.
- Số liệu kinh doanh của Công ty Cổ phần Bảo hiểm AAA tại
Quảng Ngãi trong khoảng thời gian 2012, 2013, 2014.
4.Phƣơng pháp nghiên cứu
4.1. Nghiên cứu lý thuyết
- Nghiên cứu tài liệu, ngôn ngữ và các công nghệ có liên quan.
- Khai phá dữ liệu và phân lớp dữ liệu.
- Giải thuật xây dựng cây quyết định.
- Nghiên cứu về Thuật toán C4.5 và Random Forest trong việc
dự đoán và phân loại thông tin.
4
4.2. Nghiên cứu thực nghiệm
- Tiến hành thu thập và tổng hợp các tài liệu liên quan đến quy
trình thẩm định và đánh giá hồ sơ đối với lĩnh vực bảo hiểm xe cơ
giới.
- Vận dụng các cơ sở lý thuyết để xây dựng ứng dụng, tiến
hành kiểm thử so sánh đánh giá hiệu suất của ứng dụng.
5. Dự kiến kết quả
5.1. Kết quả về lý thuyết
Hiểu thêm được phương pháp khai phá dữ liệu.
- Ứng dụng phương pháp khai phá dữ liệu vào dự đoán tính rủi
ro trong khai thác bảo hiểm hiện tại nhằm nâng cao hiệu quả kinh
doanh trong đơn vị.
5.2. Kết quả thực tiễn
Xây dựng hệ thống hỗ trợ đánh giá rủi ro cho xe cơ giới tại
Công ty Cổ phần Bảo hiểm AAA tại Quảng Ngãi.
Hệ thống giúp đánh giá rủi ro nhanh chóng nhưng vẫn đảm
bảo về mặt tối ưu, có chức năng cơ bản và dễ sử dụng.
6. Ý nghĩa khoa học và thực tiễn của luận văn
Áp dụng lý thuyết về khai phá dữ liệu vào bài toán đánh giá rủi
ro trong khai thác bảo hiểm cho xe cơ giới.
Về mặt thực tiễn, ứng dụng có khả năng phân tích dữ liệu kinh
doanh của công ty trong những năm gần đây và qua đó có khả năng
phát hiện ra các trường hợp bảo hiểm xe cơ giới có mức độ rủi ro
cao.
5
Giúp cho việc dự đoán nhằm hỗ trợ ra quyết định một cách
khoa học, tránh được các tình huống bồi thường theo cảm tính, hạn
chế các trường hợp rủi ro và tăng hiệu quả kinh doanh của công ty.
7. Bố cục luận văn
Chương 1: Nghiên cứu tổng quan
Chương 2: Ứng dụng cây quyết định trong công tác đánh giá
rủi ro và bồi thường bảo hiểm xe cơ giới.
Chương 3: Xây dựng và thử nghiệm ứng dụng.
Cuối cùng là những đánh giá, kết luận và hướng phát triển của
đề tài.
6
CHƯƠNG 1
NGHIÊN CỨU TỔNG QUAN
1.1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1.1. Sơ lƣợc về khai phá dữ liệu
Trong thời đại ngày nay, cùng với sự phát triển vượt bật của
công nghệ thông tin, các hệ thống thông tin có thể lưu trữ một khối
lượng lớn dữ liệu về hoạt động hàng ngày của chúng. Từ khối dữ liệu
này, các kỹ thuật trong khai phá dữ liệu (KPDL) và máy học (MH) có
thể dùng để trích xuất những thông tin hữu ích mà chúng ta chưa biết.
Các tri thức vừa học được có thể vận dụng để cải thiện hiệu quả hoạt
động của hệ thống thông tin ban đầu.
Khái niệm khai phá dữ liệu là “quá trình khảo sát và phân tích
một lượng lớn các dữ liệu được lưu trữ trong các CSDL, kho dữ
liệu… để từ đó trích xuất ra các thông tin quan trọng, có giá trị tiềm
ẩn bên trong”.
1.1.2. Các kỹ thuật áp dụng trong khai phá dữ liệu
Học có giám sát: Là quá trình gán nhãn lớp cho các phần tử
trong CSDL dựa trên một tập các ví dụ huấn luyện và các thông tin
về nhãn lớp đã biết.
Học không có giám sát: Là quá trình phân chia một tập dữ liệu
thành các lớp hay cụm dữ liệu tương tự nhau mà chưa biết trước các
thông tin về lớp hay tập các ví dụ huấn luyện.
7
Học nửa giám sát: Là quá trình phân chia một tập dữ liệu thành
các lớp dựa trên một tập nhỏ các ví dụ huấn luyện và các thông tin về
một số nhãn lớp đã biết trước.
1.1.3. Các bƣớc xây dựng hệ thống khai phá dữ liệu
1.1.4. Ứng dụng của khai phá dữ liệu
1.1.5. Khó khăn trong khai phá dữ liệu
1.2. PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU
1.2.1. Phân lớp dữ liệu
Phân lớp dữ liệu là gán các mẫu mới vào các lớp với độ chính
xác cao nhất để dự báo cho các bộ dữ liệu (mẫu) mới.
Đầu vào là một tập các mẫu dữ liệu huấn luyện, với một nhãn
phân lớp cho mỗi mẫu dữ liệu. Đầu ra là mô hình dự đoán (bộ phân
lớp) dựa trên tập huấn luyện và những nhãn phân lớp.
1.2.2. Quá trình phân lớp dữ liệu
Bước thứ nhất (learning): quá trình học nhằm xây dựng một mô hình
mô tả tập các lớp dữ liệu hay các khái niệm định trước.
Bước thứ hai (classification): bước này dùng mô hình đã xây dựng
được ở bước thứ nhất để phân lớp dữ liệu mới.
1.2.3. Các vấn đề liên quan đến phân lớp dữ liệu
1.3. GIỚI THIỆU CÂY QUYẾT ĐỊNH
1.3.1. Giới thiệu chung
1.3.2. Ƣu điểm của cây quyết định
1.3.3. Các luật đƣợc rút ra từ cây quyết định
1.4. THUẬT TOÁN C4.5
1.4.1. Giới thiệu
8
Giải thuật C4.5 biểu diễn các khái niệm ở dạng các cây quyết
định. Biểu diễn này cho phép chúng ta xác định phân loại của một
đối tượng bằng cách kiểm tra các giá trị của nó trên một số thuộc tính
nào đó.
Đầu vào: Một tập hợp các ví dụ. Mỗi ví dụ bao gồm các thuộc
tính mô tả một tình huống, hay một đối tượng nào đó, và một giá trị
phân loại của nó.
Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các ví
dụ trong tập dữ liệu huấn luyện, và hy vọng là phân loại đúng cho cả
các ví dụ chưa gặp trong tương lai.
1.4.2. Giải thuật C4.5 xây dựng cây quyết định từ trên
xuống
1.4.3. Chọn thuộc tính phân loại tốt nhất
1.4.4. Entropy đo tính thuần nhất của tập ví dụ
Khái niệm entropy của một tập S được định nghĩa trong lý
thuyết thông tin là số lượng mong đợi các bit cần thiết để mã hóa
thông tin về lớp của một thành viên rút ra một cách ngẫu nhiên từ tập
S. Trong trường hợp tối ưu, mã có độ dài ngắn nhất. Theo lý thuyết
thông tin, mã có độ dài tối ưu là mã gán –log2p bit cho thông điệp có
xác suất là p.
Trong trường hợp S là tập ví dụ, thì thành viên của S là một ví
dụ, mỗi ví dụ thuộc một lớp hay có một giá trị phân loại.
Entropy có giá trị nằm trong khoảng [0..1].
Entropy(S) = 0: tập ví dụ S chỉ toàn thuộc cùng một loại, hay S
là thuần nhất.