Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng vietinbank chi nhánh kon tum
PREMIUM
Số trang
133
Kích thước
8.9 MB
Định dạng
PDF
Lượt xem
1705

Nghiên cứu cây quyết định và ứng dụng để phân loại khách hàng vay vốn tại ngân hàng vietinbank chi nhánh kon tum

Nội dung xem thử

Mô tả chi tiết

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

PHẠM ĐÌNH BÔN

NGHIÊN CỨU CÂY QUYẾT ĐỊNH

VÀ ỨNG DỤNG ĐỂ PHÂN LOẠI

KHÁCH HÀNG VAY VỐN TẠI NGÂN HÀNG

VIETINBANK CHI NHÁNH KON TUM

Chuyên ngành: Hệ Thống Thông Tin

Mã số: 60.48.01.04

TÓM TẮT

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Đà Nẵng - Năm 2017

Luận văn đƣợc hoàn thành tại

Đại học Đà Nẵng

Ngƣời hƣớng dẫn khoa học: TS. PHẠM ANH PHƢƠNG

Phản biện 1: TS. Nguyễn Trần Quốc Vinh

Phản biện 2: TS. Nguyễn Quang Thanh

Luận văn đã đƣợc bảo vệ tại hội đồng chấm luận văn thạc

sĩ Hệ thống thông tin họp tại Đại học Đà Nẵng vào ngày 07

tháng 01 năm 2017.

Có thể tìm hiểu luận văn tại:

Thƣ viện trƣờng Đại học Sƣ phạm Đại học Đà Nẵng

Trung tâm Thông tin học liệu Đại học Đà Nẵng.

1

MỞ ĐẦU

1. Tính cấp thiết của đề tài

Trong gần hai thập kỷ qua, các hệ thống cơ sở dữ liệu đã đem

lại những lợi ích vô cùng to lớn cho nhân loại. Cùng với sự phát triển

của Công nghệ Thông tin và ứng dụng của nó trong đời sống - kinh

tế - xã hội, lƣợng dữ liệu thu thập đƣợc ngày càng nhiều theo thời

gian, làm xuất hiện ngày càng nhiều các hệ thống cơ sở dữ liệu có

kích thƣớc lớn. Ngƣời ta lƣu trữ những dữ liệu này vì cho rằng nó ẩn

chứa những giá trị nhất định nào đó. Tuy nhiên theo thống kê thi chỉ

có một lƣợng nhỏ của những dữ liệu này (khoảng dƣới10%) là luôn

đƣợc phân tích, số còn lại họ không biết sẽ phải làm gì và có thể làm

gì với những dữ liệu này, nhƣng họ vẫn tiếp tục thu thập và lƣu trữ vì

hy vọng những dữ liệu này sẽ cung cấp cho họ những thông tin quý

giá một cách nhanh chóng để đƣa ra những quyết định kịp thời vào

một lúc nào đó. Chính vì vậy, các phƣơng pháp quản trị và khai thác

cơ sở dữ liệu truyền thống ngày càng không đáp ứng đƣợc thực tế đã

làm phát triển một khuynh hƣớng kỹ thuật mới đó là Kỹ thuật phát

hiện tri thức và khai phá dữ liệu (KDD - Knowledge Discovery and

Data Mining).

Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang

đƣợc nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau trên thế

giới, tại Việt Nam kỹ thuật này còn tƣơng đối mới mẻ tuy nhiên cũng

đang đƣợc nghiên cứu và bắt đầu đƣa vào một số ứng dụng thực tế.

Vì vậy, hiện nay ở nƣớc ta vấn đề phát hiện tri thức và khai phá dữ

liệu đang thu hút đƣợc sự quan tâm của nhiều ngƣời và nhiều công ty

phát triển ứng dụng Công nghệ Thông tin. Đƣợc đánh giá sẽ tạo ra

cuộc cách mạng trong thế kỷ 21, khai phá dữ liệu sẽ ngày càng đƣợc

ứng dụng phổ biến trong các lĩnh vực kinh tế, xã hội: ngân hàng,

truyền thông, quảng cáo…

2

Có nhiều phƣơng pháp phân lớp đƣợc đề xuất, tuy nhiên

không có phƣơng pháp tiếp cận phân loại nào là tối ƣu và chính xác

hơn hẳn những phƣơng pháp khác. Dù sao với mỗi phƣơng pháp có

một lợi thế và bất lợi riêng khi sử dụng. Một trong những công cụ

khai phá tri thức hiệu quả hiện nay là sử dụng cây quyết định để tìm

ra các luật phân lớp. Với mong muốn nghiên cứu về việc ứng dụng

cây quyết định để phân loại khách hàng của Ngân hàng thƣơng mại,

tôi đã chọn đề tài “Nghiên cứu cây quyết định và ứng dụng để

phân loại khách hàng vay vốn tại ngân hàng Vietinbank chi

nhánh Kon Tum”.

2. Mục tiêu nghiên cứu

- Nghiên cứu các thuật toán xây dựng cây quyết định ID3.

- Áp dụng mô hình cây quyết định (ID3: Decision Tree) vào

việc phân loại khách hàng vay vốn tại ngân hàng Vietinbank

chi nhánh Kon Tum.

3. Đối tƣợng và phạm vi nghiên cứu

 Đối tượng nghiên cứu

- Bài toán phân lớp dữ liệu trong khai phá dữ liệu;

- Cây quyết định;

 Phạm vi nghiên cứu

- Nghiên cứu về thuật toán ID3;

- Phân lớp dữ liệu khách hàng, cụ thể: khách hàng vay vốn tại

ngân hàng Vietinbank chi nhánh Kon Tum.

4. Phƣơng pháp nghiên cứu

- Đọc hiểu tài liệu.

- Cài đặt ứng dụng chạy trên hệ điều hành Window

5. Cấu trúc luận văn

Báo cáo luận văn gồm các phần chính nhƣ sau:

MỞ ĐẦU

3

CHƢƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

CHƢƠNG 2. CÂY QUYẾT ĐỊNH TRONG KHAI PHÁ DỮ LIỆU

CHƢƠNG 3. ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG PHÂN

LOẠI KHÁCH HÀNG VAY VỐN TẠI NGÂN HÀNG

VIETINBANK CHI NHÁNH KON TUM

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN.

CHƯƠNG 1

TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

Chƣơng này trình bày sơ lƣợc về khai phá dữ liệu, ứng dụng

của khai phá dữ liệu, các phƣơng pháp khai phá dữ liệu thông dụng

và ứng dụng của khai phá dữ liệu trong lĩnh vực tài chính ngân hàng.

1.1. GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU

1.1.1. Khám phá tri thức

Quá trình khám phá dữ liệu gồm các bƣớc cơ bản sau đây

[1][2][9]:

Bƣớc 1: Xác định vấn đề và lựa chọn nguồn dữ liệu (Problem

Understanding anh Data Understanding)

Bƣớc 2: Chuẩn bị dữ liệu (Data preparation)

Bƣớc 3: Khai phá dữ liệu (Data Mining)

Bƣớc 4: Đánh giá mẫu (Partern Evalution)

Bƣớc 5: Biểu diễn tri thức và triển khai (Knowlegde

presentation and Deployment)

Tóm lại: KDD là một quá trình kết xuất ra tri thức từ kho dữ

liệu mà trong đó khai phá dữ liệu là công đoạn quan trọng nhất [2],

[3],[8].

4

Hình 1.1: Quá trình phát hiện tri thức trong CSDL

1.1.2. Khai phá dữ liệu

Khai phá dữ liệu đƣợc dùng để mô tả quá trình phát hiện ra tri

thức trong CSDL. Quá trình khai phá dữ liệu bao gồm các giai đoạn

[1][3]:

Giai đoạn 1: Gom dữ liệu

Giai đoạn 2: Trích lọc dữ liệu

Giai đoạn 3: Làm sạch, tiền xử lý và chuẩn bị trước dữ

Giai đoạn 4: Chuyển đổi dữ liệu

Giai đoạn 5: Phát hiện và trích mẫu dữ

Giai đoạn 6: Đánh giá kết quả mẫu

Quá khai phá dữ liệu đƣợc mô hình hóa một cách tổng quát

nhƣ hình vẽ dƣới đây [2][7]:

Hình 1.2: Kiến trúc điển hình của hệ thống khai phá dữ liệu

5

1.2. ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU

Data Mining tuy là một hƣớng tiếp cận mới nhƣng thu hút đƣợc

rất nhiều sự quan tâm của các nhà nghiên cứu và phát triển nhờ vào

những ứng dụng thực tiễn của nó. Sau đây là một số lĩnh vực mà

Data mining đang đƣợc ứng dụng rộng rãi:

 Phân tích dữ liệu tài chính (Financial Data Analysis)

 Công nghiệp bán lẻ (Retail Industry)

 Công nghiệp viễn thông (Telecommunication Industry)

 Phân tích dữ liệu sinh học (Biological Data Analysis)

 Phát hiện xâm nhập (Intrusion Detection)

 Một số ứng dụng trong khoa học (Scientific Applications)

1.3. CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU THÔNG

DỤNG

1.3.1. Phân lớp (Classification)

Ngày nay phân lớp dữ liệu (classification) là một trong những

hƣớng nghiên cứu chính của khai phá dữ liệu. Thực tế đặt ra nhu

cầu là từ một cơ sở dữ liệu với nhiều thông tin ẩn con ngƣời có thể

trích rút ra các quyết định nghiệp vụ thông minh. Phân lớp và dự

đoán là hai dạng của phân tích dữ liệu nhằm trích rút ra một mô hình

mô tả các lớp dữ liệu quan trọng hay dự đoán xu hƣớng dữ liệu

tƣơng lai. Phân lớp dự đoán giá trị của những nhãn xác định

(categorical label) hay những giá trị rời rạc (discrete value), có nghĩa

là phân lớp thao tác với những đối tƣợng dữ liệu mà có bộ giá trị là

biết trƣớc. Trong khi đó, dự đoán lại xây dựng mô hình với các hàm

nhận giá trị liên tục.

Quá trình phân lớp dữ liệu gồm hai bƣớc [4][5]:

Bƣớc thứ nhất (Learning)

Quá trình học nhằm xây dựng một mô hình mô tả một tập các

lớp dữ liệu hay các khái niệm định trƣớc. Đầu vào của quá trình này

6

là một tập dữ liệu có cấu trúc đƣợc mô tả bằng các thuộc tính và

đƣợc tạo ra từ tập các bộ giá trị của các thuộc tính đó. Mỗi bộ giá trị

đƣợc gọi chung là một phần tử dữ liệu (data tuple), có thể là các mẫu

(sample), ví dụ (example), đối tƣợng (object), bản ghi (record) hay

trƣờng hợp (case). Luận văn sử dụng các thuật ngữ này với nghĩa

tƣơng đƣơng. Trong tập dữ liệu này, mỗi phần tử dữ liệu đƣợc giả sử

thuộc về một lớp định trƣớc, lớp ở đây là giá trị của một thuộc tính

đƣợc chọn làm thuộc tính gán nhãn lớp hay thuộc tính phân lớp

(class label attribute). Đầu ra của bƣớc này thƣờng là các quy tắc

phân lớp dƣới dạng luật dạng if-then, cây quyết định, công thức

logic, hay mạng nơron. Quá trình này đƣợc mô tả nhƣ trong hình 1.3

Hình 1.3 : Quá trình phân lớp dữ liệu - (a) Bƣớc xây dựng mô hình

phân lớp

Bƣớc thứ hai (Classification)

Bƣớc thứ hai dùng mô hình đã xây dựng ở bƣớc trƣớc để phân

lớp dữ liệu mới. Trƣớc tiên độ chính xác mang tính chất dự đoán của

mô hình phân lớp vừa tạo ra đƣợc ƣớc lƣợng. Holdout là một kỹ

thuật đơn giản để ƣớc lƣợng độ chính xác đó. Kỹ thuật này sử dụng

một tập dữ liệu kiểm tra với các mẫu đã đƣợc gán nhãn lớp. Các mẫu

này đƣợc chọn ngẫu nhiên và độc lập với các mẫu trong tập dữ liệu

đào tạo. Độ chính xác của mô hình trên tập dữ liệu kiểm tra đã đƣa là

tỉ lệ phần trăm các các mẫu trong tập dữ liệu kiểm tra đƣợc mô hình

7

phân lớp đúng (so với thực tế).

Hình 1.4: Quá trình phân lớp dữ liệu - (b1)Ƣớc lƣợng độ chính xác

của mô hình

Hình 1.5: Quá trình phân lớp dữ liệu - (b2) Phân lớp dữ liệu mới

Có thể liệt kê ra đây các kỹ thuật phân lớp đã đƣợc sử dụng trong

những năm qua:

 Phân lớp cây quyết định (Decision tree classification)

 Bộ phân lớp Bayesian (Bayesian classifier)

 Mô hình phân lớp K-hàng xóm gần nhất (K-nearest neighbor

classifier)

 Mạng nơron

 Phân tích thống kê

 Các thuật toán di truyền

8

 Phƣơng pháp tập thô (Rough set Approach)

1.3.2. Phân cụm (Clustering)

Phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu, nó

thuộc lớp các phƣơng pháp Unsupervised Learning trong Machine

Learning. Có rất nhiều định nghĩa khác nhau về kỹ thuật này, nhƣng

về bản chất ta có thể hiểu phân cụm là các qui trình tìm cách nhóm

các đối tƣợng đã cho vào các cụm (clusters), sao cho các đối tƣợng

trong cùng 1 cụm tƣơng tự (similar) nhau và các đối tƣợng khác cụm

thì không tƣơng tự (Dissimilar) nhau.

Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm

của dữ liệu.

1.3.3. Luật kết hợp (Association Rules)

Khai phá luật kết hợp đƣợc thực hiện qua 2 bƣớc:

 Bƣớc 1 : Tìm tất cả các tập mục phổ biến, một văn bản phổ

biến đƣợc xác định qua độ hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu.

 Bƣớc 2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến,

các luật phải thỏa mãn độ hỗ trợ cực tiểu và độ tin cậy cực tiểu.

1.4. ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG LĨNH VỰC

NGÂN HÀNG

Ngành công nghiệp ngân hàng trên toàn thế giới đã trải qua

những thay đổi to lớn trong cách thức kinh doanh. Với việc thực hiện

các nhiệm vụ kinh doanh đặc thù của mình trong thời gian gần đây,

các ngân hàng đã có sự thay đổi lớn đó là chấp nhận và áp dụng công

nghệ thông vào việc kinh doanh của mình. Nhƣ một kết quả hiển

nhiên, việc thực hiện giao dịch đã trở nên dễ dàng và đồng thời khối

lƣợng dữ liệu từ các giao dịch này đã tăng lên đáng kể. Nó là vƣợt

quá khả năng của con ngƣời để phân tích số lƣợng dữ liệu thô khổng

lồ này và chuyển đổi nó thành tri thức hữu ích cho các tổ chức.

1.4.1. Marketing

9

Một trong những lĩnh vực đƣợc ứng dụng rộng rãi nhất cho

ngành ngân hàng của kỹ thuật khai phá dữ liệu đó là lĩnh vực quảng bá

sản phẩm. Bộ phận tiếp thị và bán hàng của các Ngân hàng có thể sử

dụng kỹ thuật khai phá dữ liệu để phân tích cơ sở dữ liệu về khách hàng.

1.4.2. Quản lý rủi ro

Khai phá dữ liệu đƣợc sử dụng rộng rãi để quản lý rủi ro trong

ngành công nghiệp ngân hàng.

1.4.1. Phát hiện gian lận

Một lĩnh vực khác trong khai phá dữ liệu có thể đƣợc sử dụng

trong ngành công nghiệp ngân hàng là việc phát hiện gian lận.

1.4.1. Quản trị quan hệ khách hàng

Tìm kiếm khách hàng, tăng giá trị của khách hàng và duy trì

khách hàng.

1.5. KẾT LUẬN

Trong chƣơng này, luận văn đã giới thiệu tổng quan về khai

phá dữ liệu, ứng dụng của khai phá dữ liệu, một số phƣơng pháp khai

phá dữ liệu thông dụng. Trong chƣơng sau, luận văn sẽ trình bày nội

dung lý thuyết và ứng dụng của thuật toán khai phá dữ liệu thông

dụng : Thuật toán cây quyết định ID3. Đó là một thuật toán đƣợc ứng

dụng để khai phá dữ liệu trong các lĩnh vực khác nhau, đặc biệt trong

lĩnh vực ngân hàng.

CHƯƠNG 2

CÂY QUYẾT ĐỊNH TRONG KHAI PHÁ DỮ LIỆU

2.1. TỔNG QUAN VỀ PHƯƠNG PHÁP HỌC THEO CÂY

QUYẾT ĐỊNH

2.1.1. Giới thiệu chung

Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình

dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về

10

một sự vật/hiện tƣợng tới các kết luận về giá trị mục tiêu của sự

vật/hiện tƣợng. Mỗi một nút trong (internal node) tƣơng ứng với một

biến; đƣờng nối giữa nó với nút con của nó thể hiện một giá trị cụ thể

cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục

tiêu, cho trƣớc các giá trị của các biến đƣợc biểu diễn bởi đƣờng đi

từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây quyết định

đƣợc gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn

gọn là cây quyết định[6].

2.1.2. Các kiểu cây quyết định

Cây quyết định còn có hai tên khác:

 Cây hồi quy (Regression tree): ƣớc lƣợng các hàm giá có giá

trị là số thực thay vì đƣợc sử dụng cho các nhiệm vụ phân loại. (ví

dụ: ƣớc tính giá một ngôi nhà hoặc khoảng thời gian một bệnh nhân

nằm viện)

 Cây phân loại (Classification tree): nếu y là một biến phân

loại nhƣ: giới tính (nam hay nữ), kết quả của một trận đấu (thắng hay

thua).

2.1.3. Ƣu điểm cây quyết định

So với các phƣơng pháp khai phá dữ liệu khác, cây quyết định

là phƣơng pháp có một số ƣu điểm:

 Cây quyết định dễ hiểu. Ngƣời ta có thể hiểu mô hình cây

quyết định sau khi đƣợc giải thích ngắn.

 Việc chuẩn bị dữ liệu cho một cây quyết định là cơ bản hoặc

không cần thiết. Các kỹ thuật khác thƣờng đòi hỏi chuẩn hóa dữ liệu,

cần tạo các biến phụ (dummy variable) và loại bỏ các giá trị rỗng.

 Cây quyết định có thể xử lý cả dữ liệu có giá trị bằng số và

dữ liệu có giá trị là tên thể loại. Các kỹ thuật khác thƣờng chuyên để

phân tích các bộ dữ liệu chỉ gồm một loại biến. Chẳng hạn, các luật

quan hệ chỉ có thể dùng cho các biến tên, trong khi mạng nơ-ron chỉ

11

có thể dùng cho các biến có giá trị bằng số.

 Cây quyết định là một mô hình hộp trắng. Nếu có thể quan

sát một tình huống cho trƣớc trong một mô hình, thì có thể dễ dàng

giải thích điều kiện đó bằng logic Boolean. Mạng nơ-ron là một ví dụ

về mô hình hộp đen, do lời giải thích cho kết quả quá phức tạp để có

thể hiểu đƣợc.

 Có thể thẩm định một mô hình bằng các kiểm tra thống kê.

Điều này làm cho ta có thể tin tƣởng vào mô hình.

 Cây quyết định có thể xử lý tốt một lƣợng dữ liệu lớn trong

thời gian ngắn. Có thể dùng máy tính cá nhân để phân tích các lƣợng

dữ liệu lớn trong một thời gian đủ ngắn để cho phép các nhà chiến

lƣợc đƣa ra quyết định dựa trên phân tích của cây quyết định.

2.2. CÁC THUẬT TOÁN

2.2.1. Thuật toán CLS

Thuật toán này đƣợc Holland và Hint giới thiệu trong Concept

learning System (CLS) vào những năm 50 của thế kỷ 20[4]. Thuật

toán CLS đƣợc thiết kế theo chiến lƣợc chia để trị từ trên xuống. Nó

gồm các bƣớc sau:

1. Tạo một nút T, nút này gồm tất cả các mẫu của tập huấn

luyện.

2. Nếu tất cả các mẫu trong T có thuộc tính quyết định mang

giá trị "yes" (hay thuộc cùng một lớp), thì gán nhãn cho nút T là

"yes" và dừng lại. T lúc này là nút lá.

3. Nếu tất cả các mẫu trong T có thuộc tính quyết định mang

giá trị "no" (hay thuộc cùng một lớp), thì gán nhãn cho nút T là "no"

và dừng lại. T lúc này là nút lá.

4. Trƣờng hợp ngƣợc lại các mẫu của tập huấn luyện thuộc cả

hai lớp "yes" và "no" thì:

 Chọn một thuộc tính X trong tập thuộc tính của tập mẫu dữ

Tải ngay đi em, còn do dự, trời tối mất!