Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Xử lý dữ liệu thiếu trong khai phá dữ liệu
Nội dung xem thử
Mô tả chi tiết
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 86(10): 55 - 60
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 55 http://www.lrc-tnu.edu.vn
XỬ LÝ DỮ LIỆU THIẾU TRONG KHAI PHÁ DỮ LIỆU
Phùng Thị Thu Hiền1*
, Phùng Trung Nghĩa2
,Đoàn Xuân Ngọc3
1
Trường ĐH Kỹ thuật Công nghiệp – ĐH TThái Nguyên
2
Japan Advanced Institute of Science and Technology,
3Cục Thuế tỉnh Thái Nguyên
TÓM TẮT
Thông tin đóng một vai trò rất quan trọng trong cuộc sống. Sự phát triển của nhiều lĩnh vực nghiên
cứu phụ thuộc vào khả năng phát hiện tri thức trong các cơ sở dữ liệu lớn. Các nhà khoa học trong
nhiều lĩnh vực nghiên cứu khác nhau đã phát triển các phƣơng thức để phân tích dữ liệu từ đó thu
đƣợc thông tin có ích. Các phƣơng thức này phụ thuộc vào dữ liệu và yêu cầu của ngƣời sử dụng.
Thật không may, các phƣơng thức truyền thống thƣờng không tƣơng ứng với dữ liệu thực do sự
mất mát dữ liệu hoặc dữ liệu sai. Các giá trị thiếu gây ra:
- Giảm chất lƣợng của các luật phân lớp sinh bởi hệ thống khai phá dữ liệu.
- Ảnh hƣởng tới chất lƣợng của các luật thu đƣợc từ hệ thống khai phá dữ liệu.
- Gây khó khăn cho việc rút ra thông tin có ích từ tập dữ liệu.
Giải quyết vấn đề của dữ liệu thiếu là vấn đề quan trọng trong khai phá dữ liệu và khám phá tri
thức. Việc thay thế các giá trị thiếu bởi một giá trị cụ thể mà không ảnh hƣởng tới chất lƣợng của
dữ liệu. Bài báo đƣa ra bốn mô hình tiêu biểu để giải quyết vấn đề thiếu dữ liệu và cuối cùng là
thảo luận về kết quả, so sánh và đƣa ra kết luận.
Từ khóa: Khai phá dữ liệu (Data mining), Dữ liệu thiếu (missing data).
ĐẶT VẤN ĐỀ
Sự gia tăng của kích thƣớc dữ liệu và số
lƣợng cơ sở dữ liệu hiện nay vƣợt qua khả
năng của con ngƣời để phân tích dữ liệu, do
vậy vấn đề quan trọng là cần rút ra tri thức từ
các cơ sở dữ liệu. Cơ sở dữ liệu Y học chứa
lƣợng thông tin lớn về bệnh nhân và điều kiện
Y tế của họ. Những mối quan hệ và những mô
hình bên trong dữ liệu này đã có thể cung cấp
tri thức y học mới. Phân tích dữ liệu y tế
thƣờng liên quan đến cách xử lý của tri thức
không đầy đủ, với việc quản lý các phần
thông tin trái ngƣợc nhau và với các mức độ
khác nhau của dữ liệu. Các kỹ thuật để phân
tích dữ liệu chính hiện nay dựa trên các giả
định khá mạnh (một vài tri thức về sự phụ
thuộc, xác suất phân loại, các cuộc thử
nghiệm), không thể thu đƣợc các kết luận từ
tri thức không đầy đủ, hoặc không thể quản lý
các mẩu thông tin trái ngƣợc nhau. Hầu hết
các kỹ thuật thông minh sử dụng trong các
phép phân tích dữ liệu y tế là sử dụng mạng
neura, phân lớp Bayessian, các thuật toán di
truyền, cây quyết định, lý thuyết mờ. Nghiên
Tel: 0986 060545, Email: [email protected]
cứu về khai phá dữ liệu giúp phân tích dữ liệu
và khám phá tri thức mới. Mục tiêu là tạo ra
một mô hình đơn giản. Các kiến thức khám
phá đã đƣợc áp dụng vào cơ sở dữ liệu thực tế
trong y học, thiên văn học, thị trƣờng chứng
khoán và nhiều lĩnh vực khác. Các dữ liệu thu
đƣợc cho thấy thực tế không kiểm soát đƣợc
mọi thứ, do sự chồng lấp và nhiều phần giống
nhau cùng tồn tại. Các mô hình có độ bất
định: Nếu A thì B với độ bất định C. Có nhiều
phƣơng pháp để thu đƣợc các mô hình nhƣ đã
đề xuất, bao gồm Gaines và Shaw trong [2],
Quinlan trong [3], Clark và Niblet trong [4],
Pawlak trong [6].
Bài báo đƣa ra bốn mô hình tiêu biểu để xử lý
giá trị thiếu, phân tích, so sánh ƣu nhƣợc
điểm của các phƣơng pháp.
PHÂN LOẠI CÁC TRƢỜNG HỢP THIẾU
GIÁ TRỊ
Một vấn đề phổ biến, thách thức trong khai
phá dữ liệu và nghiên cứu khám phá tri thức
là độ nhiễu của dữ liệu [5]. Trong một cơ sở
dữ liệu lớn hoặc tập dữ liệu, nhiều giá trị có
thể không chính xác hoặc có lỗi. Điều này có
thể do lỗi dụng cụ đo không chuẩn hoặc do