Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Xử lý dữ liệu thiếu trong khai phá dữ liệu
MIỄN PHÍ
Số trang
6
Kích thước
239.1 KB
Định dạng
PDF
Lượt xem
1809

Xử lý dữ liệu thiếu trong khai phá dữ liệu

Nội dung xem thử

Mô tả chi tiết

Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 86(10): 55 - 60

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 55 http://www.lrc-tnu.edu.vn

XỬ LÝ DỮ LIỆU THIẾU TRONG KHAI PHÁ DỮ LIỆU

Phùng Thị Thu Hiền1*

, Phùng Trung Nghĩa2

,Đoàn Xuân Ngọc3

1

Trường ĐH Kỹ thuật Công nghiệp – ĐH TThái Nguyên

2

Japan Advanced Institute of Science and Technology,

3Cục Thuế tỉnh Thái Nguyên

TÓM TẮT

Thông tin đóng một vai trò rất quan trọng trong cuộc sống. Sự phát triển của nhiều lĩnh vực nghiên

cứu phụ thuộc vào khả năng phát hiện tri thức trong các cơ sở dữ liệu lớn. Các nhà khoa học trong

nhiều lĩnh vực nghiên cứu khác nhau đã phát triển các phƣơng thức để phân tích dữ liệu từ đó thu

đƣợc thông tin có ích. Các phƣơng thức này phụ thuộc vào dữ liệu và yêu cầu của ngƣời sử dụng.

Thật không may, các phƣơng thức truyền thống thƣờng không tƣơng ứng với dữ liệu thực do sự

mất mát dữ liệu hoặc dữ liệu sai. Các giá trị thiếu gây ra:

- Giảm chất lƣợng của các luật phân lớp sinh bởi hệ thống khai phá dữ liệu.

- Ảnh hƣởng tới chất lƣợng của các luật thu đƣợc từ hệ thống khai phá dữ liệu.

- Gây khó khăn cho việc rút ra thông tin có ích từ tập dữ liệu.

Giải quyết vấn đề của dữ liệu thiếu là vấn đề quan trọng trong khai phá dữ liệu và khám phá tri

thức. Việc thay thế các giá trị thiếu bởi một giá trị cụ thể mà không ảnh hƣởng tới chất lƣợng của

dữ liệu. Bài báo đƣa ra bốn mô hình tiêu biểu để giải quyết vấn đề thiếu dữ liệu và cuối cùng là

thảo luận về kết quả, so sánh và đƣa ra kết luận.

Từ khóa: Khai phá dữ liệu (Data mining), Dữ liệu thiếu (missing data).

ĐẶT VẤN ĐỀ

Sự gia tăng của kích thƣớc dữ liệu và số

lƣợng cơ sở dữ liệu hiện nay vƣợt qua khả

năng của con ngƣời để phân tích dữ liệu, do

vậy vấn đề quan trọng là cần rút ra tri thức từ

các cơ sở dữ liệu. Cơ sở dữ liệu Y học chứa

lƣợng thông tin lớn về bệnh nhân và điều kiện

Y tế của họ. Những mối quan hệ và những mô

hình bên trong dữ liệu này đã có thể cung cấp

tri thức y học mới. Phân tích dữ liệu y tế

thƣờng liên quan đến cách xử lý của tri thức

không đầy đủ, với việc quản lý các phần

thông tin trái ngƣợc nhau và với các mức độ

khác nhau của dữ liệu. Các kỹ thuật để phân

tích dữ liệu chính hiện nay dựa trên các giả

định khá mạnh (một vài tri thức về sự phụ

thuộc, xác suất phân loại, các cuộc thử

nghiệm), không thể thu đƣợc các kết luận từ

tri thức không đầy đủ, hoặc không thể quản lý

các mẩu thông tin trái ngƣợc nhau. Hầu hết

các kỹ thuật thông minh sử dụng trong các

phép phân tích dữ liệu y tế là sử dụng mạng

neura, phân lớp Bayessian, các thuật toán di

truyền, cây quyết định, lý thuyết mờ. Nghiên

Tel: 0986 060545, Email: [email protected]

cứu về khai phá dữ liệu giúp phân tích dữ liệu

và khám phá tri thức mới. Mục tiêu là tạo ra

một mô hình đơn giản. Các kiến thức khám

phá đã đƣợc áp dụng vào cơ sở dữ liệu thực tế

trong y học, thiên văn học, thị trƣờng chứng

khoán và nhiều lĩnh vực khác. Các dữ liệu thu

đƣợc cho thấy thực tế không kiểm soát đƣợc

mọi thứ, do sự chồng lấp và nhiều phần giống

nhau cùng tồn tại. Các mô hình có độ bất

định: Nếu A thì B với độ bất định C. Có nhiều

phƣơng pháp để thu đƣợc các mô hình nhƣ đã

đề xuất, bao gồm Gaines và Shaw trong [2],

Quinlan trong [3], Clark và Niblet trong [4],

Pawlak trong [6].

Bài báo đƣa ra bốn mô hình tiêu biểu để xử lý

giá trị thiếu, phân tích, so sánh ƣu nhƣợc

điểm của các phƣơng pháp.

PHÂN LOẠI CÁC TRƢỜNG HỢP THIẾU

GIÁ TRỊ

Một vấn đề phổ biến, thách thức trong khai

phá dữ liệu và nghiên cứu khám phá tri thức

là độ nhiễu của dữ liệu [5]. Trong một cơ sở

dữ liệu lớn hoặc tập dữ liệu, nhiều giá trị có

thể không chính xác hoặc có lỗi. Điều này có

thể do lỗi dụng cụ đo không chuẩn hoặc do

Tải ngay đi em, còn do dự, trời tối mất!