Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Sử dụng mạng nơron nhân tạo Fuzzy Art để phân cụm dữ liệu
Nội dung xem thử
Mô tả chi tiết
Nông Thị Hoa và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 106(06): 49 - 53
49
SỬ DỤNG MẠNG NƠRON NHÂN TẠO FUZZY ART ĐỂ PHÂN CỤM DỮ LIỆU
Nông Thị Hoa1*, Hoàng Trọng Vĩnh2
1
Trường Đại học Công nghệ Thông tin & Truyền thông - ĐH Thái Nguyên
2Công ty FPT software
TÓM TẮT
Mạng nơron mờ là một mạng nơron nhân tạo mà phối hợp của các khái niệm mờ, các luật suy diễn
mờ với kiến trúc và việc học của các mạng nơron. Phân cụm dữ liệu là một công cụ quan trọng của
khai thác dữ liệu và tìm ra tri thức trong một số lượng lớn dữ liệu. Fuzzy ART (Fuzzy Adaptive
Resonance Theory) là một mạng nơron mờ mà giải quyết bài toán phân cụm dữ liệu tốt hơn các
phương pháp phân cụm truyền thống. Trong nghiên cứu này, chúng tôi phân tích các ưu điểm của
Fuzzy ART và hướng dẫn chọn các tham số của mô hình Fuzzy ART để giải bài toán phân cụm
cho các tập dữ liệu đạt độ chính xác cao nhất. Các thực nghiệm được làm với 5 tập dữ liệu chuẩn
trong cơ sở dữ liệu UCI để chứng minh tính hiệu quả của Fuzzy ART. Kết quả thực nghiệm cho
thấy Fuzzy ART cho kết quả phân cụm với độ chính xác cao.
Từ khóa: Fuzzy ART, ART, Fuzzy Neural Network, Fuzzy Set, Clustering
GIỚI THIỆU
*
Phân cụm dữ liệu là một công cụ quan trọng
của khai thác dữ liệu và tìm ra tri thức trong
một số lượng lớn dữ liệu. Hơn nữa, phân cụm
còn tổng hợp một số lượng lớn dữ liệu trong
một số lượng nhỏ các nhóm nên phân cụm có
ích cho cho việc hiểu một số lượng lớn dữ liệu.
Một số phương pháp phân cụm truyền thống
đã được đưa ra như K-mean [2], phân cụm
phân cấp [3], và mô hình SOM [6] nhưng độ
phức tạp tính toán của các phương pháp này
khá lớn. Fuzzy ART [1] là một mạng nơron
mờ có các ưu điểm gồm: Học dữ liệu huấn
luyện cho đến khi thỏa mãn một điều kiện
nhất định, có thể sinh ra nhóm mới mà không
phá vỡ các nhóm đang tồn tại, dễ dàng lựa
chọn các tham số của mạng. Do đó, Fuzzy
ART phân cụm dữ liệu với độ chính xác cao
và giảm đáng kể độ phức tạp tính toán.
BÀI TOÁN PHÂN CỤM DỮ LIỆU
Phát biểu bài toán
Cho tập dữ liệu D. Mỗi dữ liệu I trong tập D
được biểu diễn bằng một véc tơ có M phần tử.
Mỗi thành phần của I nằm trong khoảng [0,
1]. Khi đó ta có:
I=(I1, …., IM ).
*
Tel: 01238 492 484
Tập D có p nhóm. Mỗi nhóm có một véc tơ
trọng số W gồm có M phần tử. Khi đó véc tơ
trọng số của nhóm k được biểu diễn như sau:
Wk=(Wk
1
, …., Ik
M
)
Mỗi dữ liệu I thuộc về một nhóm h nhất định.
Yêu cầu: Dựa vào sự tương đồng giữa mỗi
dữ liệu I và véc tơ trọng số W của các nhóm
để phân dữ liệu I vào nhóm h.
Một số phương pháp giải truyền thống
Teuvo Kohonen [6] đưa ra một mô hình của
một quá trình tự tổ chức mới mà được gọi là
mô hình SOM. SOM là một mạng nơ ron
nhân tạo thực hiện học không giám sát để tạo
ra một biểu diễn cho không gian dữ liệu vào
với số chiều thấp hơn. M.Queen [2] đưa ra
thuật toán K-mean mà phân chia tập dữ liệu
vào một số cụm nhất định bằng việc cực tiểu
hàm lỗi bình phương. Sau đó, trọng số của
các cụm được cập nhật bởi giá trị trung bình
của các mẫu trong mỗi phân cụm. Johnson [3]
đưa ra thuật toán phân cụm phân cấp dựa vào
sự nhập lại của hai cụm gần nhất. Tuy nhiên
các phương pháp này có độ phức tạp tính toán
khá cao do việc luôn tính lại trọng số của mỗi
phân lớp khi xét một dữ liệu huấn luyện.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn