Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Cải tiến thuật Toán K-means và ứng dụng phân cụm dữ liệu tự động
Nội dung xem thử
Mô tả chi tiết
Nguyễn Văn Huân và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 61(12/2): 102 - 106
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.Lrc-tnu.edu.vn
102
CẢI TIẾN THUẬT TOÁN K-MEANS VÀ ỨNG DỤNG
PHÂN CỤM DỮ LIỆU TỰ ĐỘNG
Nguyễn Văn Huân 1
, Phạm Việt Bình1
, Trương Mạnh Hà1
, Vũ Xuân Nam1
, Đoàn Mạnh Hồng2
1 Khoa Công nghệ thông tin – Đại học Thái Nguyên,
2
Trường Đại học Kinh tế và Quản trị Kinh doanh – Đại học Thái Nguyên
TÓM TẮT
Phân cụm dữ liệu tự động là một bài toán phức tạp và được nhiều nhà khoa học nghiên cứu, bước
đầu họ đã đưa ra được một số thuật toán như: K-means, K-medoids,.. và đã đạt được những kết
quả nhất định trong tìm kiếm, phân loại dữ liệu. Tuy nhiên, hầu hết những thuật toán này, khi phân
cụm đều yêu cầu xác định số cụm cần thực thi đặc biệt là với thuật toán K-means hoặc yêu cầu
mức độ khác biệt trong việc xác định các thành phần có tính chất giống nhau. Ngoài ra, các kỹ
thuật này còn đòi hỏi phải chọn trước số điểm làm trọng tâm, với số điểm chọn ngẫu nhiên làm
trọng tâm này sẽ cho các kết quả khác nhau. Do vậy, các kết quả có thể là không chính xác, với
mức độ sai số có thể rất lớn.
Bài báo đưa ra cải tiến thuật toán K-means trong phân cụm tài liệu web, thay vì chọn số điểm làm
trọng tâm thì không chọn số điểm làm trọng tâm cho số cụm mà sẽ tăng số cụm từ 1 lên k cụm bằng
cách đưa trung tâm cụm mới vào cụm có mức độ biến dạng Max và tính lại trọng tâm các cụm.
Từ khoá: K-Means, phân cụm, Data mining, Web mining, K-Medoids.
GIỚI THIỆU
Sự phát triển nhanh chóng của mạng Internet
đã sinh ra một khối lượng khổng lồ các dữ
liệu dạng siêu văn bản (dữ liệu Web). Các tài
liệu siêu văn bản chứa đựng văn bản và
thường nhúng các liên kết đến các tài nguyên
khác phân bố trên Web. Ngày nay, Web bao
gồm hàng tỷ tài liệu của hàng triệu tác giả
được tạo ra và được phân tán qua hàng triệu
máy tính được kết nối qua đường dây điện
thoại, cáp quang, sóng radio v.v.. Web đã và
đang được sử dụng phổ biến trong nhiều lĩnh
vực như báo chí, phát thanh, truyền hình, hệ
thống bưu điện, trường học, các tổ chức
thương mại, chính phủ v.v.. Chính vì vậy lĩnh
vực Web mining hay tìm kiếm tự động các
thông tin phù hợp và có giá trị trên Web là
một chủ đề quan trọng trong Data Mining và
là vấn đề quan trọng của mỗi đơn vị, tổ chức
có nhu cầu thu thập và tìm kiếm thông tin trên
Internet.
Hiện nay, các hệ thống tìm kiếm thông tin hay
nói ngắn gọn là các máy tìm kiếm Web thông
thường trả lại một danh sách các tài liệu được
phân hạng mà người dùng sẽ phải tốn công
Tel: 0987 118 623, Email: [email protected]
chọn lọc trong một danh sách rất dài để có
được những tài liệu phù hợp. Ngoài ra các
thông tin đó thường rất phong phú, đa dạng
và liên quan đến nhiều đối tượng khác nhau.
Điều này tạo nên sự nhập nhằng gây khó khăn
cho người sự dụng trong việc lấy được các
thông tin cần thiết.
Có nhiều hướng tiếp cận khác nhau để giải
quyết vấn đề này. Các hướng này thường chú
ý giảm sự nhập nhằng bằng các phương pháp
lọc hay thêm các tùy chọn để cắt bớt thông tin
và hướng biểu diễn các thông tin trả về bởi
các máy tìm kiếm thành từng cụm để cho
người dùng có thể dễ dàng tìm được thông tin
mà họ cần. Đã có nhiều thuật toán phân cụm
tài liệu dựa trên phân cụm ngoại tuyến toàn
bộ tập tài liệu. Tuy nhiên việc tập hợp tài liệu
của các máy tìm kiếm là quá lớn và luôn thay
đổi thì khó có thể phân cụm ngoại tuyến. Do
đó, việc phân cụm phải được ứng dụng trên
tập các tài liệu nhỏ hơn được trả về từ các
truy vấn và thay vì trả về một danh sách rất
dài các thông tin gây nhập nhằng cho người
sử dụng cần có một phương pháp tổ chức lại
các kết quả tìm kiếm một cách hợp lý.
Hiện nay, đã có nhiều kỹ thuật, thuật toán về
thu thập, phân cụm dữ liệu tự động [2, 5, 6,