Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Cải tiến thuật Toán K-means và ứng dụng phân cụm dữ liệu tự động
MIỄN PHÍ
Số trang
5
Kích thước
380.3 KB
Định dạng
PDF
Lượt xem
1144

Cải tiến thuật Toán K-means và ứng dụng phân cụm dữ liệu tự động

Nội dung xem thử

Mô tả chi tiết

Nguyễn Văn Huân và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 61(12/2): 102 - 106

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.Lrc-tnu.edu.vn

102

CẢI TIẾN THUẬT TOÁN K-MEANS VÀ ỨNG DỤNG

PHÂN CỤM DỮ LIỆU TỰ ĐỘNG

Nguyễn Văn Huân 1

, Phạm Việt Bình1

, Trương Mạnh Hà1

, Vũ Xuân Nam1

, Đoàn Mạnh Hồng2

1 Khoa Công nghệ thông tin – Đại học Thái Nguyên,

2

Trường Đại học Kinh tế và Quản trị Kinh doanh – Đại học Thái Nguyên

TÓM TẮT

Phân cụm dữ liệu tự động là một bài toán phức tạp và được nhiều nhà khoa học nghiên cứu, bước

đầu họ đã đưa ra được một số thuật toán như: K-means, K-medoids,.. và đã đạt được những kết

quả nhất định trong tìm kiếm, phân loại dữ liệu. Tuy nhiên, hầu hết những thuật toán này, khi phân

cụm đều yêu cầu xác định số cụm cần thực thi đặc biệt là với thuật toán K-means hoặc yêu cầu

mức độ khác biệt trong việc xác định các thành phần có tính chất giống nhau. Ngoài ra, các kỹ

thuật này còn đòi hỏi phải chọn trước số điểm làm trọng tâm, với số điểm chọn ngẫu nhiên làm

trọng tâm này sẽ cho các kết quả khác nhau. Do vậy, các kết quả có thể là không chính xác, với

mức độ sai số có thể rất lớn.

Bài báo đưa ra cải tiến thuật toán K-means trong phân cụm tài liệu web, thay vì chọn số điểm làm

trọng tâm thì không chọn số điểm làm trọng tâm cho số cụm mà sẽ tăng số cụm từ 1 lên k cụm bằng

cách đưa trung tâm cụm mới vào cụm có mức độ biến dạng Max và tính lại trọng tâm các cụm.

Từ khoá: K-Means, phân cụm, Data mining, Web mining, K-Medoids.

 GIỚI THIỆU

Sự phát triển nhanh chóng của mạng Internet

đã sinh ra một khối lượng khổng lồ các dữ

liệu dạng siêu văn bản (dữ liệu Web). Các tài

liệu siêu văn bản chứa đựng văn bản và

thường nhúng các liên kết đến các tài nguyên

khác phân bố trên Web. Ngày nay, Web bao

gồm hàng tỷ tài liệu của hàng triệu tác giả

được tạo ra và được phân tán qua hàng triệu

máy tính được kết nối qua đường dây điện

thoại, cáp quang, sóng radio v.v.. Web đã và

đang được sử dụng phổ biến trong nhiều lĩnh

vực như báo chí, phát thanh, truyền hình, hệ

thống bưu điện, trường học, các tổ chức

thương mại, chính phủ v.v.. Chính vì vậy lĩnh

vực Web mining hay tìm kiếm tự động các

thông tin phù hợp và có giá trị trên Web là

một chủ đề quan trọng trong Data Mining và

là vấn đề quan trọng của mỗi đơn vị, tổ chức

có nhu cầu thu thập và tìm kiếm thông tin trên

Internet.

Hiện nay, các hệ thống tìm kiếm thông tin hay

nói ngắn gọn là các máy tìm kiếm Web thông

thường trả lại một danh sách các tài liệu được

phân hạng mà người dùng sẽ phải tốn công

Tel: 0987 118 623, Email: [email protected]

chọn lọc trong một danh sách rất dài để có

được những tài liệu phù hợp. Ngoài ra các

thông tin đó thường rất phong phú, đa dạng

và liên quan đến nhiều đối tượng khác nhau.

Điều này tạo nên sự nhập nhằng gây khó khăn

cho người sự dụng trong việc lấy được các

thông tin cần thiết.

Có nhiều hướng tiếp cận khác nhau để giải

quyết vấn đề này. Các hướng này thường chú

ý giảm sự nhập nhằng bằng các phương pháp

lọc hay thêm các tùy chọn để cắt bớt thông tin

và hướng biểu diễn các thông tin trả về bởi

các máy tìm kiếm thành từng cụm để cho

người dùng có thể dễ dàng tìm được thông tin

mà họ cần. Đã có nhiều thuật toán phân cụm

tài liệu dựa trên phân cụm ngoại tuyến toàn

bộ tập tài liệu. Tuy nhiên việc tập hợp tài liệu

của các máy tìm kiếm là quá lớn và luôn thay

đổi thì khó có thể phân cụm ngoại tuyến. Do

đó, việc phân cụm phải được ứng dụng trên

tập các tài liệu nhỏ hơn được trả về từ các

truy vấn và thay vì trả về một danh sách rất

dài các thông tin gây nhập nhằng cho người

sử dụng cần có một phương pháp tổ chức lại

các kết quả tìm kiếm một cách hợp lý.

Hiện nay, đã có nhiều kỹ thuật, thuật toán về

thu thập, phân cụm dữ liệu tự động [2, 5, 6,

Tải ngay đi em, còn do dự, trời tối mất!