Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Tài liệu CF doc
Nội dung xem thử
Mô tả chi tiết
CF
Là một trong những phương pháp xây dựng hệ thống tư vấn thành công nhất, CF thông qua các thị
hiếu đã được biết đến của một nhóm người dùng để đưa các tư vấn hoặc dự đoán về thị hiếu chưa biết
cho một số người dùng khác.
1.Giới thiệu
Trong cuộc sống hàng ngày, mọi người thường tin vào những lời giới thiệu từ những người khác
nhau thông qua lời nói, thư từ văn bản, các bản ghi mới có được ở các phương tiện thông tin đại chúng,
ở các cuộc điều tra nói chung, các hướng dẫn và v.v.. Đó là lý do tại sao các hệ tư vấn ra đời, với mục
đích hỗ trợ và làm tăng thêm tiến trình xã hội tự nhiên này, hệ tư vấn giúp mỗi người có thể chọn lọc
một cách kỹ lưỡng thông qua những quyển sách, bài báo, trang web, phim, nhà hàng, truyện cười, các
sản phẩm…để tìm ra thông tin hữu ích và đáng chú ý nhất cho họ. Nhà phát triển của một trong số
những hệ tư vấn đầu tiên là Trapestry [1]( [1]D.Goldberg,D.Nichols,B.M.Oki,andD.Terry,“Using
collaborative filtering to weave an information tapestry,”CommunicationsofACM,vol.35,no.12,pp.61–
70,1992.) (các hệ tư vấn khác gồm tư vấn dựa trên luật,, và tùy biến theo khách hàng) đưa ra thuật ngữ
“Collaborative Filtering (CF_ Lọc cộng tác)”. Giả thuyết cơ bản của CF là nếu có X và Y người dùng
đánh giá cho n item tương tự nhau, hoặc có hành vi tương tự nhau (ví dụ, mua, xem, nghe,…) thì họ sẽ
có đánh giá hoặc hành động trong các item khác cũng tương tự nhau [3_
[3]K.Goldberg,T.Roeder,D.Gupta,andC.Perkins,“Eigentaste: a constant time collaborative filtering
algorithm”, InformationRetrieval,vol.4,no.2,pp.133–151,2001.]
Kỹ thuật CF sử dụng cơ sở dữ liệu về sở thích của người dùng đối với các item để dự đoán các chủ
để hoặc sản phẩm thêm vào cho một người dùng mới có cùng sở thích. Trong ngữ cảnh cụ thể của CF,
có một danh sách của m người dùng {u1, u2, …,um} và một danh sách của n item {i1, i2,…,in}, và mỗi
người dùng ui có một danh sách item Iui đã được đánh giá hoặc suy luận được thông qua các hành vi
của họ. Các đánh giá này có thể là các thể hiện tường minh ví dụ nằm trong khoảng 1 – 5 (ghét – rất
thích), hoặc không tường minh, như việc mua bán hoặc click – through ( kích hoạt vào một trang web
nào đó - thể hiện của một vài người click trong những bản quảng cáo trên internet). Cho ví dụ, chúng ta
có thể chuyển đổi danh sách người dùng và các bộ phim họ thích hoặc không thích (Bảng 1(a)) với ma
trận trọng số user – item (Bảng 1 (b)), trong đó Tony là một người dùng chính mà chúng ta muốn tư
vấn. Ở đây một vài giá trị trong ma trận bị thiếu do những người dùng này không đưa ra đánh giá của
mình cho những item đó.
Có rất nhiều thách thức đối với các nhiệm vụ của công lọc cộng tác (Phần 2). Bởi vì thuật toán CF
yêu cầu phải có khả năng giải quyết vấn đề thưa thớt dữ liệu cao, tỷ lệ với số người dùng và item tăng
lên, đưa ra những tư vấn thích hợp trong thời gian ngắn, và giải quyết được các vấn đề khác như tính
đồng nghĩa (xu hướng giống nhau hoặc item tương tự nhua nhưng khác nhau về tên), các tấn công
khác, dữ liệu bị nhiễu và các vấn đề về bảo mật.
Các hệ lọc cộng tác ra đời sớm như GroupLens [5] P.Resnick, N.Iacovou, M.Suchak, .Bergstrom,
and J.Riedl, “Grouplens: an open architecture for collaborative filtering of netnews,” in Proceedings of
the ACM Conferenceon Computer Supported Cooperative Work, pp. 175–186, New York, NY,
USA,1994.], sử dụng dữ liệu đánh giá của người dùng để tính toán độ tương tự hoặc trọng số giữa các
người dùng hoặc item và đưa ra dự đoán, tư vấn theo những giá trị tương tự đó. Ở đó sử dụng phương
thức CF dựa trên bộ nhớ (Phần 3) và sau này được triển khai thành các hệ thống thương mại đánh chú ý
như http://www.amazon.com (như hình 1) và Barnes và Noble vì chúng dễ cài đặt và đưa ra hiệu quả
cao. Tính suy biến (Customization) trong hệ CF cho mỗi người dùng giảm dần theo những nỗ lực tìm
kiếm của người dùng. Nó cũng đảm bảo được số lượng khách hàng trung thành tăng lên, tỷ lệ cao hơn,
tổng thu nhập quảng cao nhiều hơn và nhiều hứa hẹn ở phía trước đang mở ra.
Tuy nhiên có một vài giới hạn trong kỹ thuật CF dựa trên bộ nhớ, như trên thực tế giá trị tương tự
dựa trên các item nói chung vì vậy khi dữ liệu ít thì nó không còn đáng tin cậy nữa.