Tài liệu CF doc

Là một trong những phương pháp xây dựng hệ thống tư vấn thành công nhất, CF thông qua các thị

hiếu đã được biết đến của một nhóm người dùng để đưa các tư vấn hoặc dự đoán về thị hiếu chưa biết

cho một số người dùng khác.

1.Giới thiệu

Trong cuộc sống hàng ngày, mọi người thường tin vào những lời giới thiệu từ những người khác

nhau thông qua lời nói, thư từ văn bản, các bản ghi mới có được ở các phương tiện thông tin đại chúng,

ở các cuộc điều tra nói chung, các hướng dẫn và v.v.. Đó là lý do tại sao các hệ tư vấn ra đời, với mục

đích hỗ trợ và làm tăng thêm tiến trình xã hội tự nhiên này, hệ tư vấn giúp mỗi người có thể chọn lọc

một cách kỹ lưỡng thông qua những quyển sách, bài báo, trang web, phim, nhà hàng, truyện cười, các

sản phẩm…để tìm ra thông tin hữu ích và đáng chú ý nhất cho họ. Nhà phát triển của một trong số

những hệ tư vấn đầu tiên là Trapestry [1]( [1]D.Goldberg,D.Nichols,B.M.Oki,andD.Terry,“Using

collaborative filtering to weave an information tapestry,”CommunicationsofACM,vol.35,no.12,pp.61–

70,1992.) (các hệ tư vấn khác gồm tư vấn dựa trên luật,, và tùy biến theo khách hàng) đưa ra thuật ngữ

“Collaborative Filtering (CF_ Lọc cộng tác)”. Giả thuyết cơ bản của CF là nếu có X và Y người dùng

đánh giá cho n item tương tự nhau, hoặc có hành vi tương tự nhau (ví dụ, mua, xem, nghe,…) thì họ sẽ

có đánh giá hoặc hành động trong các item khác cũng tương tự nhau [3_

[3]K.Goldberg,T.Roeder,D.Gupta,andC.Perkins,“Eigentaste: a constant time collaborative filtering

algorithm”, InformationRetrieval,vol.4,no.2,pp.133–151,2001.]

Kỹ thuật CF sử dụng cơ sở dữ liệu về sở thích của người dùng đối với các item để dự đoán các chủ

để hoặc sản phẩm thêm vào cho một người dùng mới có cùng sở thích. Trong ngữ cảnh cụ thể của CF,

có một danh sách của m người dùng {u1, u2, …,um} và một danh sách của n item {i1, i2,…,in}, và mỗi

người dùng ui có một danh sách item Iui đã được đánh giá hoặc suy luận được thông qua các hành vi

của họ. Các đánh giá này có thể là các thể hiện tường minh ví dụ nằm trong khoảng 1 – 5 (ghét – rất

thích), hoặc không tường minh, như việc mua bán hoặc click – through ( kích hoạt vào một trang web

nào đó - thể hiện của một vài người click trong những bản quảng cáo trên internet). Cho ví dụ, chúng ta

có thể chuyển đổi danh sách người dùng và các bộ phim họ thích hoặc không thích (Bảng 1(a)) với ma

trận trọng số user – item (Bảng 1 (b)), trong đó Tony là một người dùng chính mà chúng ta muốn tư

vấn. Ở đây một vài giá trị trong ma trận bị thiếu do những người dùng này không đưa ra đánh giá của

mình cho những item đó.

Có rất nhiều thách thức đối với các nhiệm vụ của công lọc cộng tác (Phần 2). Bởi vì thuật toán CF

yêu cầu phải có khả năng giải quyết vấn đề thưa thớt dữ liệu cao, tỷ lệ với số người dùng và item tăng

lên, đưa ra những tư vấn thích hợp trong thời gian ngắn, và giải quyết được các vấn đề khác như tính

đồng nghĩa (xu hướng giống nhau hoặc item tương tự nhua nhưng khác nhau về tên), các tấn công

khác, dữ liệu bị nhiễu và các vấn đề về bảo mật.

Các hệ lọc cộng tác ra đời sớm như GroupLens [5] P.Resnick, N.Iacovou, M.Suchak, .Bergstrom,

and J.Riedl, “Grouplens: an open architecture for collaborative filtering of netnews,” in Proceedings of

the ACM Conferenceon Computer Supported Cooperative Work, pp. 175–186, New York, NY,

USA,1994.], sử dụng dữ liệu đánh giá của người dùng để tính toán độ tương tự hoặc trọng số giữa các

người dùng hoặc item và đưa ra dự đoán, tư vấn theo những giá trị tương tự đó. Ở đó sử dụng phương

thức CF dựa trên bộ nhớ (Phần 3) và sau này được triển khai thành các hệ thống thương mại đánh chú ý

như http://www.amazon.com (như hình 1) và Barnes và Noble vì chúng dễ cài đặt và đưa ra hiệu quả

cao. Tính suy biến (Customization) trong hệ CF cho mỗi người dùng giảm dần theo những nỗ lực tìm

kiếm của người dùng. Nó cũng đảm bảo được số lượng khách hàng trung thành tăng lên, tỷ lệ cao hơn,

tổng thu nhập quảng cao nhiều hơn và nhiều hứa hẹn ở phía trước đang mở ra.

Tuy nhiên có một vài giới hạn trong kỹ thuật CF dựa trên bộ nhớ, như trên thực tế giá trị tương tự

dựa trên các item nói chung vì vậy khi dữ liệu ít thì nó không còn đáng tin cậy nữa.

Thư viện tri thức trực tuyến

Nội dung xem thử

Mô tả chi tiết

Tài liệu tương tự (6)

Tài liệu CFA Level I - Study Session 4 ppt

Tài liệu CFA Level I - Study Session 5 pptx

Tài liệu CFO trong M&A ppt

Tài Liệu 2019 CFA level III schweser secret sauce

tài liệu ôn thi CFA

Tài liệu Hướng dẫn ôn thi CFA Level 1 2010 Phần 2 docx