Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Tích hợp khai phá dữ liệu trong InfoSphere Warehouse với việc tạo báo cáo Cognos của IBM, Phần 4:
Nội dung xem thử
Mô tả chi tiết
Tích hợp khai phá dữ liệu trong InfoSphere Warehouse với việc tạo báo cáo
Cognos của IBM, Phần 4: Phân đoạn khách hàng với InfoSphere Warehouse
và Cognos
Nối tất cả lại cho nó
Benjamin G. Leonhardi, Kỹ sư phần mềm, IBM
Christoph Sieb, Kỹ sư phần mềm cao cấp, IBM
Dr. Michael J. Wurst, Kỹ sư phần mềm cao cấp, IBM
Tóm tắt: Trong các bài viết trước của loạt bài này, bạn đã tìm hiểu các kỹ thuật
khác nhau để tích hợp Khai phá dữ liệu InfoSphere Warehouse và các báo cáo
Cognos đơn giản. Bài viết cuối cùng này hướng dẫn cho bạn cách sử dụng một số
kỹ thuật tích hợp tương tự để tạo ra một báo cáo phức tạp hơn, tập trung vào
nhiệm vụ phân đoạn khách hàng. Phân đoạn khách hàng cho phép các công ty
phân cụm các khách hàng của họ thành các nhóm đặc trưng. Một vấn đề quan
trọng của nhiệm vụ này là giải thích cho người sử dụng ý nghĩa của các đoạn
khách hàng riêng rẽ. Các báo cáo Cognos tương tác có thể giúp bạn làm điều này.
Bài viết này sử dụng ví dụ theo từng bước một, để dạy cho bạn cách tạo một báo
cáo hiển thị trực quan các số liệu thống kê cụm và, vì thế, cho phép bạn tìm ra các
khách hàng nào là đặc biệt trong một đoạn cụ thể. Bài viết cũng cho bạn thấy cách
cho phép truy vấn ngược (ND: drill-through là một tính năng cho phép người dùng
từ báo cáo tổng hợp tìm ngược về tận bản ghi dữ liệu gốc. Sau đây gọi là truy vấn
ngược) để truy cập vào các thông tin chi tiết của khách hàng riêng biệt trong một
phân đoạn.
Mở đầu
Phân đoạn khách hàng cho phép bạn nhóm khách hàng thành các đoạn các khách
hàng tương tự như nhau. Để giải thích tại sao điều này có thể có ích, hãy xem xét
kịch bản sau đây. Bạn thu thập dữ liệu về các khía cạnh nhân khẩu học của khách
hàng của bạn (tuổi tác, nghề nghiệp, nơi cư trú, v.v..) cũng như dữ liệu về giao
dịch của họ (các mặt hàng đã mua, các hợp đồng, v.v..). Một phân tích về dữ liệu
đã kết hợp này có thể để lộ ra các nhóm khách hàng mà bạn chưa từng nghĩ về họ
trước đó, ví dụ, các khách hàng cao tuổi chi tiêu rất nhiều tiền nhưng không dùng
mua sắm trực tuyến. Thông tin về các hành vi tiêu biểu của các nhóm như vậy sau
đó có thể được bộ phận tiếp thị của bạn sử dụng để phát triển sản phẩm và các
dịch vụ chuyên sâu.
Về kỹ thuật, phân đoạn khách hàng là một trường hợp riêng của nhiệm vụ khai phá
dữ liệu tổng quát hơn được gọi là phân cụm dữ liệu. Phân cụm dữ liệu tự động
nhóm các bản ghi dữ liệu theo các đặc tính hoặc các tính năng của chúng thành các
cụm có các bản ghi dữ liệu tương tự với nhau. Thường có nhiều cách khác nhau để
định nghĩa các biện pháp tương tự phía dưới, tùy thuộc vào miền ứng dụng của
bạn. InfoSphere Warehouse cung cấp một cơ chế mạnh mẽ để tự động chọn biện
pháp tương tự này.
Bài viết này cung cấp một sự mô tả ngắn gọn về phân cụm dữ liệu và các phương
pháp phân đoạn khách hàng và các cách tiếp cận trong InfoSphere Warehouse. Sau
đó bài viết này thảo luận về những khả năng tổng hợp để tìm hiểu các đoạn khách
hàng và các cụm khác trong Cognos. Phần cuối của bài viết này cho bạn một ví dụ
từng bước về cách tạo và tìm hiểu các đoạn trong Cognos.
Phân đoạn khách hàng khi sử dụng InfoSphere Warehouse
InfoSphere Warehouse cung cấp một số phương pháp để phân cụm các bản ghi dữ
liệu. Bằng cách áp dụng các đối số này vào các bản ghi khách hàng của bạn, bạn
có thể tìm thấy các nhóm khách hàng tương tự như nhau. Một bước quan trọng
đầu tiên để đạt được điều này là xử lý trước dữ liệu của bạn. Dữ liệu khách hàng
có liên quan có thể nằm phân tán giữa các bảng hoặc cơ sở dữ liệu khác nhau, ví
dụ, cơ sở dữ liệu chứa thông tin nhân khẩu học có thể không cùng một cơ sở dữ
liệu chứa dữ liệu giao dịch. Nếu dữ liệu nằm phân tán, đầu tiên bạn cần biến đổi
nó để cho bạn nhận được một bảng có một hàng chính xác cho từng khách hàng.
InfoSphere Warehouse cung cấp các công cụ mạnh mẽ cho các loại chuyển đổi
này. Các công cụ chuyển đổi nằm ngoài phạm vi của bài viết này, nhưng bạn có
thể tìm thấy các thông tin chi tiết về cách sử dụng chúng trong Trung tâm Thông
tin InfoSphere Warehouse, được liên kết đến từ phần Tài nguyên.
Các dữ liệu mẫu được sử dụng trong bài viết này là một bảng có các khách hàng
của ngân hàng, như trong Hình 1. Dữ liệu này đã được chuyển đổi đầy đủ.
Một khi đã chuyển đổi dữ liệu của mình, bạn có thể trực tiếp áp dụng các phương
pháp phân cụm dữ liệu trong InfoSphere Warehouse. Hai thuật toán phân cụm có
sẵn là:
Phân cụm nhân khẩu học đặc biệt thích hợp với các tập dữ liệu chứa một
hỗn hợp các trường rời rạc và liên tục (ví dụ, với nghề nghiệp và tuổi). Đây
là thuật toán mặc định được InfoSphere Warehouse sử dụng.
Phân cụm Kohonen thích hợp hơn với các tập dữ liệu chỉ chứa các trường
nhị phân hoặc liên tục (ví dụ, số lượng các mặt hàng mà mỗi khách hàng đã
mua trong một tập các loại sản phẩm).
Trong ví dụ được mô tả trong bài viết này, phân cụm được áp dụng bằng cách sử
dụng toán tử Clusterer trong một luồng khai phá. Hoặc bạn có thể trực tiếp gọi câu
lệnh SQL sau: