Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Tích hợp khai phá dữ liệu trong InfoSphere Warehouse với việc tạo báo cáo Cognos của IBM, Phần 1:
Nội dung xem thử
Mô tả chi tiết
Tích hợp khai phá dữ liệu trong InfoSphere Warehouse với việc tạo báo cáo
Cognos của IBM, Phần 1: Tổng quan về kiến trúc tích hợp InfoSphere
Warehouse và Cognos
Phổ biến kết quả khai phá dữ liệu của bạn một cách có hiệu quả
Benjamin G. Leonhardi, Kỹ sư phần mềm, IBM
Christoph Sieb, Kỹ sư phần mềm cao cấp, IBM
Dr. Michael J. Wurst, Kỹ sư phần mềm cao cấp, IBM
John Rollins, Ph.D., P.E., Chuyên viên kỹ thuật, IBM
Tóm tắt: Khai phá dữ liệu cung cấp các kỹ thuật phân tích nâng cao để trích xuất
thông tin có ích từ dữ liệu lớn. Về lịch sử, khai phá dữ liệu là một nhiệm vụ mà chỉ
các chuyên gia về thống kê và phân tích dữ liệu mới có thể thực hiện được. Mặt
khác, các kết quả của việc khai phá dữ liệu thường liên quan đến một loạt những
người dùng khác nhau trên toàn công ty. Loạt bài viết này trình bày kiến trúc
chung và các cơ hội nghiệp vụ để kết hợp khai phá dữ liệu IBM® InfoSphere™
Warehouse (Kho dữ liệu InfoSphere của IBM ) với việc tạo báo cáo Cognos® của
IBM. Việc tích hợp này cho phép mọi người trên toàn công ty sử dụng các kết quả
khai phá dữ liệu. Bài viết đầu tiên giới thiệu kiến trúc tích hợp cơ bản và cũng bao
gồm một nghiên cứu về trường hợp kỹ thuật, ngắn gọn để cung cấp cho bạn một
sự hiểu biết cơ bản về cách đạt tới sự tích hợp này.
Mở đầu
Khai phá dữ liệu cho phép các chuyên gia, các nhà phân tích và những người sử
dụng có được cái nhìn sâu sắc với các mẫu trong các bộ sưu tập dữ liệu lớn và kết
hợp chúng vào quy trình nghiệp vụ hàng ngày. Về lịch sử, khai phá dữ liệu là một
nhiệm vụ mà chỉ các chuyên gia về thống kê và phân tích dữ liệu mới có thể thực
hiện được. Mặt khác, các kết quả của việc khai phá dữ liệu thường liên quan đến
những người dùng khác nhau trên toàn công ty.
Hãy xem xét kịch bản sau đây. Bạn thu thập dữ liệu về khách hàng của mình bao
gồm các khía cạnh nhân khẩu học (như tuổi tác, nghề nghiệp và nơi cư trú) cũng
như các giao dịch trong quá khứ (như các mặt hàng đã bán và các hợp đồng). Bộ
phận tiếp thị của bạn muốn phát triển các đề xuất chào hàng mới được thiết kế
riêng cho các nhóm khách hàng cụ thể với các đặc tính giống nhau. Làm thế nào
để tìm ra các nhóm người dùng điển hình như vậy? Phân cụm dữ liệu cung cấp
một giải pháp cho vấn đề này. Nó tự động nhóm các tập dữ liệu theo các đặc tính
hoặc các tính năng của chúng. Sau đó, một nhà phân tích có thể rà soát lại các
nhóm này và điều chỉnh chúng dần dần cho đến khi chúng đáp ứng các yêu cầu
của mình. Ví dụ, một chuyên gia tiếp thị có thể thấy rằng có một nhóm khách hàng
nhỏ nhưng là nhóm khách hàng quan trọng về kinh tế có độ tuổi trên trung bình và
không sử dụng dịch vụ ngân hàng Internet. Dựa vào thông tin này, các đề xuất
chào hàng riêng biệt có thể được thực hiện cho những khách hàng này. Một bước
quan trọng trong quá trình phân tích là cho phép những người dùng hiểu các kết
quả của bước phân cụm dữ liệu này. Các chuyên gia phân tích thường không phải
là các chuyên gia về lập trình các cơ sở dữ liệu mức thấp.
Làm thế nào có thể phân phối các kết quả khai phá dữ liệu đến các nhà phân tích
và các nhân viên cần dùng nó? Làm thế nào có thể trình bày các kết quả sao cho
phản ánh quy trình nghiệp vụ mà người dùng có dính líu đến? Làm thế nào có thể
đáp ứng các yêu cầu an ninh, sao cho mỗi người dùng chỉ thấy những gì mà người
ấy được xem theo quy định? Để đưa ra các câu trả lời thoả đáng cho những câu hỏi
đó, cần di chuyển vị trí trong khung nhìn phối cảnh, rời xa các phân tích thống kê
và tiến gần đến phía người dùng cuối thực tế và các quy trình nghiệp vụ mà người
đó dính líu đến. InfoSphere Warehouse là nền móng vững mạnh cho việc tạo kho