Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Phân Tích Hành Vi Sử Dụng Dịch Vụ Viễn Thông Của Khách Hàng Dựa Trên Thuật Toán Phân Cụm Đưa Ra Chính Sách Khuyến Mại Về Sản Phẩm Và Theo Phân Khúc Khách Hàng
PREMIUM
Số trang
81
Kích thước
2.3 MB
Định dạng
PDF
Lượt xem
1932

Phân Tích Hành Vi Sử Dụng Dịch Vụ Viễn Thông Của Khách Hàng Dựa Trên Thuật Toán Phân Cụm Đưa Ra Chính Sách Khuyến Mại Về Sản Phẩm Và Theo Phân Khúc Khách Hàng

Nội dung xem thử

Mô tả chi tiết

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

HOÀNG ANH DŨNG

PHÂN TÍCH HÀNH VI SỬ DỤNG DỊCH VỤ VIỄN THÔNG

CỦA KHÁCH HÀNG DỰA TRÊN

THUẬT TOÁN PHÂN CỤM ĐƯA RA CHÍNH SÁCH

KHUYẾN MẠI VỀ SẢN PHẨM VÀ THEO PHÂN KHÚC

KHÁCH HÀNG

Ngành: Công Nghệ Thông Tin

Chuyên ngành: Khoa Học Máy Tính

Mã Số: 8480101.01

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. TRẦN TRÚC MAI

TS. NGUYỄN ĐÌNH HÓA

Hà nội – 2020

2

LỜI CẢM ƠN

Trước tiên tôi xin dành lời cảm ơn chân thành và sâu sắc đến thầy giáo,

TS Trần Trúc Mai, người đã định hướng về mục tiêu và cách thức thực hiện đề

tài. TS Nguyễn Đình Hóa – người đã hướng dẫn, khuyến khích, chỉ bảo và tạo

cho tôi những điều kiện tốt nhất từ khi bắt đầu cho tới khi hoàn thành nhiệm

vụ và đề tài của mình.

Tôi xin dành lời cảm ơn chân thành tới các thầy cô giáo khoa Công nghệ

thông tin, trường Đại học Công nghệ, ĐHQGHN đã tận tình đào tạo, cung cấp

cho tôi những kiến thức vô cùng quý giá và đã tạo điều kiện tốt nhất cho tôi

trong suốt quá trình học tập, nghiên cứu tại trường.

Đồng thời tôi xin cảm ơn tất cả những người thân yêu trong gia đình tôi

cùng toàn thể bạn bè những người đã luôn giúp đỡ, động viên tôi những khi

vấp phải những khó khăn, bế tắc.

Cuối cùng, tôi xin chân thành cảm ơn các đồng nghiệp của tôi tại Trung

Tâm Phân Tích Dữ Liệu – Viettel, đã giúp đỡ, tạo điều kiện thuận lợi cho tôi

học tập và nghiên cứu chương trình thạc sĩ tại Đại học Công nghệ, Đại học

Quốc Gia Hà Nội.

3

LỜI CAM ĐOAN

Tôi xin cam đoan rằng luận văn thạc sĩ công nghệ thông tin “PHÂN

TÍCH HÀNH VI SỬ DỤNG DỊCH VỤ VIỄN THÔNG CỦA KHÁCH

HÀNG DỰA TRÊN THUẬT TOÁN PHÂN CỤM ĐƯA RA CHÍNH

SÁCH KHUYẾN MẠI VỀ SẢN PHẨM VÀ THEO PHÂN KHÚC

KHÁCH HÀNG” là công trình nghiên cứu của riêng tôi, không sao chép lại

của người khác. Trong toàn bộ nội dung của luận văn, những điều đã được

trình bày hoặc là của chính cá nhân tôi hoặc là được tổng hợp từ nhiều nguồn

tài liệu. Tất cả các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và hợp

pháp.

Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo

quy định cho lời cam đoan này.

Hà Nội, ngày …. tháng … năm …..

…..

4

Mục Lục

LỜI CẢM ƠN .......................................................................................................................2

LỜI CAM ĐOAN .................................................................................................................3

Chương 1: Giới thiệu .......................................................................................................7

Chương 2: Công cụ, nền tảng, thuật toán sử dụng và ứng dụng Phân tích dữ liệu..........9

2.1. Các công cụ nền tảng ..............................................................................................9

2.1.1. Big Data .........................................................................................................9

2.1.2. Giới thiệu về Hadoop...................................................................................13

2.1.3. Các ứng dụng trên nền tảng Apache Hadoop ..............................................14

2.1.4. HDFS ...........................................................................................................16

2.1.5. Đọc ghi dữ liệu trên HDFS..........................................................................17

2.1.6. Map-Reduce.................................................................................................19

2.1.7. SPARK, nền tảng công cụ và ứng dụng ......................................................20

2.2. Giới thiệu về học máy ...........................................................................................26

2.2.1. Một số khái niệm cơ bản..............................................................................27

2.2.2. Các vấn đề trong quá trình thực hiện đề tài .................................................30

Chương 3: Spark và giải thuật rừng ngẫu nhiên song song (Parallel Random Forest -

PRF) .....................................................................................................................32

3.1. Thuật toán rừng ngẫu nhiên ..................................................................................33

3.2. Giải thuật xử lý song song rừng ngẫu nhiên cho dữ liệu lớn trong nền tảng Spark..

...............................................................................................................................36

3.2.1. Tối ưu hóa xử lý dữ liệu đồng thời. .............................................................37

3.2.2. Tối ưu hóa xử lý tiến trình đồng thời...........................................................44

3.2.3. Phân tích phương pháp xử lý task đồng thời ...............................................49

3.3. Kmeans, tối ưu hóa xử lý Kmeans với Spark. ......................................................52

Chương 4: Triển khai thực nghiệm................................................................................57

4.1. Cơ sở dữ liệu Khách hàng 360 độ.........................................................................57

4.2. Mô hình ứng dụng.................................................................................................60

4.2.1. Quá trình Phân cụm dữ liệu huấn luyện: .....................................................63

4.2.2. Lựa chọn ngẫu nhiên các thuộc tính và đánh giá:........................................67

4.2.3. Thực hiện huấn luyện dữ liệu với mô hình Parallel RandomForest ............67

4.3. Đánh giá hiệu suất:................................................................................................73

4.3.1. Đánh giá thời gian xử lý với nhóm dữ liệu..................................................73

4.3.2. Đánh giá thời gian xử lý với từng cụm........................................................73

4.4. Đánh giá hiệu quả thực tế: ....................................................................................74

KẾT LUẬN VÀ ĐỊNH HƯỚNG NGHIÊN CỨU TIẾP THEO ........................................77

TÀI LIỆU THAM KHẢO...................................................................................................80

5

DANH MỤC HÌNH VẼ

Hình 2.1. Kiến trúc HDFS ..............................................................................16

Hình 2.2. Luồng đọc dữ liệu trên HDFS ........................................................18

Hình 2.3. Luồng ghi dữ liệu trên HDFS .........................................................18

Hình 2.4. Mô hình Map-Reduce......................................................................19

Hình 2.5. Cơ chế Map-Reduce........................................................................20

Hình 2.6. thành phần của Spark .....................................................................22

Hình 2.7. Cơ chế hoạt động của Spark...........................................................23

Hình 2.8. Cơ chế hoạt động của Spark và RDD.............................................25

Hình 2.9. Zeppelin và phương thức hoạt động...............................................26

Hình 2.10. Mô hình học có giám sát...............................................................28

Hình 2.11. Mô hình học bán giám sát ............................................................30

Hình 3.1. Đồ thị vòng DAG được hình thành khi xử lý dữ liệu song song trên

Spark UI. .........................................................................................................32

Hình 3.2. Quá trình xây dựng thuật toán rừng ngẫu nhiên RandomForest...34

Hình 3.3. Quá trình phân chia dữ liệu theo chiều dọc của các RDDs trong

Spark ...............................................................................................................38

Hình 3.4. Quá trình xử lý ghép dữ liệu đồng thời của PRF ...........................40

Hình 3.5. Ví dụ về 3 kịch bản khi phân chia dữ liệu.......................................42

Hình 3.6. Ví dụ của task DAG cho một cây quyết định của PRF...................46

Hình 3.7. Hình dạng cụm dữ liệu được khám phá bởi k-means.....................53

Hình 3.8. Thuật toán Kmeans trong Spark .....................................................54

Hình 4.1. Quá trình kết hợp K-Means và RandomForest ..............................60

Hình 4.2. Tỷ lệ độ đo theo ROC của các tập train, test và validation ...........69

Hình 4.3. Important Feataures v1 ..................................................................70

Hình 4.4. ROC - Receiver operating characteristic .......................................71

Hình 4.5. Cumulative Gain.............................................................................71

Hình 4.6. Tỷ lệ độ chính xác trung bình của các mô hình cây khác...............72

Hình 4.7. Phương pháp đo lường kết quả trong thực tế.................................74

Hình 4.8. So sánh tỷ lệ triển khai thực tế TG và MHO ..................................75

Hình 4.9. So sánh tỷ lệ triển khai thực tế MHO và HO..................................76

6

DANH MỤC BẢNG

Bảng 3-1: Ví dụ về DSI của PRF....................................................................40

Bảng 4-1: Danh mục thuộc tính đánh giá xây dựng C360 .............................59

Bảng 4-2: Danh mục thuộc tính được sử dụng...............................................63

Bảng 4-3: Giá trị DaviesBouldin ....................................................................64

Bảng 4-4: Kết quả phân cụm ..........................................................................64

Bảng 4-5: Phân nhóm khách hàng trên 40 tuổi và dưới 40 tuổi.....................66

Bảng 4-6: So sánh tỷ lệ Accuracy giữa Precision, Recall ..............................69

Bảng 4-7: So sánh thời gian chạy giữa KNN và PRF. ...................................70

7

Chương 1: Giới thiệu

Trong thời đại ngày nay, để phát triển một doanh nghiệp, ngoài vốn và

nhân lực, “dữ liệu” (data) được coi là nguồn lực không thể thiếu được. Ai cũng

đã từng ngạc nhiên nhận thấy khi mua sắm trực tuyến trên các trang thương

mại điện tử như eBay, Amazon, Sendo hay Tiki, các trang thương mại điện tử

sẽ gợi ý một loạt các sản phẩm có liên quan và phù hợp với nhu cầu của bạn.

Ví dụ khi xem điện thoại, trang mua sắm trực tuyến sẽ gợi ý cho bạn mua thêm

ốp lưng, pin dự phòng; hoặc khi mua áo thun thì sẽ có thêm gợi ý quần jean và

thắt lưng…

Bí ẩn đằng sau các trang web thông minh này là mọi sự chào mời sản

phẩm đều dựa trên các nghiên cứu về sở thích, thói quen của khách hàng cũng

như phân loại được các nhóm khách hàng khác nhau... Vậy những thông tin để

phân tích này có được từ đâu và có tác động thế nào đến việc sản xuất kinh

doanh của doanh nghiệp? Thứ nhất, dữ liệu khổng lồ về khách hàng có thể có

từ các thông tin mà các doanh nghiệp thu thập trong lúc khách hàng ghé thăm,

tương tác hay mua sắm trên website của mình; dữ liệu này cũng có thể được

mua lại từ các công ty chuyên cung cấp dữ liệu khách hàng. Các thông tin này

không chỉ giúp nhà cung ứng hàng hóa, dịch vụ tăng lợi nhuận cho chính họ

mà còn tăng trải nghiệm mua sắm của người dùng. Một mặt, nhờ quá trình tìm

hiểu, phân tích khách hàng, doanh nghiệp có thể tạo ra các sản phẩm đáp ứng

nhu cầu của khách hàng, cũng như xây dựng chính sách phân phối và bán sản

phẩm đến tay người tiêu dùng một cách có hiệu quả nhất. Mặt khác, bản thân

người tiêu dùng có thể tiết kiệm thời gian và yên tâm trong trải nghiệm mua

sắm của mình. Hơn thế nữa, ở tầm ngành và vĩ mô, ứng dụng dữ liệu lớn (Big

Data) có thể giúp các tổ chức và chính phủ dự đoán được tỉ lệ thất nghiệp, xu

hướng nghề nghiệp của tương lai để đầu tư cho những hạng mục đó, hoặc cắt

giảm chi tiêu, kích thích tăng trưởng kinh tế... thậm chí là ra phương án phòng

ngừa trước một dịch bệnh nào đó.

Việc xây dựng và ứng dụng nền tảng Big Data nếu được khai thác hiệu

quả sẽ đem lại những lợi thế cạnh tranh và hiệu quả to lớn trong nhiều lĩnh vực,

đặc biệt trong bối cảnh thị trường dịch vụ tài chính đang bão hòa, trên cơ sở đó

phân tích những ứng dụng của Big Data và các điều kiện nhằm ứng dụng Big

Data cùng với phân tích dữ liệu để sử dụng nguồn tài nguyên hợp lý và tối đa

hóa doanh thu cũng như đưa các mục tiêu kinh doanh gắn liền với hành vi

8

khách hàng, nhằm mang lại cho doanh nghiệp phương án kinh doanh hiệu quả

nhất.

Việc sử dụng và khai thác dữ liệu lớn như một nguồn tài nguyên tương

tự như dầu khí, hay các nguồn tài nguyên khác là phương án để đưa doanh

nghiệp tiếp cận đến người dùng một cách hiệu quả nhất, kết hợp với mục tiêu

kinh doanh để hoàn thiện hơn các chính sách, tối đa hóa lợi ích cho người dùng

và tăng trưởng doanh thu bền vững cho doanh nghiệp.

Với đề tài “Phân Tích Hành Vi Sử Dụng Dịch Vụ Viễn Thông

Của Khách Hàng Dựa Trên Thuật Toán Phân Cụm Đưa Ra Chính

Sách Khuyến Mại Về Sản Phẩm Và Theo Phân Khúc Khách Hàng”

nhằm mục tiêu đưa ứng dụng Phân tích dữ liệu lớn vào khai thác nguồn tài

nguyên đặc biệt – Big Data. Sử dụng các công cụ khai thác Big Data, các công

cụ được sử dụng để lưu trữ và vận hành hệ thống Big Data - Hadoop, các công

cụ xử lý học máy, xử lý dữ liệu lớn như Spark, Zeppelin (Spark ML), ứng dụng

hệ khuyến nghị, học máy và các kỹ thuật phân tích hành vi khách hàng nhằm

đưa ra kết quả phù hợp nhất với từng nhóm đối tượng khách hàng sử dụng dịch

vụ.

Phần còn lại của luận văn được trình bày theo cấu trúc như sau.

Chương 2 trình bày các khái niệm cơ bản phục vụ cho nghiên cứu của

đề tài, Big Data, các công cụ được sử dụng trong quá trình thực hiện đề tài,

phương thức xây dựng hệ cơ sở dữ liệu khách hàng 360 – là bộ khung dữ liệu

sử dụng xuyên suốt quá trình xây dựng các mô hình học máy và sử dụng để

đánh giá các mô hình học máy, các thuật toán sẽ sử dụng trong quá trình thực

hiện. Tính ứng dụng khi sử dụng thư viện Spark ML và các điểm ưu việt của

Spark khi sử dụng để xây dựng và ứng dụng cho giải thuật rừng ngẫu nhiên

song song.

Chương 3 sẽ trình bày về quá trình thực hiện, các phiên bản xây dựng

mô hình và kết quả thực nghiệm.

Cuối cùng sẽ là phần kết luận, ý nghĩa phương pháp triển khai, các kết

quả đạt được và định hướng nghiên cứu tiếp theo.

Tải ngay đi em, còn do dự, trời tối mất!