Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Phân Tích Hành Vi Sử Dụng Dịch Vụ Viễn Thông Của Khách Hàng Dựa Trên Thuật Toán Phân Cụm Đưa Ra Chính Sách Khuyến Mại Về Sản Phẩm Và Theo Phân Khúc Khách Hàng
Nội dung xem thử
Mô tả chi tiết
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
HOÀNG ANH DŨNG
PHÂN TÍCH HÀNH VI SỬ DỤNG DỊCH VỤ VIỄN THÔNG
CỦA KHÁCH HÀNG DỰA TRÊN
THUẬT TOÁN PHÂN CỤM ĐƯA RA CHÍNH SÁCH
KHUYẾN MẠI VỀ SẢN PHẨM VÀ THEO PHÂN KHÚC
KHÁCH HÀNG
Ngành: Công Nghệ Thông Tin
Chuyên ngành: Khoa Học Máy Tính
Mã Số: 8480101.01
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. TRẦN TRÚC MAI
TS. NGUYỄN ĐÌNH HÓA
Hà nội – 2020
2
LỜI CẢM ƠN
Trước tiên tôi xin dành lời cảm ơn chân thành và sâu sắc đến thầy giáo,
TS Trần Trúc Mai, người đã định hướng về mục tiêu và cách thức thực hiện đề
tài. TS Nguyễn Đình Hóa – người đã hướng dẫn, khuyến khích, chỉ bảo và tạo
cho tôi những điều kiện tốt nhất từ khi bắt đầu cho tới khi hoàn thành nhiệm
vụ và đề tài của mình.
Tôi xin dành lời cảm ơn chân thành tới các thầy cô giáo khoa Công nghệ
thông tin, trường Đại học Công nghệ, ĐHQGHN đã tận tình đào tạo, cung cấp
cho tôi những kiến thức vô cùng quý giá và đã tạo điều kiện tốt nhất cho tôi
trong suốt quá trình học tập, nghiên cứu tại trường.
Đồng thời tôi xin cảm ơn tất cả những người thân yêu trong gia đình tôi
cùng toàn thể bạn bè những người đã luôn giúp đỡ, động viên tôi những khi
vấp phải những khó khăn, bế tắc.
Cuối cùng, tôi xin chân thành cảm ơn các đồng nghiệp của tôi tại Trung
Tâm Phân Tích Dữ Liệu – Viettel, đã giúp đỡ, tạo điều kiện thuận lợi cho tôi
học tập và nghiên cứu chương trình thạc sĩ tại Đại học Công nghệ, Đại học
Quốc Gia Hà Nội.
3
LỜI CAM ĐOAN
Tôi xin cam đoan rằng luận văn thạc sĩ công nghệ thông tin “PHÂN
TÍCH HÀNH VI SỬ DỤNG DỊCH VỤ VIỄN THÔNG CỦA KHÁCH
HÀNG DỰA TRÊN THUẬT TOÁN PHÂN CỤM ĐƯA RA CHÍNH
SÁCH KHUYẾN MẠI VỀ SẢN PHẨM VÀ THEO PHÂN KHÚC
KHÁCH HÀNG” là công trình nghiên cứu của riêng tôi, không sao chép lại
của người khác. Trong toàn bộ nội dung của luận văn, những điều đã được
trình bày hoặc là của chính cá nhân tôi hoặc là được tổng hợp từ nhiều nguồn
tài liệu. Tất cả các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và hợp
pháp.
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo
quy định cho lời cam đoan này.
Hà Nội, ngày …. tháng … năm …..
…..
4
Mục Lục
LỜI CẢM ƠN .......................................................................................................................2
LỜI CAM ĐOAN .................................................................................................................3
Chương 1: Giới thiệu .......................................................................................................7
Chương 2: Công cụ, nền tảng, thuật toán sử dụng và ứng dụng Phân tích dữ liệu..........9
2.1. Các công cụ nền tảng ..............................................................................................9
2.1.1. Big Data .........................................................................................................9
2.1.2. Giới thiệu về Hadoop...................................................................................13
2.1.3. Các ứng dụng trên nền tảng Apache Hadoop ..............................................14
2.1.4. HDFS ...........................................................................................................16
2.1.5. Đọc ghi dữ liệu trên HDFS..........................................................................17
2.1.6. Map-Reduce.................................................................................................19
2.1.7. SPARK, nền tảng công cụ và ứng dụng ......................................................20
2.2. Giới thiệu về học máy ...........................................................................................26
2.2.1. Một số khái niệm cơ bản..............................................................................27
2.2.2. Các vấn đề trong quá trình thực hiện đề tài .................................................30
Chương 3: Spark và giải thuật rừng ngẫu nhiên song song (Parallel Random Forest -
PRF) .....................................................................................................................32
3.1. Thuật toán rừng ngẫu nhiên ..................................................................................33
3.2. Giải thuật xử lý song song rừng ngẫu nhiên cho dữ liệu lớn trong nền tảng Spark..
...............................................................................................................................36
3.2.1. Tối ưu hóa xử lý dữ liệu đồng thời. .............................................................37
3.2.2. Tối ưu hóa xử lý tiến trình đồng thời...........................................................44
3.2.3. Phân tích phương pháp xử lý task đồng thời ...............................................49
3.3. Kmeans, tối ưu hóa xử lý Kmeans với Spark. ......................................................52
Chương 4: Triển khai thực nghiệm................................................................................57
4.1. Cơ sở dữ liệu Khách hàng 360 độ.........................................................................57
4.2. Mô hình ứng dụng.................................................................................................60
4.2.1. Quá trình Phân cụm dữ liệu huấn luyện: .....................................................63
4.2.2. Lựa chọn ngẫu nhiên các thuộc tính và đánh giá:........................................67
4.2.3. Thực hiện huấn luyện dữ liệu với mô hình Parallel RandomForest ............67
4.3. Đánh giá hiệu suất:................................................................................................73
4.3.1. Đánh giá thời gian xử lý với nhóm dữ liệu..................................................73
4.3.2. Đánh giá thời gian xử lý với từng cụm........................................................73
4.4. Đánh giá hiệu quả thực tế: ....................................................................................74
KẾT LUẬN VÀ ĐỊNH HƯỚNG NGHIÊN CỨU TIẾP THEO ........................................77
TÀI LIỆU THAM KHẢO...................................................................................................80
5
DANH MỤC HÌNH VẼ
Hình 2.1. Kiến trúc HDFS ..............................................................................16
Hình 2.2. Luồng đọc dữ liệu trên HDFS ........................................................18
Hình 2.3. Luồng ghi dữ liệu trên HDFS .........................................................18
Hình 2.4. Mô hình Map-Reduce......................................................................19
Hình 2.5. Cơ chế Map-Reduce........................................................................20
Hình 2.6. thành phần của Spark .....................................................................22
Hình 2.7. Cơ chế hoạt động của Spark...........................................................23
Hình 2.8. Cơ chế hoạt động của Spark và RDD.............................................25
Hình 2.9. Zeppelin và phương thức hoạt động...............................................26
Hình 2.10. Mô hình học có giám sát...............................................................28
Hình 2.11. Mô hình học bán giám sát ............................................................30
Hình 3.1. Đồ thị vòng DAG được hình thành khi xử lý dữ liệu song song trên
Spark UI. .........................................................................................................32
Hình 3.2. Quá trình xây dựng thuật toán rừng ngẫu nhiên RandomForest...34
Hình 3.3. Quá trình phân chia dữ liệu theo chiều dọc của các RDDs trong
Spark ...............................................................................................................38
Hình 3.4. Quá trình xử lý ghép dữ liệu đồng thời của PRF ...........................40
Hình 3.5. Ví dụ về 3 kịch bản khi phân chia dữ liệu.......................................42
Hình 3.6. Ví dụ của task DAG cho một cây quyết định của PRF...................46
Hình 3.7. Hình dạng cụm dữ liệu được khám phá bởi k-means.....................53
Hình 3.8. Thuật toán Kmeans trong Spark .....................................................54
Hình 4.1. Quá trình kết hợp K-Means và RandomForest ..............................60
Hình 4.2. Tỷ lệ độ đo theo ROC của các tập train, test và validation ...........69
Hình 4.3. Important Feataures v1 ..................................................................70
Hình 4.4. ROC - Receiver operating characteristic .......................................71
Hình 4.5. Cumulative Gain.............................................................................71
Hình 4.6. Tỷ lệ độ chính xác trung bình của các mô hình cây khác...............72
Hình 4.7. Phương pháp đo lường kết quả trong thực tế.................................74
Hình 4.8. So sánh tỷ lệ triển khai thực tế TG và MHO ..................................75
Hình 4.9. So sánh tỷ lệ triển khai thực tế MHO và HO..................................76
6
DANH MỤC BẢNG
Bảng 3-1: Ví dụ về DSI của PRF....................................................................40
Bảng 4-1: Danh mục thuộc tính đánh giá xây dựng C360 .............................59
Bảng 4-2: Danh mục thuộc tính được sử dụng...............................................63
Bảng 4-3: Giá trị DaviesBouldin ....................................................................64
Bảng 4-4: Kết quả phân cụm ..........................................................................64
Bảng 4-5: Phân nhóm khách hàng trên 40 tuổi và dưới 40 tuổi.....................66
Bảng 4-6: So sánh tỷ lệ Accuracy giữa Precision, Recall ..............................69
Bảng 4-7: So sánh thời gian chạy giữa KNN và PRF. ...................................70
7
Chương 1: Giới thiệu
Trong thời đại ngày nay, để phát triển một doanh nghiệp, ngoài vốn và
nhân lực, “dữ liệu” (data) được coi là nguồn lực không thể thiếu được. Ai cũng
đã từng ngạc nhiên nhận thấy khi mua sắm trực tuyến trên các trang thương
mại điện tử như eBay, Amazon, Sendo hay Tiki, các trang thương mại điện tử
sẽ gợi ý một loạt các sản phẩm có liên quan và phù hợp với nhu cầu của bạn.
Ví dụ khi xem điện thoại, trang mua sắm trực tuyến sẽ gợi ý cho bạn mua thêm
ốp lưng, pin dự phòng; hoặc khi mua áo thun thì sẽ có thêm gợi ý quần jean và
thắt lưng…
Bí ẩn đằng sau các trang web thông minh này là mọi sự chào mời sản
phẩm đều dựa trên các nghiên cứu về sở thích, thói quen của khách hàng cũng
như phân loại được các nhóm khách hàng khác nhau... Vậy những thông tin để
phân tích này có được từ đâu và có tác động thế nào đến việc sản xuất kinh
doanh của doanh nghiệp? Thứ nhất, dữ liệu khổng lồ về khách hàng có thể có
từ các thông tin mà các doanh nghiệp thu thập trong lúc khách hàng ghé thăm,
tương tác hay mua sắm trên website của mình; dữ liệu này cũng có thể được
mua lại từ các công ty chuyên cung cấp dữ liệu khách hàng. Các thông tin này
không chỉ giúp nhà cung ứng hàng hóa, dịch vụ tăng lợi nhuận cho chính họ
mà còn tăng trải nghiệm mua sắm của người dùng. Một mặt, nhờ quá trình tìm
hiểu, phân tích khách hàng, doanh nghiệp có thể tạo ra các sản phẩm đáp ứng
nhu cầu của khách hàng, cũng như xây dựng chính sách phân phối và bán sản
phẩm đến tay người tiêu dùng một cách có hiệu quả nhất. Mặt khác, bản thân
người tiêu dùng có thể tiết kiệm thời gian và yên tâm trong trải nghiệm mua
sắm của mình. Hơn thế nữa, ở tầm ngành và vĩ mô, ứng dụng dữ liệu lớn (Big
Data) có thể giúp các tổ chức và chính phủ dự đoán được tỉ lệ thất nghiệp, xu
hướng nghề nghiệp của tương lai để đầu tư cho những hạng mục đó, hoặc cắt
giảm chi tiêu, kích thích tăng trưởng kinh tế... thậm chí là ra phương án phòng
ngừa trước một dịch bệnh nào đó.
Việc xây dựng và ứng dụng nền tảng Big Data nếu được khai thác hiệu
quả sẽ đem lại những lợi thế cạnh tranh và hiệu quả to lớn trong nhiều lĩnh vực,
đặc biệt trong bối cảnh thị trường dịch vụ tài chính đang bão hòa, trên cơ sở đó
phân tích những ứng dụng của Big Data và các điều kiện nhằm ứng dụng Big
Data cùng với phân tích dữ liệu để sử dụng nguồn tài nguyên hợp lý và tối đa
hóa doanh thu cũng như đưa các mục tiêu kinh doanh gắn liền với hành vi
8
khách hàng, nhằm mang lại cho doanh nghiệp phương án kinh doanh hiệu quả
nhất.
Việc sử dụng và khai thác dữ liệu lớn như một nguồn tài nguyên tương
tự như dầu khí, hay các nguồn tài nguyên khác là phương án để đưa doanh
nghiệp tiếp cận đến người dùng một cách hiệu quả nhất, kết hợp với mục tiêu
kinh doanh để hoàn thiện hơn các chính sách, tối đa hóa lợi ích cho người dùng
và tăng trưởng doanh thu bền vững cho doanh nghiệp.
Với đề tài “Phân Tích Hành Vi Sử Dụng Dịch Vụ Viễn Thông
Của Khách Hàng Dựa Trên Thuật Toán Phân Cụm Đưa Ra Chính
Sách Khuyến Mại Về Sản Phẩm Và Theo Phân Khúc Khách Hàng”
nhằm mục tiêu đưa ứng dụng Phân tích dữ liệu lớn vào khai thác nguồn tài
nguyên đặc biệt – Big Data. Sử dụng các công cụ khai thác Big Data, các công
cụ được sử dụng để lưu trữ và vận hành hệ thống Big Data - Hadoop, các công
cụ xử lý học máy, xử lý dữ liệu lớn như Spark, Zeppelin (Spark ML), ứng dụng
hệ khuyến nghị, học máy và các kỹ thuật phân tích hành vi khách hàng nhằm
đưa ra kết quả phù hợp nhất với từng nhóm đối tượng khách hàng sử dụng dịch
vụ.
Phần còn lại của luận văn được trình bày theo cấu trúc như sau.
Chương 2 trình bày các khái niệm cơ bản phục vụ cho nghiên cứu của
đề tài, Big Data, các công cụ được sử dụng trong quá trình thực hiện đề tài,
phương thức xây dựng hệ cơ sở dữ liệu khách hàng 360 – là bộ khung dữ liệu
sử dụng xuyên suốt quá trình xây dựng các mô hình học máy và sử dụng để
đánh giá các mô hình học máy, các thuật toán sẽ sử dụng trong quá trình thực
hiện. Tính ứng dụng khi sử dụng thư viện Spark ML và các điểm ưu việt của
Spark khi sử dụng để xây dựng và ứng dụng cho giải thuật rừng ngẫu nhiên
song song.
Chương 3 sẽ trình bày về quá trình thực hiện, các phiên bản xây dựng
mô hình và kết quả thực nghiệm.
Cuối cùng sẽ là phần kết luận, ý nghĩa phương pháp triển khai, các kết
quả đạt được và định hướng nghiên cứu tiếp theo.