Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông
Nội dung xem thử
Mô tả chi tiết
Hà Nội - 2019
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN CHUNG THÀNH HƯNG
TỔ CHỨC VÀ TÍCH HỢP
HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN
PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2019
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN CHUNG THÀNH HƯNG
TỔ CHỨC VÀ TÍCH HỢP
HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN
PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG
Chuyên ngành: Hệ thống thông tin
Mã số: 8480104.01
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Cán bộ hướng dẫn: PGS. TS Phan Xuân Hiếu
LỜI CẢM ƠN
Tôi xin trân trọng cảm ơn các thầy cô trong Khoa Công nghệ Thông tin đã
tạo điều kiện cho học viên lớp cao học K24CNTT một môi trường học tập thuận
lợi, đồng thời truyền đạt cho tôi một vốn kiến thức quý báu, một tư duy khoa
học để phục vụ cho quá trình học tập và công tác của tôi.
Đặc biệt, tôi xin được bày tỏ lòng biết ơn sâu sắc đến PGS.TS. PHAN
XUÂN HIEU đã tận tình chỉ bảo cho tôi trong suốt quá trình học tập và nghiên
cứu, giúp tôi có nhận thức đúng đắn về kiến thức khoa học, tác phong học tập và
làm việc. Tôi xin gửi lời cảm ơn đến các bạn trong lớp Cao học Hệ thống
Thông tin
K24CNTT khóa 2016- 2018 đã giúp đỡ tôi trong suốt thời gian học tập. Cuối
cùng, tôi xin được gửi lời cảm ơn tới gia đình, đồng nghiệp, người thân đã động
viên, giúp đỡ tôi trong quá trình hoàn thành luận văn.
Do vốn kiến thức lý luận và kinh nghiệm thực tiễn còn ít nên luận văn không
tránh khỏi những thiếu sót. Tôi xin trân trọng tiếp thu các ý kiến của các thầy,
cô, bạn bè để luận văn được hoàn thiện.
Trân trọng cám ơn.
LỜI CAM ĐOAN
Tôi xin cam đoan các kết quả nghiên cứu, thực nghiệm được trình bày trong
luận văn này do tôi thực hiện dưới sự hướng dẫn của PGS.TS Phan Xuân Hiếu
và được thực hiện trong quá trình hợp tác nghiên cứu giữa Tập đoàn Công
nghiệp
- Công nghệ Cao Viettel và đối tácra.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc
một cách rõ ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận văn,
không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không
chỉ rõ về tài liệu tham khảo.
Hà nội, ngày 12 tháng 11 năm 2019.
HỌc viên
Nguyễn Chung Thành Hưng.
MỤC LỤC
LỜI CẢM ƠN..................................................................................................................i
LỜI CAM ĐOAN............................................................................................................i
MỤC LỤC.......................................................................................................................i
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIET TẮT....................................................iv
DANH MỤC CÁC BẢNG..............................................................................................i
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ.......................................................................iii
MỞ ĐẦU........................................................................................................................1
CHƯƠNG 1. TỔNG QUAN..........................................................................................5
1.1. CÁC KHÁI NIỆM CƠ BẢN................................................................................5
1.1.1. Khái niệm chung về dữ liệu lớn.....................................................................5
1.1.2. Các khái niệm lưu trữ dữ liệu lớn...................................................................6
1.1.3 Các khái niệm về xử lý dữ liệu lớn................................................................10
1.1.4. Cái khái niệm phân tích dữ liệu và các loại hình phân tích dữ liệu..............13
1.2. Hệ thống phân tích dữ liệu lớn............................................................................17
1.2.1. Công nghệ lưu trữ dữ liệu trong BigData.....................................................17
1.2.1.1. Công nghệ lưu trữ trên đĩa cứng............................................................17
1.2.1.2. Công nghệ lưu trữ trong bộ nhớ (In-Memory Databases)......................19
1.2.2. Xử lý dữ liệu trong BigData.........................................................................22
1.2.2.1. Xử lý dữ liệu với mô hình Map-Reduce................................................22
1.2.2.2. Các tác vụ Map và Reduce.....................................................................23
1.2.3. Kỹ thuật phân tích bigdata hiện nay.............................................................25
1.3. Các BÀI TOÁN PHÂN TÍCH DỰ BÁO............................................................28
1.3.1. Bài toán phân tích dự báo.............................................................................28
1.3.2. Các mô hình dự báo cơ bản..........................................................................28
1.3.2.1. Mô hình dự báo dựa trên thuật toán cây quyết định:.............................28
1.3.2.2. Mô hình dự báo Gradient Boosting........................................................30
1.3.3. Các kỹ thuật phân tích dự báo......................................................................31
1.3.3.1. Tạo biến đặc trưng..................................................................................31
1.3.3.2. Kỹ thuật lựa chọn đặc trưng...................................................................32
1.3.3.3. Huấn luyện và xác thực trong các mô hình dự báo................................34
1.3.3.4. Đánh giá mô hình dự báo.......................................................................35
1.3.4. Giới thiệu công cụ phân tích Rapidminer.....................................................42
CHƯƠNG 2..................................................................................................................44
PHƯƠNG PHÁP TỔ CHỨC VÀ TÍCH HỢP DỮ LIỆU LỚN...................................44
2.1. CÁC HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN TRONG VIỄN THÔNG......44
2.1.1. Một số ứng dụng hệ thống phân tích dữ liệu lớn phổ biến hiện nay............44
2.1.1.1. Quản lý trải nghiệm khách hàng (Customer Experience Mgmt)...........45
2.1.1.2. Giám sát, quản lý và tối ưu mạng lưới (Network OAM).......................47
2.1.1.3. Phân tích hoạt động (Operation Analytics)............................................48
2.1.1.4. Kiếm tiền từ dữ liệu (Data Monetization)..............................................50
2.1.2. Hiện trạng của Viettel...................................................................................50
2.1.2.1. Các nguồn dữ liệu lớn tại Viettel...........................................................50
2.1.2.2. Các hệ thống phân tích dữ liệu lớn của Viettel......................................51
2.2.1.1. Tầng Data Ingestion...............................................................................53
2.2.1.2. Tầng Data Processing.............................................................................53
2.2.1.3. Tầng Data Analysis Layer......................................................................54
2.2.1.4. Tầng Data Visualization.........................................................................54
2.2.1.5. Tầng Data Repository............................................................................54
2.2.1.6. Tầng Data Govenance............................................................................55
2.2.2. Mô hình tổ chức thực tế hệ thống BigData tại Viettel..................................55
2.2.2.1. Tầng lưu trữ và xử lý dữ liệu..................................................................56
2.2.2.2. Tầng truy xuất dữ liệu............................................................................57
2.2.3. Các công nghệ nền tảng về hệ thống dữ liệu lớn..........................................57
2.2.4. Các phân hệ cài đặt của Cloudera BigData Enterprise flatform...................60
CHƯƠNG 3..................................................................................................................62
THỰC NGHIỆM TÍCH HỢP HỆ THỐNG.................................................................62
DỰ BÁO THUÊ BAO RỜI MẠNG.............................................................................62
3.1. NỘI DUNG THỰC NGHIỆM............................................................................62
3.1.1. Định nghĩa thuê bao rời mạng......................................................................62
3.1.2. Bài toán yêu cầu...........................................................................................62
3.1.3. Các bước thực nghiệm..................................................................................63
3.2. TRIỂN KHAI HỆ THỐNG THỰC NGHIỆM...................................................63
3.2.1. Xây dựng hệ thống phân tích BigData thực nghiệm....................................63
3.2.1.1. Mô hình triển khai Logic........................................................................63
3.2.1.2. Mô hình triển khai vật lý và thông số hệ thống......................................64
3.2.1.3. Cài đặt, cấu hình các thành phần hệ thống thực nghiệm........................65
3.2.1.4. Nguồn dữ liệu.........................................................................................67
3.2.1.5. Luồng xử lý và khai phá dữ liệu............................................................68
3.2.2. Xây dựng mô hình dự báo TBRM................................................................69
3.3. CÁC KET QUẢ THỰC NGHIỆM MÔ HÌNH DỰ BÁO..................................70
3.3.1. Khám phá dữ liệu và tạo các biến đặc trưng................................................70
3.3.1.1. Bảng dữ liệu gọi đi của thuê bao (VOICE_OG)....................................70
3.3.1.2. Dữ liệu gọi đến của thuê bao (VOICE_IC)............................................71
3.3.1.3. Dữ liệu nhắn tin đi của thuê bao (SMS_OG).........................................71
3.3.1.4. Dữ liệu nhắn tin đến của thuê bao (SMS_IC)........................................72
3.3.1.5. Dữ liệu về sử dụng Data của thuê bao (GPRS)......................................72
3.3.1.6. Dữ liệu tiêu dùng hàng ngày của thuê bao (TOT_CHARGE_DAILY).73
3.3.1.7. Dữ liệu về thông tin nạp tiền (TOPUP)..................................................73
3.3.1.8. Dữ liệu số dư tài khoản (ACCOUNT2_DAY).......................................74
3.3.1.9. Dữ liệu trừ cước phí các gói sử dụng theo chu kỳ (DAILYFEE)..........74
3.3.1.10. Dữ liệu tổng hợp charge cước sử dụng các dịch vụ VAS
(VAS_CDR_DAY).............................................................................................75
3.3.1.11. Dữ liệu home (HOME_ACC)..............................................................75
3.3.1.12. Dữ liệu thông tin thuê bao, khách hàng (PRE-SUBS).........................75
3.3.2. Lựa chọn đặc trưng và mô hình hóa.............................................................76
3.3.2.1. Lựa chọn các thuộc tính quan trọng bằng thuật toán Decision Tree......76
3.3.2.2. Huấn luyện và xác nhận mô hình rời mạng...........................................79
3.3.3. Tối ưu mô hình dự báo.................................................................................80
3.3.3.1. Tối ưu bằng cách phân nhóm khách hàng theo hành vi sử dụng...........81
3.3.3.2. Tìm tỷ lệ tối ưu của xác nhận phân tách................................................81
3.3.3.3. Tìm cỡ mẫu tối ưu cho huấn luyện.........................................................82
3.3.3.4. Tối ưu mô hình bằng cách lựa chọn lại các đặc trưng...........................82
3.3.3.5. Xác định lại các tham số của mô hình tối ưu.........................................82
3.3.3.6. Lựa chọn mô hình dự đoán tốt nhất.......................................................83
3.3.3.7. Chạy lại mô hình dự báo với thuật toán Gradien Booting.....................83
3.4. ĐÁNH GIÁ THU HOẠCH................................................................................84
3.4.1. Kết quả đầu ra của hệ thống phân tích, dự báo thuê bao rời mạng...............84
3.4.2. Tri thức thu được sau thực nghiệm...............................................................84
KET LUẬN..................................................................................................................86
TÀI LIỆU THAM KHẢO............................................................................................87
PHỤ LỤC 1.1. ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ TRƯỚC
- PHÂN THEO 4 NHÓM HÀNH VI...........................................................................90
PHỤ LỤC 1.2. ĐẶC ĐIEM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ SAUPHÂN THEO 4 NHÓM HÀNH VI..............................................................................93
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
STT
Ký hiệu/chữ
viết tắt Ý nghĩa
1 ACID
Atomicity, Consistency, Isolation, Durability (Nguyên tắc
thiết kế ACID)
2 AUC Area Under the Curve
3 AUROC Area Under the Receiver Operating Characteristics
4 BASE
Basically Available, Soft state, Eventual consistency
(Nguyên tắc thiết kế BASE)
5 BLOB Binary Large Object
6 CAP
Consistency, Availability and Partition Tolerance (Nguyên
lý CAP)
7 CEM Customer Experience Management (Quản lý trải nghiệm
khách hàng)
8 CEP Complex Event Processing
9 CNN Convolutional Neural Network
10 DBM Deep Boltzmann Machine
11 DBN Deep Belief Networks
12 DT Daytype
13 ETL Extract Transform Load (Trích xuất dữ liệu)
14 FN False Negative
15 FP False Positive
16 FPR False Positive Rate/Fall-out
17 GBM Gradient Boosting Machines
18 GBRT Gradient Boosting Regression Trees
19 ID3 Interactive Dichotomizer 3
20 IG Information Gain (Độ tăng thông tin)
21 IMDB In-Memory Databases (Cơ sở dữ liệu trong bộ nhớ)
22 IMDG
In-Memory Data Grids (Công nghệ lưu trữ dữ liệu trong bộ
nhớ)
23 IOB In-of-bag
24 IoT Internet Of Things
25 LS Learning Set (Tập huấn luyện)
26 M2M Machine to Manchine
27 MDA
Mean Decrease Accuracy (Độ chính xác giảm bình quân
cho mỗi biến)
STT
Ký hiệu/chữ
viết tắt Ý nghĩa
28 MDG
Mean Decrease Gini (Sự giảm bình quân hệ số Gini đối với
mỗi biến)
29 OOB Out-of-bag
30 POD Period of Day
31 QC Quality Call
32 RDBMS
Relation DB Management Systems (Hệ thống lưu trữ cơ sở
dữ liệu quan hệ)
33 RF Random Forest
34 ROC Receiver Operating Characteristics
35 S/N Signal/Noise (Tỷ lệ tín hiệu trên nhiễu)
36 SVM Support Vector Machines
37 TB Thuê bao
38 TBRM Thuê bao rời mạng
39 TN True Negative
40 TP True Positive
41 TPR True Positive Rate/Sentivity/Recall
42 WFLD Weeks Before Last Date
DANH MỤC CÁC BẢNG
STT Chương Mục Bảng Tên bảng
1 1 1.3.3.1 Bảng 1.1
Các thuộc tính ví dụ Ngày và Khách truy
cập và thuộc tính được trích xuất IsWeekendDayfDayg
2 1 1.3.3.2 Bảng 1.2 Các phương pháp trích chọn thuộc tính
3 3 3.2.1.2 Bảng 3.1
Cấu hình hệ thống phân tích BigData thực
nghiệm
4 3 3.2.1.4 Bảng 3.2 Nguồn dữ liệu hệ thống phân tích BigData
thực nghiệm
5 3 3.3.1.1 Bảng 3.3
Các biến đặc trưng cho dữ liệu gọi đi của
thuê bao
6 3 3.3.1.2 Bảng 3.4
Các biến đặc trưng cho dữ liệu gọi đến của
thuê bao
7 3 3.3.1.3 Bảng 3.5 Các biến đặc trưng cho dữ liệu nhắn tin đi
của thuê bao
8 3 3.3.1.4 Bảng 3.6
Các biến đặc trưng cho dữ liệu nhắn tin đi
của thuê bao
9 3 3.3.1.5 Bảng 3.7
Các biến đặc trưng cho dữ liệu sử dụng
Data
của thuê bao
10 3 3.3.1.6 Bảng 3.8
Các biến đặc trưng cho dữ liệu tiêu dùng
hàng ngày của thuê bao
11 3 3.3.1.7 Bảng 3.9 Các biến đặc trưng cho dữ liệu nạp tiền của
thuê bao
12 3 3.3.1.8 Bảng 3.10
Các biến đặc trưng cho dữ liệu số dư tài
khoản của thuê bao
13 3 3.3.1.9 Bảng 3.11
Các biến đặc trưng cho dữ liệu cước phí các
gói sử dụng theo chu kỳ của thuê bao
14 3 3.3.1.10 Bảng 3.12
Các biến đặc trưng cho dữ liệu tổng hợp
charge cước sử dụng các dịch vụ VAS của
thuê bao
15 3 3.3.1.11 Bảng 3.13
Các biến đặc trưng cho dữ liệu home của
thuê bao
16 3 3.3.1.12 Bảng 3.14
Các biến đặc trưng cho dữ liệu thông tin
thuê bao, khách hàng
17 3 3.3.2.1 Bảng 3.15
Lựa chọn các thuộc tính quan trọng bằng
thuật toán Decision Tree
18 3 3.3.2.2 Bảng 3.16
Validation of the Training Data Set (80% of
Total)
19 3 3.3.2.2 Bảng 3.17
Validation of the Testing Data Set (20% of
Total)
STT Chương Mục Bảng Tên bảng
20 3 3.3.2.2 Bảng 3.18 Sử dụng Logistic Regression
21 3 3.3.2.2 Bảng 3.19 Sử dụng Naïve Bayes
22 3 3.3.2.2 Bảng 3.20 So sánh các kết quả
23 3 3.3.3.1 Bảng 3.21 Kết quả phân cụm bằng thuật toán K-mean
24 3 3.3.3.1 Bảng 3.22
Kết quả chi tiết phân cụm bằng thuật toán
K-mean
25 3 3.3.3.4 Bảng 3.23
Tối ưu mô hình bằng cách lựa chọn lại các
đặc trung
26 3 3.3.3.6 Bảng 3.24 Lựa chọn mô hình dự đoán tốt nhất
27 3 3.3.3.7 Bảng 3.25
Mô hình dự báo với thuật toán Gradien
Booting
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
STT Chương Mục Hình Tên hình vẽ
1 1 1.1.1.4 Hình 1.1 Một ví dụ về lưu trữ dạng Key-value
2 1 1.1.1.4 Hình 1.2 Một ví dụ về lưu trữ dạng Document
3 1 1.1.1.4 Hình 1.3 Một ví dụ về lưu trữ dạng Columnfamily
4 1 1.1.1.4 Hình 1.4 Một ví dụ về lưu trữ dạng Graph
5 1 1.1.1.4 Hình 1.5 Sơ đồ Venn tóm tắt định lý CAP
6 1 1.1.1.5 Hình 1.6
Một quy trình ETL có thể trích xuất
dữ liệu từ nhiều nguồn và chuyển đổi
nó
để tải vào một hệ thống đích duy nhất
7 1 1.1.1.5 Hình 1.7
Một tác vụ có thể được chia thành ba
tác vụ phụ được thực thi song song
trên ba bộ xử lý khác nhau trong cùng
một
máy
8 1 1.1.1.5 Hình 1.8 Một ví dụ về xử lý dữ liệu phân tán
9 1 1.1.1.5 Hình 1.9 Hadoop là một khung đa năng cung cấp
cả khả năng xử lý và lưu trữ
10 1 1.1.2 Hình 1.10
Giá trị và độ phức tạp tăng từ phân tích
mô tả đến phân tích đề xuất
11 1 1.2.1.2 Hình 1.11
Thiết bị lưu trữ trong bộ nhớ có tốc độ
truyền dữ liệu nhanh hơn 80 lần so với
thiết bị lưu trữ trên đĩa
12 1 1.2.1.2 Hình 1.12
Một ví dụ mô tả việc truy xuất dữ liệu
từ IMDG
13 1 1.2.1.2 Hình 1.13
Một ví dụ về lưu trữ IMDG xử lý với
một truy vấn liên tục
14 1 1.2.1.2 Hình 1.14
Một ví dụ mô tả việc truy xuất dữ liệu
từ IMDB
15 1 1.2.1.2 Hình 1.15
Một ví dụ về lưu trữ IMDB được cấu
hình với một truy vấn liên tục
16 1 1.2.2.2 Hình 1.16
Một minh họa về công việc
MapReduce
17 1 1.2.2.2 Hình 1.17
Một ví dụ về MapReduce đang hoạt
động
18 1 1.3.2.1 Hình 1.18 Biểu diễn cây quyết định cơ bản
19 1 1.3.2.1 Hình 1.19 Cây quyết định cho việc chơi Tennis
20 1 1.3.2.3 Hình 1.20
Biểu đồ hàm Sigmoid (Ảnh: Tạp chí
Analytics Ấn Độ)
21 1 1.3.2.3 Hình 1.21 Biểu đồ hàm chi phí