Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông
PREMIUM
Số trang
126
Kích thước
4.0 MB
Định dạng
PDF
Lượt xem
1317

Chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông

Nội dung xem thử

Mô tả chi tiết

Hà Nội - 2019

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN CHUNG THÀNH HƯNG

TỔ CHỨC VÀ TÍCH HỢP

HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN

PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2019

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN CHUNG THÀNH HƯNG

TỔ CHỨC VÀ TÍCH HỢP

HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN

PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG

Chuyên ngành: Hệ thống thông tin

Mã số: 8480104.01

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Cán bộ hướng dẫn: PGS. TS Phan Xuân Hiếu

LỜI CẢM ƠN

Tôi xin trân trọng cảm ơn các thầy cô trong Khoa Công nghệ Thông tin đã

tạo điều kiện cho học viên lớp cao học K24CNTT một môi trường học tập thuận

lợi, đồng thời truyền đạt cho tôi một vốn kiến thức quý báu, một tư duy khoa

học để phục vụ cho quá trình học tập và công tác của tôi.

Đặc biệt, tôi xin được bày tỏ lòng biết ơn sâu sắc đến PGS.TS. PHAN

XUÂN HIEU đã tận tình chỉ bảo cho tôi trong suốt quá trình học tập và nghiên

cứu, giúp tôi có nhận thức đúng đắn về kiến thức khoa học, tác phong học tập và

làm việc. Tôi xin gửi lời cảm ơn đến các bạn trong lớp Cao học Hệ thống

Thông tin

K24CNTT khóa 2016- 2018 đã giúp đỡ tôi trong suốt thời gian học tập. Cuối

cùng, tôi xin được gửi lời cảm ơn tới gia đình, đồng nghiệp, người thân đã động

viên, giúp đỡ tôi trong quá trình hoàn thành luận văn.

Do vốn kiến thức lý luận và kinh nghiệm thực tiễn còn ít nên luận văn không

tránh khỏi những thiếu sót. Tôi xin trân trọng tiếp thu các ý kiến của các thầy,

cô, bạn bè để luận văn được hoàn thiện.

Trân trọng cám ơn.

LỜI CAM ĐOAN

Tôi xin cam đoan các kết quả nghiên cứu, thực nghiệm được trình bày trong

luận văn này do tôi thực hiện dưới sự hướng dẫn của PGS.TS Phan Xuân Hiếu

và được thực hiện trong quá trình hợp tác nghiên cứu giữa Tập đoàn Công

nghiệp

- Công nghệ Cao Viettel và đối tácra.

Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc

một cách rõ ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận văn,

không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không

chỉ rõ về tài liệu tham khảo.

Hà nội, ngày 12 tháng 11 năm 2019.

HỌc viên

Nguyễn Chung Thành Hưng.

MỤC LỤC

LỜI CẢM ƠN..................................................................................................................i

LỜI CAM ĐOAN............................................................................................................i

MỤC LỤC.......................................................................................................................i

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIET TẮT....................................................iv

DANH MỤC CÁC BẢNG..............................................................................................i

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ.......................................................................iii

MỞ ĐẦU........................................................................................................................1

CHƯƠNG 1. TỔNG QUAN..........................................................................................5

1.1. CÁC KHÁI NIỆM CƠ BẢN................................................................................5

1.1.1. Khái niệm chung về dữ liệu lớn.....................................................................5

1.1.2. Các khái niệm lưu trữ dữ liệu lớn...................................................................6

1.1.3 Các khái niệm về xử lý dữ liệu lớn................................................................10

1.1.4. Cái khái niệm phân tích dữ liệu và các loại hình phân tích dữ liệu..............13

1.2. Hệ thống phân tích dữ liệu lớn............................................................................17

1.2.1. Công nghệ lưu trữ dữ liệu trong BigData.....................................................17

1.2.1.1. Công nghệ lưu trữ trên đĩa cứng............................................................17

1.2.1.2. Công nghệ lưu trữ trong bộ nhớ (In-Memory Databases)......................19

1.2.2. Xử lý dữ liệu trong BigData.........................................................................22

1.2.2.1. Xử lý dữ liệu với mô hình Map-Reduce................................................22

1.2.2.2. Các tác vụ Map và Reduce.....................................................................23

1.2.3. Kỹ thuật phân tích bigdata hiện nay.............................................................25

1.3. Các BÀI TOÁN PHÂN TÍCH DỰ BÁO............................................................28

1.3.1. Bài toán phân tích dự báo.............................................................................28

1.3.2. Các mô hình dự báo cơ bản..........................................................................28

1.3.2.1. Mô hình dự báo dựa trên thuật toán cây quyết định:.............................28

1.3.2.2. Mô hình dự báo Gradient Boosting........................................................30

1.3.3. Các kỹ thuật phân tích dự báo......................................................................31

1.3.3.1. Tạo biến đặc trưng..................................................................................31

1.3.3.2. Kỹ thuật lựa chọn đặc trưng...................................................................32

1.3.3.3. Huấn luyện và xác thực trong các mô hình dự báo................................34

1.3.3.4. Đánh giá mô hình dự báo.......................................................................35

1.3.4. Giới thiệu công cụ phân tích Rapidminer.....................................................42

CHƯƠNG 2..................................................................................................................44

PHƯƠNG PHÁP TỔ CHỨC VÀ TÍCH HỢP DỮ LIỆU LỚN...................................44

2.1. CÁC HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN TRONG VIỄN THÔNG......44

2.1.1. Một số ứng dụng hệ thống phân tích dữ liệu lớn phổ biến hiện nay............44

2.1.1.1. Quản lý trải nghiệm khách hàng (Customer Experience Mgmt)...........45

2.1.1.2. Giám sát, quản lý và tối ưu mạng lưới (Network OAM).......................47

2.1.1.3. Phân tích hoạt động (Operation Analytics)............................................48

2.1.1.4. Kiếm tiền từ dữ liệu (Data Monetization)..............................................50

2.1.2. Hiện trạng của Viettel...................................................................................50

2.1.2.1. Các nguồn dữ liệu lớn tại Viettel...........................................................50

2.1.2.2. Các hệ thống phân tích dữ liệu lớn của Viettel......................................51

2.2.1.1. Tầng Data Ingestion...............................................................................53

2.2.1.2. Tầng Data Processing.............................................................................53

2.2.1.3. Tầng Data Analysis Layer......................................................................54

2.2.1.4. Tầng Data Visualization.........................................................................54

2.2.1.5. Tầng Data Repository............................................................................54

2.2.1.6. Tầng Data Govenance............................................................................55

2.2.2. Mô hình tổ chức thực tế hệ thống BigData tại Viettel..................................55

2.2.2.1. Tầng lưu trữ và xử lý dữ liệu..................................................................56

2.2.2.2. Tầng truy xuất dữ liệu............................................................................57

2.2.3. Các công nghệ nền tảng về hệ thống dữ liệu lớn..........................................57

2.2.4. Các phân hệ cài đặt của Cloudera BigData Enterprise flatform...................60

CHƯƠNG 3..................................................................................................................62

THỰC NGHIỆM TÍCH HỢP HỆ THỐNG.................................................................62

DỰ BÁO THUÊ BAO RỜI MẠNG.............................................................................62

3.1. NỘI DUNG THỰC NGHIỆM............................................................................62

3.1.1. Định nghĩa thuê bao rời mạng......................................................................62

3.1.2. Bài toán yêu cầu...........................................................................................62

3.1.3. Các bước thực nghiệm..................................................................................63

3.2. TRIỂN KHAI HỆ THỐNG THỰC NGHIỆM...................................................63

3.2.1. Xây dựng hệ thống phân tích BigData thực nghiệm....................................63

3.2.1.1. Mô hình triển khai Logic........................................................................63

3.2.1.2. Mô hình triển khai vật lý và thông số hệ thống......................................64

3.2.1.3. Cài đặt, cấu hình các thành phần hệ thống thực nghiệm........................65

3.2.1.4. Nguồn dữ liệu.........................................................................................67

3.2.1.5. Luồng xử lý và khai phá dữ liệu............................................................68

3.2.2. Xây dựng mô hình dự báo TBRM................................................................69

3.3. CÁC KET QUẢ THỰC NGHIỆM MÔ HÌNH DỰ BÁO..................................70

3.3.1. Khám phá dữ liệu và tạo các biến đặc trưng................................................70

3.3.1.1. Bảng dữ liệu gọi đi của thuê bao (VOICE_OG)....................................70

3.3.1.2. Dữ liệu gọi đến của thuê bao (VOICE_IC)............................................71

3.3.1.3. Dữ liệu nhắn tin đi của thuê bao (SMS_OG).........................................71

3.3.1.4. Dữ liệu nhắn tin đến của thuê bao (SMS_IC)........................................72

3.3.1.5. Dữ liệu về sử dụng Data của thuê bao (GPRS)......................................72

3.3.1.6. Dữ liệu tiêu dùng hàng ngày của thuê bao (TOT_CHARGE_DAILY).73

3.3.1.7. Dữ liệu về thông tin nạp tiền (TOPUP)..................................................73

3.3.1.8. Dữ liệu số dư tài khoản (ACCOUNT2_DAY).......................................74

3.3.1.9. Dữ liệu trừ cước phí các gói sử dụng theo chu kỳ (DAILYFEE)..........74

3.3.1.10. Dữ liệu tổng hợp charge cước sử dụng các dịch vụ VAS

(VAS_CDR_DAY).............................................................................................75

3.3.1.11. Dữ liệu home (HOME_ACC)..............................................................75

3.3.1.12. Dữ liệu thông tin thuê bao, khách hàng (PRE-SUBS).........................75

3.3.2. Lựa chọn đặc trưng và mô hình hóa.............................................................76

3.3.2.1. Lựa chọn các thuộc tính quan trọng bằng thuật toán Decision Tree......76

3.3.2.2. Huấn luyện và xác nhận mô hình rời mạng...........................................79

3.3.3. Tối ưu mô hình dự báo.................................................................................80

3.3.3.1. Tối ưu bằng cách phân nhóm khách hàng theo hành vi sử dụng...........81

3.3.3.2. Tìm tỷ lệ tối ưu của xác nhận phân tách................................................81

3.3.3.3. Tìm cỡ mẫu tối ưu cho huấn luyện.........................................................82

3.3.3.4. Tối ưu mô hình bằng cách lựa chọn lại các đặc trưng...........................82

3.3.3.5. Xác định lại các tham số của mô hình tối ưu.........................................82

3.3.3.6. Lựa chọn mô hình dự đoán tốt nhất.......................................................83

3.3.3.7. Chạy lại mô hình dự báo với thuật toán Gradien Booting.....................83

3.4. ĐÁNH GIÁ THU HOẠCH................................................................................84

3.4.1. Kết quả đầu ra của hệ thống phân tích, dự báo thuê bao rời mạng...............84

3.4.2. Tri thức thu được sau thực nghiệm...............................................................84

KET LUẬN..................................................................................................................86

TÀI LIỆU THAM KHẢO............................................................................................87

PHỤ LỤC 1.1. ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ TRƯỚC

- PHÂN THEO 4 NHÓM HÀNH VI...........................................................................90

PHỤ LỤC 1.2. ĐẶC ĐIEM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ SAU￾PHÂN THEO 4 NHÓM HÀNH VI..............................................................................93

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

STT

Ký hiệu/chữ

viết tắt Ý nghĩa

1 ACID

Atomicity, Consistency, Isolation, Durability (Nguyên tắc

thiết kế ACID)

2 AUC Area Under the Curve

3 AUROC Area Under the Receiver Operating Characteristics

4 BASE

Basically Available, Soft state, Eventual consistency

(Nguyên tắc thiết kế BASE)

5 BLOB Binary Large Object

6 CAP

Consistency, Availability and Partition Tolerance (Nguyên

lý CAP)

7 CEM Customer Experience Management (Quản lý trải nghiệm

khách hàng)

8 CEP Complex Event Processing

9 CNN Convolutional Neural Network

10 DBM Deep Boltzmann Machine

11 DBN Deep Belief Networks

12 DT Daytype

13 ETL Extract Transform Load (Trích xuất dữ liệu)

14 FN False Negative

15 FP False Positive

16 FPR False Positive Rate/Fall-out

17 GBM Gradient Boosting Machines

18 GBRT Gradient Boosting Regression Trees

19 ID3 Interactive Dichotomizer 3

20 IG Information Gain (Độ tăng thông tin)

21 IMDB In-Memory Databases (Cơ sở dữ liệu trong bộ nhớ)

22 IMDG

In-Memory Data Grids (Công nghệ lưu trữ dữ liệu trong bộ

nhớ)

23 IOB In-of-bag

24 IoT Internet Of Things

25 LS Learning Set (Tập huấn luyện)

26 M2M Machine to Manchine

27 MDA

Mean Decrease Accuracy (Độ chính xác giảm bình quân

cho mỗi biến)

STT

Ký hiệu/chữ

viết tắt Ý nghĩa

28 MDG

Mean Decrease Gini (Sự giảm bình quân hệ số Gini đối với

mỗi biến)

29 OOB Out-of-bag

30 POD Period of Day

31 QC Quality Call

32 RDBMS

Relation DB Management Systems (Hệ thống lưu trữ cơ sở

dữ liệu quan hệ)

33 RF Random Forest

34 ROC Receiver Operating Characteristics

35 S/N Signal/Noise (Tỷ lệ tín hiệu trên nhiễu)

36 SVM Support Vector Machines

37 TB Thuê bao

38 TBRM Thuê bao rời mạng

39 TN True Negative

40 TP True Positive

41 TPR True Positive Rate/Sentivity/Recall

42 WFLD Weeks Before Last Date

DANH MỤC CÁC BẢNG

STT Chương Mục Bảng Tên bảng

1 1 1.3.3.1 Bảng 1.1

Các thuộc tính ví dụ Ngày và Khách truy

cập và thuộc tính được trích xuất IsWeek￾endDayfDayg

2 1 1.3.3.2 Bảng 1.2 Các phương pháp trích chọn thuộc tính

3 3 3.2.1.2 Bảng 3.1

Cấu hình hệ thống phân tích BigData thực

nghiệm

4 3 3.2.1.4 Bảng 3.2 Nguồn dữ liệu hệ thống phân tích BigData

thực nghiệm

5 3 3.3.1.1 Bảng 3.3

Các biến đặc trưng cho dữ liệu gọi đi của

thuê bao

6 3 3.3.1.2 Bảng 3.4

Các biến đặc trưng cho dữ liệu gọi đến của

thuê bao

7 3 3.3.1.3 Bảng 3.5 Các biến đặc trưng cho dữ liệu nhắn tin đi

của thuê bao

8 3 3.3.1.4 Bảng 3.6

Các biến đặc trưng cho dữ liệu nhắn tin đi

của thuê bao

9 3 3.3.1.5 Bảng 3.7

Các biến đặc trưng cho dữ liệu sử dụng

Data

của thuê bao

10 3 3.3.1.6 Bảng 3.8

Các biến đặc trưng cho dữ liệu tiêu dùng

hàng ngày của thuê bao

11 3 3.3.1.7 Bảng 3.9 Các biến đặc trưng cho dữ liệu nạp tiền của

thuê bao

12 3 3.3.1.8 Bảng 3.10

Các biến đặc trưng cho dữ liệu số dư tài

khoản của thuê bao

13 3 3.3.1.9 Bảng 3.11

Các biến đặc trưng cho dữ liệu cước phí các

gói sử dụng theo chu kỳ của thuê bao

14 3 3.3.1.10 Bảng 3.12

Các biến đặc trưng cho dữ liệu tổng hợp

charge cước sử dụng các dịch vụ VAS của

thuê bao

15 3 3.3.1.11 Bảng 3.13

Các biến đặc trưng cho dữ liệu home của

thuê bao

16 3 3.3.1.12 Bảng 3.14

Các biến đặc trưng cho dữ liệu thông tin

thuê bao, khách hàng

17 3 3.3.2.1 Bảng 3.15

Lựa chọn các thuộc tính quan trọng bằng

thuật toán Decision Tree

18 3 3.3.2.2 Bảng 3.16

Validation of the Training Data Set (80% of

Total)

19 3 3.3.2.2 Bảng 3.17

Validation of the Testing Data Set (20% of

Total)

STT Chương Mục Bảng Tên bảng

20 3 3.3.2.2 Bảng 3.18 Sử dụng Logistic Regression

21 3 3.3.2.2 Bảng 3.19 Sử dụng Naïve Bayes

22 3 3.3.2.2 Bảng 3.20 So sánh các kết quả

23 3 3.3.3.1 Bảng 3.21 Kết quả phân cụm bằng thuật toán K-mean

24 3 3.3.3.1 Bảng 3.22

Kết quả chi tiết phân cụm bằng thuật toán

K-mean

25 3 3.3.3.4 Bảng 3.23

Tối ưu mô hình bằng cách lựa chọn lại các

đặc trung

26 3 3.3.3.6 Bảng 3.24 Lựa chọn mô hình dự đoán tốt nhất

27 3 3.3.3.7 Bảng 3.25

Mô hình dự báo với thuật toán Gradien

Booting

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

STT Chương Mục Hình Tên hình vẽ

1 1 1.1.1.4 Hình 1.1 Một ví dụ về lưu trữ dạng Key-value

2 1 1.1.1.4 Hình 1.2 Một ví dụ về lưu trữ dạng Document

3 1 1.1.1.4 Hình 1.3 Một ví dụ về lưu trữ dạng Column￾family

4 1 1.1.1.4 Hình 1.4 Một ví dụ về lưu trữ dạng Graph

5 1 1.1.1.4 Hình 1.5 Sơ đồ Venn tóm tắt định lý CAP

6 1 1.1.1.5 Hình 1.6

Một quy trình ETL có thể trích xuất

dữ liệu từ nhiều nguồn và chuyển đổi

để tải vào một hệ thống đích duy nhất

7 1 1.1.1.5 Hình 1.7

Một tác vụ có thể được chia thành ba

tác vụ phụ được thực thi song song

trên ba bộ xử lý khác nhau trong cùng

một

máy

8 1 1.1.1.5 Hình 1.8 Một ví dụ về xử lý dữ liệu phân tán

9 1 1.1.1.5 Hình 1.9 Hadoop là một khung đa năng cung cấp

cả khả năng xử lý và lưu trữ

10 1 1.1.2 Hình 1.10

Giá trị và độ phức tạp tăng từ phân tích

mô tả đến phân tích đề xuất

11 1 1.2.1.2 Hình 1.11

Thiết bị lưu trữ trong bộ nhớ có tốc độ

truyền dữ liệu nhanh hơn 80 lần so với

thiết bị lưu trữ trên đĩa

12 1 1.2.1.2 Hình 1.12

Một ví dụ mô tả việc truy xuất dữ liệu

từ IMDG

13 1 1.2.1.2 Hình 1.13

Một ví dụ về lưu trữ IMDG xử lý với

một truy vấn liên tục

14 1 1.2.1.2 Hình 1.14

Một ví dụ mô tả việc truy xuất dữ liệu

từ IMDB

15 1 1.2.1.2 Hình 1.15

Một ví dụ về lưu trữ IMDB được cấu

hình với một truy vấn liên tục

16 1 1.2.2.2 Hình 1.16

Một minh họa về công việc

MapReduce

17 1 1.2.2.2 Hình 1.17

Một ví dụ về MapReduce đang hoạt

động

18 1 1.3.2.1 Hình 1.18 Biểu diễn cây quyết định cơ bản

19 1 1.3.2.1 Hình 1.19 Cây quyết định cho việc chơi Tennis

20 1 1.3.2.3 Hình 1.20

Biểu đồ hàm Sigmoid (Ảnh: Tạp chí

Analytics Ấn Độ)

21 1 1.3.2.3 Hình 1.21 Biểu đồ hàm chi phí

Tải ngay đi em, còn do dự, trời tối mất!