Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Ứng dụng thuật toán efim để khai phá tập mục hữu ích cao từ cơ sở dữ liệu bán hàng tại siêu thị co.opmart quảng ngãi
PREMIUM
Số trang
99
Kích thước
6.3 MB
Định dạng
PDF
Lượt xem
1635

Ứng dụng thuật toán efim để khai phá tập mục hữu ích cao từ cơ sở dữ liệu bán hàng tại siêu thị co.opmart quảng ngãi

Nội dung xem thử

Mô tả chi tiết

ĐẠI HỌC ĐÀ NẴNG

TRƯỜNG ĐẠI HỌC SƯ PHẠM

PHẠM THỊ KIM PHƯỢNG

ỨNG DỤNG THUẬT TOÁN EFIM

ĐỂ KHAI PHÁ TẬP MỤC HỮU ÍCH CAO TỪ

CƠ SỞ DỮ LIỆU BÁN HÀNG TẠI SIÊU THỊ

CO.OPMART QUẢNG NGÃI

Chuyên ngành: Hệ thống thông tin

Mã số: 61.49.01.04

TÓM TẮT

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Đà Nẵng – Năm 2017

Công trình được hoàn thành tại

TRƯỜNG ĐẠI HỌC SƯ PHẠM - ĐHĐN

Người hướng dẫn khoa học: PGS.TSKH. Trần Quốc Chiến

Phản biện 1: TS. Vũ Thị Thanh Trà

Phản biện 2: TS. Nguyễn Quang Thanh

Luận văn đã được bảo vệ trước Hội đồng chấm Luận văn tốt

nghiệp thạc sĩ Hệ thống thông tin họp tại Đại học sư phạm – Đại học

Đà Nẵng vào ngày 30 tháng 07 năm 2017

Có thể tìm hiểu luận văn tại:

Thư viện Trường Đại học Sư phạm Đà Nẵng, Đại học Đà Nẵng.

1

MỞ ĐẦU

1. Lý do chọn đề tài

Trong những năm gần đây, khai phá dữ liệu (Data mining) đã

trở thành một trong những hướng nghiên cứu lớn nhất của lĩnh vực

khoa học máy tính và công nghệ thông tin. Khai phá dữ liệu là quá

trình khai phá, trích xuất, khai thác và sử dụng những dữ liệu có giá

trị tiềm ẩn từ bên trong lượng lớn dữ liệu được lưu trữ trong các Cơ

Sở Dữ Liệu (CSDL), kho dữ liệu, trung tâm dữ liệu… dựa trên kĩ

thuật như mạng nơ ron, lý thuyết tập thô, tập mờ, biểu diễn tri thức…

Khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều

lĩnh vực kinh doanh và đời sống khác nhau: Marketing, tài chính,

ngân hàng, bảo hiểm, khoa học, y tế, giáo dục, an ninh...

Khai phá tập mục phổ biến thông thường tập trung chủ yếu vào

việc tìm kiếm và phát hiện các tập mục thường xuyên trong CSDL

giao tác. Mô hình khai phá tập mục phổ biến cơ bản có nhiều ứng

dụng trong thực tế nhưng có những hạn chế, không đáp ứng đầy đủ

yêu cầu của người sử. Chính vì vậy mà một khái niệm mới ra đời, đó

là khai phá tập mục hữu ích cao (High Utility Itemsets Mining) tức là

mỗi một mục có xét đến yếu tố hữu ích của nó (ví dụ: Nhà kinh

doanh họ chỉ quan tâm đến số lượng, lợi nhuận, doanh thu của mỗi

mặt hàng là bao nhiêu trong mỗi lần giao dịch). Như vậy, khai phá

tập mục hữu ích cao là tìm kiếm trong CSDL giao tác các tập mục có

giá trị lớn hơn một ngưỡng hữu ích tối thiểu cho trước.

Khai phá tập mục hữu ích cao là một mở rộng của bài toán

khai phá tập mục phổ biến, đã được nhiều tác giả quan tâm với mục

2

đích đánh giá ý nghĩa của các tập mục trong khai phá luật kết hợp.

Thuật toán EFIM là một trong các thuật toán khai phá tập mục hữu

ích cao, đây là thuật toán mới có khả năng khắc phục các hạn chế của

các thuật toán được đề xuất trước đó.

Siêu thị Co.opMart Quảng Ngãi là một hệ thống siêu thị bán lẻ

của Việt Nam trực thuộc Liên hiệp các Hợp tác xã Thương mại thành

phố Hồ Chí Minh. Co.opMart trở thành nơi mua sắm đáng tin cậy

của người tiêu dùng Quảng Ngãi. Siêu thị cung cấp nhiều mặt hàng

đảm bảo chất lượng và số lượng. Tuy nhiên trong siêu thị có những

mặt hàng tuy số lượng bán nhiều nhưng lợi nhuận mang lại khá thấp

và ngược lại có những mặt hàng tuy số lượng bán ít nhưng mang lại

lợi nhuận cao mà siêu thị chưa xác định được nên chưa có chiến lược

kinh doanh dẫn đến doanh thu bán hàng thấp. Ví dụ: Một ngày siêu

thị bán được 100 bịch khăn giấy nhưng lợi nhuận không cao bằng

bán 1 cái tivi.

Từ đó ta có thể áp dụng kỹ thuật khai phá tập mục hữu ích cao

để rút ra thông tin các mặt hàng bán kèm với nhau mang lại giá trị lợi

nhuận cao cho siêu thị. Coi mỗi mặt hàng là một mục, mỗi hóa đơn

bán hàng là một giao tác. Ứng với mỗi giao tác, mỗi mục có một giá

trị hữu ích nội, chính là số lượng bán ra của mỗi mặt hàng trong từng

hóa đơn, mỗi mặt hàng có giá trị lợi nhuận và được coi là giá trị hữu

ích ngoại của mục.

Từ những lý do trên, với sự hướng dẫn của thầy PGS.TSKH.

Trần Quốc Chiến. Tôi chọn hướng nghiên cứu và thực hiện đề tài:

“Ứng dụng thuật toán EFIM để khai phá tập mục hữu ích cao từ

3

cơ sở dữ liệu bán hàng tại siêu thị Co.opMart Quảng Ngãi”.

2. Mục tiêu và nhiệm vụ

2.1. Mục tiêu

- Thu thập dữ liệu bán hàng tại siêu thị Co.opMart Quảng Ngãi.

- Tìm hiểu thuật toán EFIM để khai phá tập mục hữu ích cao từ

CSDL giao tác.

- Ứng dụng thuật toán EFIM để tìm các tập mục hữu ích cao từ

CSDL bán hàng tại siêu thị Co.opMart Quảng Ngãi.

2.2. Nhiệm vụ

- Tìm hiểu các khái niệm cơ bản về khai phá dữ liệu và khai

phá luật kết hợp.

- Tìm hiểu các thuật toán khai phá tập mục hữu ích cao trước đây.

- Tìm hiểu thuật toán EFIM.

- Thu nhập dữ liệu từ thực tế, tổng hợp phân tích dữ liệu.

- Cài đặt thuật toán EFIM trên CSDL giao tác và rút ra những tập

mục hữu ích cao của mặt hàng thường bán kèm với nhau mang lại lợi

nhuận cao cho siêu thị.

- So sánh thuật toán EFIM so với thuật toán khác.

3. Đối tượng và phạm vi nghiên cứu

3.1. Đối tượng

- Thuật toán EFIM để khai phá tập mục hữu ích cao.

- Thông tin dữ liệu bán hàng tại siêu thị.

3.2. Phạm vi nghiên cứu

- Nghiên cứu thuật toán EFIM để khai phá tập mục hữu ích cao

từ CSDL giao tác.

4

- Số liệu kinh doanh của siêu thị Co.opMart tại Quảng Ngãi

trong thời gian năm 2016.

4. Phương pháp nghiên cứu

4.1. Phương pháp nghiên cứu tài liệu

- Tiến hành thu thập và nghiên cứu các tài liệu có liên quan

đến đề tài.

- Nghiên cứu giải pháp xây dựng và cài đặt thuật toán EFIM.

4.2. Phương pháp thực nghiệm

- Xây dựng cơ sở dữ liệu.

- Cài đặt thuật toán và chạy thử nghiệm trên bộ dữ liệu giao tác.

- Nhận xét và đánh giá kết quả thuật toán EFIM với thuật toán khác.

5. Ý nghĩa của đề tài

5.1. Ý nghĩa khoa học

- Cài đặt thuật toán EFIM để rút ra các mặt hàng bán kèm có

giá trị lợi nhuận cao làm cơ sở để áp dụng thuật toán khai phá luật kết

hợp từ tập mục hữu ích cao.

- Rút ra các ưu điểm so với các thuật toán khác.

5.2. Ý nghĩa thực tiễn

Từ CSDL bán hàng rút ra các mặt hàng bán kèm mang lại lợi

nhuận cao, từ đó định hướng kinh doanh cho siêu thị.

6. Kết quả dự kiến

6.1. Kết quả của đề tài

- Nắm được lý thuyết khai phá tập mục hữu ích cao bằng thuật

toán EFIM.

- Ứng dụng trên CSDL giao tác bán hàng tại siêu thị

5

Co.opMart Quảng Ngãi.

6.2. Hướng phát triển của đề tài.

- Nghiên cứu các thuật toán khai phá tập mục hữu ích cao khác.

- Nghiên cứu thuật toán khai phá luật kết hợp từ tập mục hữu

ích cao.

7. Bố cục luận văn

Chương 1: Cơ sở lý thuyết về khai phá dữ liệu

Chương này trình bày các cơ sở lý thuyết bao gồm: Tổng quan

về khai phá dữ liệu, kỹ thuật khai phá tập mục phổ biến và luật kết

hợp trong CSDL giao tác.

Chương 2: Khai phá tập mục hữu ích cao từ cơ sở dữ liệu

giao tác

Trong chương 2 trình bày các khái niệm liên quan đến khai

phá tập mục hữu ích cao và thuật toán EFIM trong CSDL giao tác.

Chương 3: Cài đặt thuật toán EFIM và ứng dụng khai phá

dữ liệu bán hàng

Chương này tập trung vào thuật toán EFIM, thu thập và xử lý

dữ liệu bán hàng tại siêu thị Co.opMart Quảng Ngãi, cài đặt và thực

nghiệm chương trình. So sánh thuật toán EFIM với thuật toán khác.

Cuối cùng, những đánh giá, kết luận và hướng phát triển của

đề tài trong tương lai.

6

CHƯƠNG 1

CƠ SỞ LÝ THUYẾT VỀ KHAI PHÁ DỮ LIỆU

1.1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1.1. Sơ lượt về khai phá dữ liệu

Khai phá dữ liệu đã thu hút rất nhiều sự chú ý trong ngành

công nghiệp thông tin và toàn xã hội trong những năm gần đây, do sự

sẵn có một lượng lớn dữ liệu và cần phải sắp xếp chuyển dữ liệu đó

thành thông tin và kiến thức bổ ích. Các thông tin và kiến thức thu

được có thể được sử dụng cho các ứng dụng khác nhau, từ phân tích

thị trường, phát hiện gian lận, và duy trì khách hàng, để kiểm soát sản

xuất, v.v. Khai Phá Dữ Liệu (KPDL) là một khái niệm xuất hiện vào

những năm cuối của thập niên 80. Nó bao hàm các kỹ thuật nhằm

phát hiện ra các thông tin có giá trị tiềm ẩn trong các CSDL. KPDL

có một tiềm năng to lớn trong việc tạo ra những lợi nhuận đáng kể

trong nền kinh tế.

Nói cách khác KPDL là quá trình khai phá, trích xuất và sử

dụng những dữ liệu có giá trị tiềm ẩn từ bên trong một lượng lớn dữ

liệu được lưu trữ trong các CSDL, kho dữ liệu…

1.1.2. Quá trình khám phá tri thức từ cơ sở dữ liệu

1.1.3. Các dạng dữ liệu có thể khai phá

- Cơ sở dữ liệu quan hệ (Relational Database): Một hệ thống

cơ sở dữ liệu, cũng được gọi là một hệ thống quản lý CSDL, bao gồm

một bộ sưu tập các dữ liệu liên quan với nhau, được biết đến như là

một CSDL và một tập hợp các chương trình phần mềm để quản lý và

7

truy cập dữ liệu. Các chương trình phần mềm cung cấp cơ chế để xác

định cấu trúc CSDL và lưu trữ dữ liệu, để xác định và quản lý đồng

thời, chia sẻ, hoặc truy cập dữ liệu phân tán, đảm bảo tính thống nhất

và an ninh thông tin lưu trữ bất chấp sự cố hệ thống hoặc các nỗ lực

truy cập trái phép.

- Cơ sở dữ liệu giao tác (Transaction Database): Là tập hợp

những bản ghi giao dịch. Khai phá dữ liệu trên CSDL giao tác tập

trung vào khai phá luật kết hợp, tìm mối tương quan giữa những mục

dữ liệu trong các bản ghi giao dịch. Dạng dữ liệu này thường phổ

biến trong lĩnh vực thương mại, ngân hàng, bán hàng,…

- Cơ sở dữ liệu đa chiều (Multidimention Structures, Data

Warehouses, Data Mart): Các kho dữ liệu được tập hợp và chọn lọc

từ nhiều nguồn dữ liệu khác nhau. Dạng dữ liệu này chủ yếu phục vụ

cho quá trình phân tích cũng như khai phá tri thức và hỗ trợ quá trình

ra quyết định.

- Cơ sở dữ liệu quan hệ - hướng đối tượng (Object Relational

Databases): Dạng dữ liệu kết hợp giữa hai mô hình quan hệ và hướng

đối tượng. Dữ liệu này được ứng dụng trong viễn thông,…

- Dữ liệu không gian và thời gian (Spatial, Temporal, and

Time-series data): Dạng dữ liệu có tích hợp thuộc tính về không gian

như dữ liệu bản đồ, mạng cáp điện thoại hoặc thời gian như dữ liệu

cước điện thoại, phát hành báo chí.

- Cơ sở dữ liệu đa phương tiện (Multimedia Databases): Dạng

dữ liệu âm thanh (Audio), hình ảnh (Video)… Dữ liệu này rất phổ

biến trên internet.

Tải ngay đi em, còn do dự, trời tối mất!