Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Phương pháp xây dựng đồ thị tri thức về du lịch Việt Nam
PREMIUM
Số trang
140
Kích thước
4.5 MB
Định dạng
PDF
Lượt xem
1328

Phương pháp xây dựng đồ thị tri thức về du lịch Việt Nam

Nội dung xem thử

Mô tả chi tiết

1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH

--------∞0∞--------

TRẦN LÊ QUỲNH DAO

PHƯƠNG PHÁP

XÂY DỰNG ĐỒ THỊ TRI THỨC

VỀ DU LỊCH VIỆT NAM

LUẬN VĂN THẠC SĨ

KHOA HỌC MÁY TÍNH

TP. HỒ CHÍ MINH, NĂM 2021

2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH

--------∞0∞--------

TRẦN LÊ QUỲNH DAO

PHƯƠNG PHÁP

XÂY DỰNG ĐỒ THỊ TRI THỨC

VỀ DU LỊCH VIỆT NAM

Chuyên ngành: Khoa học máy tính

Mã số chuyên ngành: 8 48 01 01

LUẬN VĂN THẠC SĨ

KHOA HỌC MÁY TÍNH

Giảng viên hướng dẫn: PGS.TS ĐỖ PHÚC

TP. HỒ CHÍ MINH, NĂM 2021

TRƯỜNG ĐẠI HỌC MỞ

THÀNH PHỐ HỒ CHÍ MINH

KHOA ĐÀO TẠO SAU ĐẠI HỌC

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập – Tự do – Hạnh phúc

GIẤY XÁC NHẬN

Tôi tên là: TRẦN LÊ QUỲNH DAO

Ngày sinh: 02/01/1981 Nơi sinh: Tỉnh Bến Tre

Chuyên ngành: KHOA HỌC MÁY TÍNH Mã học viên: 1784801010021

Tôi đồng ý cung cấp toàn văn thông tin luận văn tốt nghiệp hợp lệ về bản quyền cho

Thư viện trường đại học Mở Thành phố Hồ Chí Minh. Thư viện trường đại học Mở

Thành phố Hồ Chí Minh sẽ kết nối toàn văn thông tin luận văn tốt nghiệp vào hệ thống

thông tin khoa học của Sở Khoa học và Công nghệ Thành phố Hồ Chí Minh.

Ký tên

Trần Lê Quỳnh Dao

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn là công trình nghiên cứu của riêng cá nhân tôi

đƣợc hoàn thành dƣới sự hƣớng dẫn của giáo viên hƣớng dẫn PGS.TS Đỗ Phúc. Số

liệu và những kết quả trong luận văn là trung thực và chƣa đƣợc công bố trong bất

kỳ một công trình nào khác.

TP. Hồ Chí Minh, ngày 07 tháng 04 năm 2021

Tác giả luận văn

Trần Lê Quỳnh Dao

LỜI CẢM ƠN

Lời đầu tiên, tôi xin chân thành gửi lời cám ơn sâu sắc tới PGS.TS Đỗ Phúc

vì thầy đã định hƣớng, hƣớng dẫn, và tạo điều kiện thuận lợi để tôi hoàn thành luận

văn. Tôi cũng xin gửi lời cảm ơn đến các thầy cô là giảng viên đã trực tiếp giảng

dạy tôi trong quá trình tôi theo học ngành Khoa học máy tính tại trƣờng Đại học mở

Thành phố Hồ Chí Minh.

Cuối cùng tôi xin gửi lời cảm ơn đến Ban lãnh đạo nhà trƣờng, khoa Sau đại

học trƣờng Đại học mở Thành phố Hồ Chí Minh, bạn bè cùng khóa, các thành viên

trong gia đình đã thƣờng xuyên quan tâm, giúp đỡ, động viên trong quá trình thực

hiện đề tài luận văn.

TP. Hồ Chí Minh, ngày 07 tháng 04 năm 2021

Tác giả luận văn

Trần Lê Quỳnh Dao

TRƢỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH

KHOA SAU ĐẠI HỌC

¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯

TÓM TẮT LUẬN VĂN

(Dùng cho học viên và người hướng dẫn)

Đề tài: “Phƣơng pháp xây dựng đồ thị tri thức về du lịch Việt Nam”

Ngành: Khoa học máy tính Mã số: 1784801010021

Học viên: Trần Lê Quỳnh Dao

Ngƣời hƣớng dẫn: PGS. TS. Đỗ Phúc

NỘI DUNG TÓM TẮT

Các dữ liệu liên quan đến tri thức của con ngƣời là rất lớn và vô cùng phức

tạp. Vì vậy, vấn đề mô hình hóa tri thức, các kỹ thuật truy xuất, xử lý trên nó làm cơ

sở giúp máy tính phân tích, xử lý giải quyết các vấn đề đặt ra đƣợc đặc biệt quan

tâm.

Trên thế giới đã có những công trình nghiên cứu thực hiện mô hình hóa tri

thức với hệ thống dữ liệu đƣợc xây dựng dựa trên mô hình đồ thị. Nó đƣợc gọi là đồ

thị tri thức (Knowledge Graph). Đồ thị tri thức biểu diễn dữ liệu liên quan đến tri

thức của con ngƣời, có thể đặt ra các câu hỏi phức tạp về các sự kiện, sự vật và nhận

đƣợc câu trả lời tốt từ kho dữ liệu này theo thời gian thực.

Tại Việt Nam, chƣa có dự án nào về đồ thị tri thức đƣợc công bố. Các tập dữ

liệu (Dataset) tiếng Việt hiện khá rời rạc. Mỗi cơ quan, doanh nghiệp đều quản lý

các bộ dữ liệu riêng của mình, chúng hầu nhƣ không thể kết nối với nhau.

Vì vậy, việc nghiên cứu mô hình qua đó đề xuất phƣơng pháp xây dựng đồ

thị tri thức bằng tiếng Việt, dù nghiên cứu chỉ là ở bƣớc đầu, cũng là rất cần thiết

nhằm hƣớng đến các nghiên cứu sâu hơn nhằm xây dựng một đồ thị tri thức tiếng

Việt phục vụ các ứng dụng liên quan đến trí tuệ nhân tạo ở Việt Nam.

Vì vậy, chúng tôi nghiên cứu và đề xuất một phƣơng pháp xây dựng một đồ thị

tri thức về lĩnh vực du lịch bằng tiếng Việt, đồng thời minh họa bằng cách đọc một

số dữ liệu mẫu vào cơ sở dữ liệu đồ thị Neo4j. Sau đó, chúng tôi đề xuất một số

cách truy xuất dữ liệu từ đồ thị để trả lời các dạng câu hỏi liên quan đến chủ đề du

lịch.

Luận văn gồm có 4 chƣơng:

Chƣơng 1: TỔNG QUAN

Giới thiệu tổng quan về khái niệm đồ thị tri thức.

Chƣơng 2: CƠ SỞ LÝ THUYẾT

Giới thiệu lý thuyết về đồ thị, sử dụng đồ thị để mô phỏng các liên kết dữ

liệu phong phú và phù hợp với ngôn ngữ tự nhiên bằng cơ sở dữ liệu đồ thị, phát

triển thành đồ thị tri thức, đồng thời giới thiệu một số cách thu thập dữ liệu vào đồ

thị tri thức.

Chƣơng 3: PHƢƠNG PHÁP XÂY DỰNG LƢỢC ĐỒ CỦA ĐỒ THỊ

TRI THỨC

Đề xuất một lƣợc đồ của đồ thị tri thức về lĩnh vực du lịch bằng tiếng Việt

dựa vào lƣợc đồ từ trang Schema.org. Việc xây dựng một lƣợc đồ cho đồ thị tri thức

là rất quan trọng vì nó dùng để mô tả tổng quát các đối tƣợng dữ liệu và các quan hệ

phức tạp giữa chúng trong thế giới thực, đồng thời quyết định các thuật toán cập

nhật, truy xuất dữ liệu.

Chƣơng 4: PHƢƠNG PHÁP THU THẬP VÀ TRUY XUẤT DỮ LIỆU

CỦA ĐỒ THỊ TRI THỨC DỰA VÀO LƢỢC ĐỒ

Đề xuất phƣơng pháp thu thập dữ liệu vào đồ thị tri thức, minh họa bằng một

số dữ liệu mẫu về lĩnh vực du lịch Bến Tre. Chúng tôi cũng minh họa cách truy xuất

dữ liệu trong đồ thị tri thức trả lời ba dạng mẫu câu hỏi thƣờng gặp trong thực tế về

du lịch.

Hƣớng phát triển của đề tài là có thể ứng dụng các phƣơng phá đã đề xuất để

thu thập bộ dữ liệu lớn liên quan đến lĩnh vực du lịch nhƣ là một bộ dữ liệu mở cho

các nghiên cứu về xử lý ngôn ngữ tự nhiên và cho cộng đồng sử dụng.

NGƢỜI HƢỚNG DẪN

PGS.TS ĐỖ PHÚC

Ngày 07 tháng 04 năm 2021

HỌC VIÊN

Trần Lê Quỳnh Dao

HO CHI MINH CITY OPEN UNIVERSITY

GRADUATE SCHOOL

¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯

SUMMARY OF THESIS

Subject : "Methods of building knowledge graph for tourism in Vietnam"

Major : Computer Science Code:

1784801010021

Student : Tran Le Quynh Dao

Instructor : Assoc. Prof. PhD. Do Phuc

CONTENT SUMMARY

The data related to human knowledge is very large and extremely

complicated. Therefore, accessing and processing the techniques of knowledge

model serve as a basis for computers to analyze and solve the concerned problems.

In the world, there have been studies implementing knowledge modeling

with data systems built on graph modeling. It is called the knowledge graph. The

data of knowledge graphs related to human knowledge, can ask complex questions

about events and things and obtain good answers from this data warehouse in real

time.

In Vietnam, there is no project published on this knowledge graphs.

Currently, datasets in Vietnamese are quite sporadic. Each agency, enterprise

manages its own data sets, which are almost impossible to connect with each other.

Even though the study of this model based on the method of building

knowledge graph in Vietnamese is only the first step, it is necessary to move

towards more in-depth studies to build a Vietnamese knowledge graph for artificial

intelligence-related applications in Vietnam.

Therefore, we study and propose a method to build a knowledge graph of

the tourism in Vietnamese, and simultiously illustrate it by reading some sample

data into the Neo4j graph database. Then, we propose a number of ways to retrieve

data from the graph to answer different types of questions related to the travel topic.

The thesis includes 4 chapters:

Chapter 1: OVERVIEW

An overview of the knowledge graph concept

Chapter 2: THEORETICAL BASIS

Introduce the theory of graphs, use graphs to simulate rich and consistent

data links with natural language with a graph database, develop into knowledge

graphs, and at the same time introduce several ways to collect data into knowledge

graphs.

Chapter 3: CONSTRUCTION METHOD OF KNOWLEDGE

CHART

Propose a schema of the knowledge graph of the tourism sector in

Vietnamese based on the schema from the site Schema.org. Constructing a schema

for the knowledge graph is very important because it is used to generally describe

data objects and complex relationships between them in the real world, and decide

on up-to-date algorithms, data access.

Chapter 4: METHODS OF DATA COLLECTION AND

ACCESSORIES OF THE KNOWLEDGE CHART BASED ON THE GRAPH

Propose the method of collecting data in the knowledge graph, illustrated

with some sample data on the tourism field. We also illustrate how to retrieve data

in the knowledge graph that answers three types of frequently asked questions about

tourism.

The developing guide of the topic is to be able to apply the proposed

methods to collect a large data set related to the tourism as an open data set for

studies of natural language process and for community use.

April 07, 2021

INSTRUCTOR STUDENT

DO PHUC TRAN LE QUYNH DAO

MỤC LỤC

LỜI CẢM ƠN

LỜI CAM ĐOAN

TÓM TẮT LUẬN VĂN

MỤC LỤC

DANH MỤC HÌNH

DANH MỤC TỪ VIẾT TẮT

CHƢƠNG 1 - TỔNG QUAN....................................................................................3

1.1. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU.........................................3

1.2. CÁC ĐỒ THỊ TRI THỨC.......................................................................4

1.2.1. Cyc and OpenCyc .....................................................................................5

1.2.2. Freebase ...................................................................................................5

1.2.3. Wikidata....................................................................................................5

1.2.4. DBpedia....................................................................................................6

1.2.5. Google’s Knowledge Graph .....................................................................6

1.2.6. Facebook’s Entities Graph..................................................................7

1.3. CÁCH XÂY DỰNG ĐỒ THỊ TRI THỨC.............................................8

1.4. BỐ CỤC LUẬN VĂN ............................................................................11

1.5. KẾT CHƢƠNG ......................................................................................12

CHƢƠNG 2 – CƠ SỞ LÝ THUYẾT.....................................................................14

2.1. GIỚI THIỆU LÝ THUYẾT ĐỒ THỊ VÀ ỨNG DỤNG.....................14

2.2. ĐỒ THỊ TRI THỨC (KNOWLEDGE GRAPH) ................................16

2.3. Schema.org..............................................................................................19

2.4. CƠ SỞ DỮ LIỆU ĐỒ THỊ NEO4J ...........................................................21

2.4.1. Giới thiệu về Neo4j ................................................................................21

2.4.2. Tóm tắt các qui tắc khi xây dựng dữ liệu đồ thị Neo4j........................24

2.5. SEMANTIC WEB VÀ LINKED DATA....................................................27

2.6. KẾT CHƢƠNG............................................................................................34

CHƢƠNG 3 – PHƢƠNG PHÁP XÂY DỰNG LƢỢC ĐỒ CỦA ĐỒ THỊ TRI

THỨC.......................................................................................................................35

3.1. GIỚI THIỆU LƢỢC ĐỒ TRI THỨC .......................................................35

3.2. CÂY ĐỐI TƢỢNG CỦA LƢỢC ĐỒ TRI THỨC....................................37

3.3. MÔ TẢ CHI TIẾT CÁC ĐỐI TƢỢNG TRONG CÂY ĐỐI TƢỢNG

LƢỢC ĐỒ TRI THỨC.......................................................................................40

3.4. CHUYỂN CÁC BẢNG MÔ TẢ CÁC ĐỐI TƢỢNG THÀNH CÂY

LƢỢC ĐỒ TRONG NEO4J ..............................................................................43

3.5. KẾT CHƢƠNG............................................................................................49

CHƢƠNG 4 – PHƢƠNG PHÁP THU THẬP VÀ TRUY XUẤT DỮ LIỆU

CỦA ĐỒ THỊ TRI THỨC DỰA VÀO LƢỢC ĐỒ..............................................50

4.1. PHƢƠNG PHÁP THU THẬP DỮ LIỆU DỰA VÀO LƢỢC ĐỒ.....50

4.1.1. Dạng thức dữ liệu đầu vào và cách biểu diễn dữ liệu dƣới dạng

đồ thị ...........................................................................................................50

4.1.2. Các bảng dữ liệu thu thập import vào đồ thị................................55

4.1.3. Thuật toán đọc dữ liệu vào đồ thị tri thức ....................................61

4.2. PHƢƠNG PHÁP TRUY XUẤT DỮ LIỆU TỪ ĐỒ THỊ TRI THỨC ĐỂ

TRẢ LỜI CÁC CÂU HỎI VỀ CHỦ ĐỀ DU LỊCH ........................................61

4.2.1. Mẫu truy vấn Cypher trả lời câu hỏi về đặc điểm/tính chất của một

đối tƣợng cụ thể trong đồ thị.........................................................................62

4.2.2. Mẫu truy vấn Cypher trả lời câu hỏi về danh sách các đối tƣợng cần

tìm trong đồ thị ...............................................................................................67

4.2.3. Mẫu truy vấn Cypher trả lời câu hỏi là một từ khóa........................69

4.3. KẾT CHƢƠNG ......................................................................................71

KẾT LUẬN..............................................................................................................72

TÀI LIỆU THAM KHẢO ......................................................................................74

PHỤ LỤC 1............................................................................................................. 70

PHỤ LỤC 2..............................................................................................................83

DANH MỤC HÌNH

HÌNH NỘI DUNG TRANG

2.1 Đồ thị vô hƣớng 15

2.2 Hình minh họa mô hình dữ liệu đồ thị có hƣớng, có trọng

số: các mũi tên hƣớng của cung nối giữa hai nút đồ thị

(kết nối giữa hai nút là 1 chiều), các giá trị là ví dụ về

trọng số của cung

15

2.3 Ví dụ về knowledge graph 18

2.4 Một ví dụ về “cây kế thừa” giữa các lớp đối tƣợng (class)

trên trang schema.org

20

2.5 Một ví dụ về bảng mô tả các thuộc tính của một lớp đối

tƣợng có tên là person là con của lớp thing (theo

shcema.org)

21

2.6 Hình ví dụ minh họa một graph database neo4j 23

2.7 Qui tắc tạo một nút trong neo4j 24

2.8 Qui tắc tạo một cung (quan hệ) trong Neo4j 25

2.9 Qui tắc của một thuộc tính trong neo4j 26

2.10 Qui tắc nhãn của một nút trong neo4j 27

2.11 Một ví dụ mã html nội dung trên web cần chuyển đổi để

máy tính có thể “hiểu” đƣợc

29

2.12 Ví dụ chuyển đổi mã html nội dung trên web của hình

2.11 sang định dạng microdata

29

2.13 Ví dụ chuyển đổi mã html nội dung trên web hình 2.11

sang định dạng rdfa

30

2.14 Ví dụ chuyển đổi mã html trên web hình 2.11 sang định

dạng json-rd

30

2.15 Liên kết giữa các mục dữ liệu trên web ngữ nghĩa 32

2.16 Hình minh họa linked data object (lod) 33

2.17 Ví dụ kết quả tìm kiếm từ knowledge graph của google 34

3.1 Biểu diễn cây đối tƣợng lƣợc đồ tri thức dạng bảng 37

3.2a Cây đối tƣợng lƣợc đồ tri thức 38

3.2b Cây đối tƣợng lƣợc đồ tri thức (tt) 39

3.3 Nút place và các thuộc tính của nút 43

3.4 Property “dia_chi” của place có kiểu dữ liệu là đối tƣợng

postaladdress

44

3.5 Đối tƣợng thing là “cha” của đối tƣợng place 44

3.6 Thuật toán chuyển lƣợc đồ dạng bảng sang dữ liệu đồ thị 45

3.7 Cây lƣợc đồ tạo trong neo4j, thể hiện mối quan hệ cha –

con giữa các lớp đối tƣợng (cung có nhãn là “parent”) từ

các bảng mô tả các đối tƣợng về chủ đề du lịch

47

3.8 Cây lƣợc đồ tạo trong neo4j, thể hiện mối quan hệ cha –

con giữa các lớp đối tƣợng (cung có nhãn là “parent”) từ

các bảng mô tả các đối tƣợng về chủ đề du lịch

48

Tải ngay đi em, còn do dự, trời tối mất!