Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Phương pháp xây dựng đồ thị tri thức về du lịch Việt Nam
Nội dung xem thử
Mô tả chi tiết
1
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
--------∞0∞--------
TRẦN LÊ QUỲNH DAO
PHƯƠNG PHÁP
XÂY DỰNG ĐỒ THỊ TRI THỨC
VỀ DU LỊCH VIỆT NAM
LUẬN VĂN THẠC SĨ
KHOA HỌC MÁY TÍNH
TP. HỒ CHÍ MINH, NĂM 2021
2
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
--------∞0∞--------
TRẦN LÊ QUỲNH DAO
PHƯƠNG PHÁP
XÂY DỰNG ĐỒ THỊ TRI THỨC
VỀ DU LỊCH VIỆT NAM
Chuyên ngành: Khoa học máy tính
Mã số chuyên ngành: 8 48 01 01
LUẬN VĂN THẠC SĨ
KHOA HỌC MÁY TÍNH
Giảng viên hướng dẫn: PGS.TS ĐỖ PHÚC
TP. HỒ CHÍ MINH, NĂM 2021
TRƯỜNG ĐẠI HỌC MỞ
THÀNH PHỐ HỒ CHÍ MINH
KHOA ĐÀO TẠO SAU ĐẠI HỌC
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
GIẤY XÁC NHẬN
Tôi tên là: TRẦN LÊ QUỲNH DAO
Ngày sinh: 02/01/1981 Nơi sinh: Tỉnh Bến Tre
Chuyên ngành: KHOA HỌC MÁY TÍNH Mã học viên: 1784801010021
Tôi đồng ý cung cấp toàn văn thông tin luận văn tốt nghiệp hợp lệ về bản quyền cho
Thư viện trường đại học Mở Thành phố Hồ Chí Minh. Thư viện trường đại học Mở
Thành phố Hồ Chí Minh sẽ kết nối toàn văn thông tin luận văn tốt nghiệp vào hệ thống
thông tin khoa học của Sở Khoa học và Công nghệ Thành phố Hồ Chí Minh.
Ký tên
Trần Lê Quỳnh Dao
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn là công trình nghiên cứu của riêng cá nhân tôi
đƣợc hoàn thành dƣới sự hƣớng dẫn của giáo viên hƣớng dẫn PGS.TS Đỗ Phúc. Số
liệu và những kết quả trong luận văn là trung thực và chƣa đƣợc công bố trong bất
kỳ một công trình nào khác.
TP. Hồ Chí Minh, ngày 07 tháng 04 năm 2021
Tác giả luận văn
Trần Lê Quỳnh Dao
LỜI CẢM ƠN
Lời đầu tiên, tôi xin chân thành gửi lời cám ơn sâu sắc tới PGS.TS Đỗ Phúc
vì thầy đã định hƣớng, hƣớng dẫn, và tạo điều kiện thuận lợi để tôi hoàn thành luận
văn. Tôi cũng xin gửi lời cảm ơn đến các thầy cô là giảng viên đã trực tiếp giảng
dạy tôi trong quá trình tôi theo học ngành Khoa học máy tính tại trƣờng Đại học mở
Thành phố Hồ Chí Minh.
Cuối cùng tôi xin gửi lời cảm ơn đến Ban lãnh đạo nhà trƣờng, khoa Sau đại
học trƣờng Đại học mở Thành phố Hồ Chí Minh, bạn bè cùng khóa, các thành viên
trong gia đình đã thƣờng xuyên quan tâm, giúp đỡ, động viên trong quá trình thực
hiện đề tài luận văn.
TP. Hồ Chí Minh, ngày 07 tháng 04 năm 2021
Tác giả luận văn
Trần Lê Quỳnh Dao
TRƢỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
KHOA SAU ĐẠI HỌC
¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯
TÓM TẮT LUẬN VĂN
(Dùng cho học viên và người hướng dẫn)
Đề tài: “Phƣơng pháp xây dựng đồ thị tri thức về du lịch Việt Nam”
Ngành: Khoa học máy tính Mã số: 1784801010021
Học viên: Trần Lê Quỳnh Dao
Ngƣời hƣớng dẫn: PGS. TS. Đỗ Phúc
NỘI DUNG TÓM TẮT
Các dữ liệu liên quan đến tri thức của con ngƣời là rất lớn và vô cùng phức
tạp. Vì vậy, vấn đề mô hình hóa tri thức, các kỹ thuật truy xuất, xử lý trên nó làm cơ
sở giúp máy tính phân tích, xử lý giải quyết các vấn đề đặt ra đƣợc đặc biệt quan
tâm.
Trên thế giới đã có những công trình nghiên cứu thực hiện mô hình hóa tri
thức với hệ thống dữ liệu đƣợc xây dựng dựa trên mô hình đồ thị. Nó đƣợc gọi là đồ
thị tri thức (Knowledge Graph). Đồ thị tri thức biểu diễn dữ liệu liên quan đến tri
thức của con ngƣời, có thể đặt ra các câu hỏi phức tạp về các sự kiện, sự vật và nhận
đƣợc câu trả lời tốt từ kho dữ liệu này theo thời gian thực.
Tại Việt Nam, chƣa có dự án nào về đồ thị tri thức đƣợc công bố. Các tập dữ
liệu (Dataset) tiếng Việt hiện khá rời rạc. Mỗi cơ quan, doanh nghiệp đều quản lý
các bộ dữ liệu riêng của mình, chúng hầu nhƣ không thể kết nối với nhau.
Vì vậy, việc nghiên cứu mô hình qua đó đề xuất phƣơng pháp xây dựng đồ
thị tri thức bằng tiếng Việt, dù nghiên cứu chỉ là ở bƣớc đầu, cũng là rất cần thiết
nhằm hƣớng đến các nghiên cứu sâu hơn nhằm xây dựng một đồ thị tri thức tiếng
Việt phục vụ các ứng dụng liên quan đến trí tuệ nhân tạo ở Việt Nam.
Vì vậy, chúng tôi nghiên cứu và đề xuất một phƣơng pháp xây dựng một đồ thị
tri thức về lĩnh vực du lịch bằng tiếng Việt, đồng thời minh họa bằng cách đọc một
số dữ liệu mẫu vào cơ sở dữ liệu đồ thị Neo4j. Sau đó, chúng tôi đề xuất một số
cách truy xuất dữ liệu từ đồ thị để trả lời các dạng câu hỏi liên quan đến chủ đề du
lịch.
Luận văn gồm có 4 chƣơng:
Chƣơng 1: TỔNG QUAN
Giới thiệu tổng quan về khái niệm đồ thị tri thức.
Chƣơng 2: CƠ SỞ LÝ THUYẾT
Giới thiệu lý thuyết về đồ thị, sử dụng đồ thị để mô phỏng các liên kết dữ
liệu phong phú và phù hợp với ngôn ngữ tự nhiên bằng cơ sở dữ liệu đồ thị, phát
triển thành đồ thị tri thức, đồng thời giới thiệu một số cách thu thập dữ liệu vào đồ
thị tri thức.
Chƣơng 3: PHƢƠNG PHÁP XÂY DỰNG LƢỢC ĐỒ CỦA ĐỒ THỊ
TRI THỨC
Đề xuất một lƣợc đồ của đồ thị tri thức về lĩnh vực du lịch bằng tiếng Việt
dựa vào lƣợc đồ từ trang Schema.org. Việc xây dựng một lƣợc đồ cho đồ thị tri thức
là rất quan trọng vì nó dùng để mô tả tổng quát các đối tƣợng dữ liệu và các quan hệ
phức tạp giữa chúng trong thế giới thực, đồng thời quyết định các thuật toán cập
nhật, truy xuất dữ liệu.
Chƣơng 4: PHƢƠNG PHÁP THU THẬP VÀ TRUY XUẤT DỮ LIỆU
CỦA ĐỒ THỊ TRI THỨC DỰA VÀO LƢỢC ĐỒ
Đề xuất phƣơng pháp thu thập dữ liệu vào đồ thị tri thức, minh họa bằng một
số dữ liệu mẫu về lĩnh vực du lịch Bến Tre. Chúng tôi cũng minh họa cách truy xuất
dữ liệu trong đồ thị tri thức trả lời ba dạng mẫu câu hỏi thƣờng gặp trong thực tế về
du lịch.
Hƣớng phát triển của đề tài là có thể ứng dụng các phƣơng phá đã đề xuất để
thu thập bộ dữ liệu lớn liên quan đến lĩnh vực du lịch nhƣ là một bộ dữ liệu mở cho
các nghiên cứu về xử lý ngôn ngữ tự nhiên và cho cộng đồng sử dụng.
NGƢỜI HƢỚNG DẪN
PGS.TS ĐỖ PHÚC
Ngày 07 tháng 04 năm 2021
HỌC VIÊN
Trần Lê Quỳnh Dao
HO CHI MINH CITY OPEN UNIVERSITY
GRADUATE SCHOOL
¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯
SUMMARY OF THESIS
Subject : "Methods of building knowledge graph for tourism in Vietnam"
Major : Computer Science Code:
1784801010021
Student : Tran Le Quynh Dao
Instructor : Assoc. Prof. PhD. Do Phuc
CONTENT SUMMARY
The data related to human knowledge is very large and extremely
complicated. Therefore, accessing and processing the techniques of knowledge
model serve as a basis for computers to analyze and solve the concerned problems.
In the world, there have been studies implementing knowledge modeling
with data systems built on graph modeling. It is called the knowledge graph. The
data of knowledge graphs related to human knowledge, can ask complex questions
about events and things and obtain good answers from this data warehouse in real
time.
In Vietnam, there is no project published on this knowledge graphs.
Currently, datasets in Vietnamese are quite sporadic. Each agency, enterprise
manages its own data sets, which are almost impossible to connect with each other.
Even though the study of this model based on the method of building
knowledge graph in Vietnamese is only the first step, it is necessary to move
towards more in-depth studies to build a Vietnamese knowledge graph for artificial
intelligence-related applications in Vietnam.
Therefore, we study and propose a method to build a knowledge graph of
the tourism in Vietnamese, and simultiously illustrate it by reading some sample
data into the Neo4j graph database. Then, we propose a number of ways to retrieve
data from the graph to answer different types of questions related to the travel topic.
The thesis includes 4 chapters:
Chapter 1: OVERVIEW
An overview of the knowledge graph concept
Chapter 2: THEORETICAL BASIS
Introduce the theory of graphs, use graphs to simulate rich and consistent
data links with natural language with a graph database, develop into knowledge
graphs, and at the same time introduce several ways to collect data into knowledge
graphs.
Chapter 3: CONSTRUCTION METHOD OF KNOWLEDGE
CHART
Propose a schema of the knowledge graph of the tourism sector in
Vietnamese based on the schema from the site Schema.org. Constructing a schema
for the knowledge graph is very important because it is used to generally describe
data objects and complex relationships between them in the real world, and decide
on up-to-date algorithms, data access.
Chapter 4: METHODS OF DATA COLLECTION AND
ACCESSORIES OF THE KNOWLEDGE CHART BASED ON THE GRAPH
Propose the method of collecting data in the knowledge graph, illustrated
with some sample data on the tourism field. We also illustrate how to retrieve data
in the knowledge graph that answers three types of frequently asked questions about
tourism.
The developing guide of the topic is to be able to apply the proposed
methods to collect a large data set related to the tourism as an open data set for
studies of natural language process and for community use.
April 07, 2021
INSTRUCTOR STUDENT
DO PHUC TRAN LE QUYNH DAO
MỤC LỤC
LỜI CẢM ƠN
LỜI CAM ĐOAN
TÓM TẮT LUẬN VĂN
MỤC LỤC
DANH MỤC HÌNH
DANH MỤC TỪ VIẾT TẮT
CHƢƠNG 1 - TỔNG QUAN....................................................................................3
1.1. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU.........................................3
1.2. CÁC ĐỒ THỊ TRI THỨC.......................................................................4
1.2.1. Cyc and OpenCyc .....................................................................................5
1.2.2. Freebase ...................................................................................................5
1.2.3. Wikidata....................................................................................................5
1.2.4. DBpedia....................................................................................................6
1.2.5. Google’s Knowledge Graph .....................................................................6
1.2.6. Facebook’s Entities Graph..................................................................7
1.3. CÁCH XÂY DỰNG ĐỒ THỊ TRI THỨC.............................................8
1.4. BỐ CỤC LUẬN VĂN ............................................................................11
1.5. KẾT CHƢƠNG ......................................................................................12
CHƢƠNG 2 – CƠ SỞ LÝ THUYẾT.....................................................................14
2.1. GIỚI THIỆU LÝ THUYẾT ĐỒ THỊ VÀ ỨNG DỤNG.....................14
2.2. ĐỒ THỊ TRI THỨC (KNOWLEDGE GRAPH) ................................16
2.3. Schema.org..............................................................................................19
2.4. CƠ SỞ DỮ LIỆU ĐỒ THỊ NEO4J ...........................................................21
2.4.1. Giới thiệu về Neo4j ................................................................................21
2.4.2. Tóm tắt các qui tắc khi xây dựng dữ liệu đồ thị Neo4j........................24
2.5. SEMANTIC WEB VÀ LINKED DATA....................................................27
2.6. KẾT CHƢƠNG............................................................................................34
CHƢƠNG 3 – PHƢƠNG PHÁP XÂY DỰNG LƢỢC ĐỒ CỦA ĐỒ THỊ TRI
THỨC.......................................................................................................................35
3.1. GIỚI THIỆU LƢỢC ĐỒ TRI THỨC .......................................................35
3.2. CÂY ĐỐI TƢỢNG CỦA LƢỢC ĐỒ TRI THỨC....................................37
3.3. MÔ TẢ CHI TIẾT CÁC ĐỐI TƢỢNG TRONG CÂY ĐỐI TƢỢNG
LƢỢC ĐỒ TRI THỨC.......................................................................................40
3.4. CHUYỂN CÁC BẢNG MÔ TẢ CÁC ĐỐI TƢỢNG THÀNH CÂY
LƢỢC ĐỒ TRONG NEO4J ..............................................................................43
3.5. KẾT CHƢƠNG............................................................................................49
CHƢƠNG 4 – PHƢƠNG PHÁP THU THẬP VÀ TRUY XUẤT DỮ LIỆU
CỦA ĐỒ THỊ TRI THỨC DỰA VÀO LƢỢC ĐỒ..............................................50
4.1. PHƢƠNG PHÁP THU THẬP DỮ LIỆU DỰA VÀO LƢỢC ĐỒ.....50
4.1.1. Dạng thức dữ liệu đầu vào và cách biểu diễn dữ liệu dƣới dạng
đồ thị ...........................................................................................................50
4.1.2. Các bảng dữ liệu thu thập import vào đồ thị................................55
4.1.3. Thuật toán đọc dữ liệu vào đồ thị tri thức ....................................61
4.2. PHƢƠNG PHÁP TRUY XUẤT DỮ LIỆU TỪ ĐỒ THỊ TRI THỨC ĐỂ
TRẢ LỜI CÁC CÂU HỎI VỀ CHỦ ĐỀ DU LỊCH ........................................61
4.2.1. Mẫu truy vấn Cypher trả lời câu hỏi về đặc điểm/tính chất của một
đối tƣợng cụ thể trong đồ thị.........................................................................62
4.2.2. Mẫu truy vấn Cypher trả lời câu hỏi về danh sách các đối tƣợng cần
tìm trong đồ thị ...............................................................................................67
4.2.3. Mẫu truy vấn Cypher trả lời câu hỏi là một từ khóa........................69
4.3. KẾT CHƢƠNG ......................................................................................71
KẾT LUẬN..............................................................................................................72
TÀI LIỆU THAM KHẢO ......................................................................................74
PHỤ LỤC 1............................................................................................................. 70
PHỤ LỤC 2..............................................................................................................83
DANH MỤC HÌNH
HÌNH NỘI DUNG TRANG
2.1 Đồ thị vô hƣớng 15
2.2 Hình minh họa mô hình dữ liệu đồ thị có hƣớng, có trọng
số: các mũi tên hƣớng của cung nối giữa hai nút đồ thị
(kết nối giữa hai nút là 1 chiều), các giá trị là ví dụ về
trọng số của cung
15
2.3 Ví dụ về knowledge graph 18
2.4 Một ví dụ về “cây kế thừa” giữa các lớp đối tƣợng (class)
trên trang schema.org
20
2.5 Một ví dụ về bảng mô tả các thuộc tính của một lớp đối
tƣợng có tên là person là con của lớp thing (theo
shcema.org)
21
2.6 Hình ví dụ minh họa một graph database neo4j 23
2.7 Qui tắc tạo một nút trong neo4j 24
2.8 Qui tắc tạo một cung (quan hệ) trong Neo4j 25
2.9 Qui tắc của một thuộc tính trong neo4j 26
2.10 Qui tắc nhãn của một nút trong neo4j 27
2.11 Một ví dụ mã html nội dung trên web cần chuyển đổi để
máy tính có thể “hiểu” đƣợc
29
2.12 Ví dụ chuyển đổi mã html nội dung trên web của hình
2.11 sang định dạng microdata
29
2.13 Ví dụ chuyển đổi mã html nội dung trên web hình 2.11
sang định dạng rdfa
30
2.14 Ví dụ chuyển đổi mã html trên web hình 2.11 sang định
dạng json-rd
30
2.15 Liên kết giữa các mục dữ liệu trên web ngữ nghĩa 32
2.16 Hình minh họa linked data object (lod) 33
2.17 Ví dụ kết quả tìm kiếm từ knowledge graph của google 34
3.1 Biểu diễn cây đối tƣợng lƣợc đồ tri thức dạng bảng 37
3.2a Cây đối tƣợng lƣợc đồ tri thức 38
3.2b Cây đối tƣợng lƣợc đồ tri thức (tt) 39
3.3 Nút place và các thuộc tính của nút 43
3.4 Property “dia_chi” của place có kiểu dữ liệu là đối tƣợng
postaladdress
44
3.5 Đối tƣợng thing là “cha” của đối tƣợng place 44
3.6 Thuật toán chuyển lƣợc đồ dạng bảng sang dữ liệu đồ thị 45
3.7 Cây lƣợc đồ tạo trong neo4j, thể hiện mối quan hệ cha –
con giữa các lớp đối tƣợng (cung có nhãn là “parent”) từ
các bảng mô tả các đối tƣợng về chủ đề du lịch
47
3.8 Cây lƣợc đồ tạo trong neo4j, thể hiện mối quan hệ cha –
con giữa các lớp đối tƣợng (cung có nhãn là “parent”) từ
các bảng mô tả các đối tƣợng về chủ đề du lịch
48