Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam
Phương pháp trả lời câu hỏi dựa vào đồ thị tri thức thuộc miền dữ liệu du lịch
Nội dung xem thử
Mô tả chi tiết
1
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
--------∞0∞--------
VÕ THANH VƯƠNG ĐẠO
PHƯƠNG PHÁP TRẢ LỜI CÂU HỎI
DỰA VÀO ĐỒ THỊ TRI THỨC
THUỘC MIỀN DỮ LIỆU DU LỊCH
LUẬN VĂN THẠC SĨ
KHOA HỌC MÁY TÍNH
TP. HỒ CHÍ MINH, NĂM 2022
2
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
--------∞0∞--------
VÕ THANH VƯƠNG ĐẠO
PHƯƠNG PHÁP TRẢ LỜI CÂU HỎI
DỰA VÀO ĐỒ THỊ TRI THỨC
THUỘC MIỀN DỮ LIỆU DU LỊCH
Chuyên ngành: Khoa học máy tính
Mã số chuyên ngành: 60 48 01 01
LUẬN VĂN THẠC SĨ
KHOA HỌC MÁY TÍNH
Giảng viên hướng dẫn: TS. TRƯƠNG HOÀNG VINH
TP. HỒ CHÍ MINH, NĂM 2022
TRƯỜNG ĐẠI HỌC MỞ
THÀNH PHỐ HỒ CHÍ MINH
KHOA ĐÀO TẠO SAU ĐẠI HỌC
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
GIẤY XÁC NHẬN
Tôi tên là: VÕ THANH VƯƠNG ĐẠO
Ngày sinh: 05/10/1967 Nơi sinh: tỉnh Bến Tre
Chuyên ngành: Khoa học máy tính Mã học viên: 1784801010023
Tôi đồng ý cung cấp toàn văn thông tin luận văn tốt nghiệp hợp lệ về bản quyền cho
Thư viện trường đại học Mở Thành phố Hồ Chí Minh. Thư viện trường đại học Mở
Thành phố Hồ Chí Minh sẽ kết nối toàn văn thông tin luận văn tốt nghiệp vào hệ thống
thông tin khoa học của Sở Khoa học và Công nghệ Thành phố Hồ Chí Minh.
Ký tên
Võ Thanh Vương Đạo
LỜI CAM ĐOAN
Tôi tên là Võ Thanh Vương Đạo, học viên cao học lớp MCOM017A niên
khoá 2017 - 2019. Tôi xin cam đoan luận văn “Phương pháp trả lời câu hỏi dựa
vào Đồ thị tri thức thuộc miền dữ liệu du lịch” là bài nghiên cứu của chính tôi
dưới sự hướng dẫn của thầy tiến sĩ Trương Hoàng Vinh.
Những kết quả đạt được và những đóng góp từ luận văn là kết quả của quá
trình tìm hiểu, nghiên cứu và thực nghiệm của chính bản thân tôi. Bên cạnh đó,
luận văn sử dụng một số tài liệu, một số công trình nghiên cứu trước đây. Tất
cả những tài liệu và công trình nghiên cứu này được tôi trích dẫn và ghi nguồn
trích dẫn rõ ràng, theo đúng quy định.
Kết quả của luận văn này chưa được nộp để nhận bất kỳ bằng cấp nào tại
các trường đại học hoặc cơ sở đào tạo khác. Tôi xin cam đoan và chịu hoàn toàn
trách nhiệm về nội dung này.
Thành phố Hồ Chí Minh, năm 2021
Võ Thanh Vương Đạo
i
LỜI CẢM ƠN
Trong thời gian học tập, nghiên cứu để hoàn thiện luận văn, tôi đã nhận được
sự hướng dẫn, giúp đỡ rất tận tình của quý thầy cô trong khoa CNTT, khoa
Sau Đại Học của trường Đại học Mở Tp.HCM.
Tôi xin gởi lời cảm ơn chân thành đến tiến sĩ Trương Hoàng Vinh. Thầy đã
rất nhiệt tình hỗ trợ, hướng dẫn tôi trong suốt thời gian nghiên cứu cũng như
thực hiện luận văn. Bên cạnh đó, thầy còn khơi gợi, truyền đạt tinh thần nghiên
cứu khoa học và công bố khoa học thông qua các bài báo tại các hội nghị quốc
tế. Tôi đã rất may mắn khi được cùng cộng tác, cùng làm việc chung với thầy.
Một lần nữa, xin gởi đến thầy lòng biết ơn sâu sắc nhất.
Bên cạnh đó, tôi cũng xin cảm ơn các thầy đã giảng dạy một số bộ môn
trong quá trình học tập tại trường. Ngoài việc truyền đạt kiến thức, các thầy
còn hướng dẫn, đưa ra những lời khuyên, những kinh nghiệm cho việc chọn đề
tài nghiên cứu và viết đề tài luận văn.
Cuối cùng, tôi xin gởi lời cảm ơn đến những người thân yêu trong gia đình,
một số bạn bè thân thiết. Những người đã luôn ở bên cạnh, hỗ trợ, động viên
và tạo điều kiện thuận lợi nhất để tôi hoàn thành luận văn, cũng như chương
trình học thạc sĩ tại trường.
ii
TÓM TẮT
Cơ sở dữ liệu đồ thị có thể biểu diễn được các mối liên hệ phức tạp của thông
tin trong thế giới thực, hỗ trợ lưu trữ, truy vấn, xử lý thông tin một cách hiệu
quả mà không cần phải thông qua các lệnh kết nối JOIN khá tốn kém của cơ sở
dữ liệu quan hệ. Thông thường, các nhu cầu truy xuất thông tin trong cơ sở dữ
liệu chỉ giới hạn trong một đồ thị con, từ một hoặc tập hợp các điểm (nút) ban
đầu có thể khám phá dữ liệu các điểm xung quanh thông qua các cung (quan
hệ) với chi phí xử lý thấp dù là tổng kích thước của toàn bộ dữ liệu đồ thị là
rất lớn. Với các ưu điểm của cơ sở dữ liệu đồ thị, đã có các nghiên cứu mô hình
hóa tri thức với hệ thống dữ liệu được xây dựng dựa trên cơ sở dữ liệu đồ thị,
nó được gọi là đồ thị tri thức (Knowledge Graph). Đồ thị tri thức biểu diễn các
dữ liệu liên quan đến tri thức của con người, có thể đặt ra các câu hỏi phức tạp
về dữ liệu tri thức thu thập được và nhận được câu trả lời tốt từ kho dữ liệu
này theo thời gian thực. Đồ thị tri thức có thể ứng dụng trong nhiều lĩnh vực
của ngành khoa học máy tính trong đó có xử lý ngôn ngữ tự nhiên.
Đã có những tiến bộ lớn của công nghệ xử lý ngôn ngữ tự nhiên (Natural
Language Processing - NLP) giúp máy tính có thể “hiểu” được câu hỏi/lệnh của
con người để tìm ra các nội dung kết quả trả lời phù hợp. Người ta thường gọi
một hệ thống như vậy là một ứng dụng chatbot hay một hệ thống trò chuyện.
Một ứng dụng máy tính đóng vai trò thay thế con người để trò chuyện gọi là
Agent (tác nhân/người đại diện). Agent cần cung cấp câu trả lời ngắn gọn, trực
iii
tiếp cho các truy vấn của người dùng dựa trên kiến thức được rút ra từ các
nguồn dữ liệu khác nhau như tài liệu từ Web, hoặc dữ liệu được chuẩn bị trước
như bộ dữ liệu bán hàng, tiếp thị. . . Agent cũng có thể hoàn thành các nhiệm
vụ của người dùng (task completion) như gọi xe, đặt chỗ nhà hàng, lập lịch họp
... hoặc trò chuyện (social chat) liền mạch như một con người thật sự (được đo
bằng bài kiểm tra Turing) và cung cấp các đề nghị phù hợp [1].
Những năm gần đây đã chứng kiến nhu cầu ngày càng tăng đối với các
Chatbot đàm thoại trả lời câu hỏi (Question Answering- QA) cho phép người
dùng truy vấn từ đồ thị tri thức (Knowledge Base - KB) quy mô lớn hoặc từ
một tập các tài liệu bằng ngôn ngữ tự nhiên [1]. Trong tài liệu này xin gọi tắt
là bài toán QA-KB (Question Answering - Knowledge Base).
Luận văn của chúng tôi tập trung nghiên cứu một phương pháp trả lời câu
hỏi (tiếng Việt) dựa trên KB. Thông qua phân tích, trích xuất các thực thể từ
câu hỏi, sau đó sử dụng các thuật toán tìm kiếm, phân tích dữ liệu trong một
đồ thị con của KB để tìm ra câu trả lời (tốt nhất có thể). Tận dụng ưu điểm của
một KB để giải quyết bài toán QA mà không phải tốn quá nhiều chi phí cho
công việc xử lý ngôn ngữ tự nhiên: chuyển đổi câu hỏi bằng ngôn ngữ tự nhiên
thành biểu diễn ý nghĩa (meaning representations – MR) mà chương trình máy
tính có thể “hiểu” được. Luận văn gồm có 4 chương:
• Chương 1. Tổng quan
1. Giới thiệu về luận văn
– Giới thiệu các công trình nghiên cứu liên quan.
– Trình bày lý do chọn đề tài nghiên cứu.
2. Các đề xuất cho nghiên cứu trong luận văn.
– Phạm vi nghiên cứu, nội dung, phương pháp nghiên cứu.
– Đóng góp khoa học, thực tiễn.
• Chương 2. Cơ sở lý thuyết
iv
– Giới thiệu về đồ thị, một số thuật toán trên đồ thị
– Giới thiệu về đồ thị tri thức.
– Giới thiệu về xử lý ngôn ngữ tự nhiên (NLP).
– Một số tác vụ cơ bản trong xử lý ngôn ngữ tự nhiên .
– Nhận dạng thực thể được đặt tên (NER).
– Transformers and Transfer Learning (học chuyển giao).
– Kỹ thuật Bidirectional Encoder Representations from Transformers (BERT).
• Chương 3. Phương pháp trả lời câu hỏi về du lịch Bến Tre
– Xây dựng bộ câu hỏi thường gặp về du lịch Bến Tre
– Tách từ và nhận dạng thực thể được đặt tên từ câu hỏi đầu vào
– Tạo dựng một cơ sở dữ liệu đồ thị tri thức để thử nghiệm phương pháp
– Phân loại các dạng câu hỏi thường gặp về du lịch Bến Tre và phương
pháp tìm câu trả lời.
• Chương 4. Kết quả thử nghiệm phương pháp đã đề xuất
– Giới thiệu đồ thị tri thức sử dụng để thử nghiệm.
– Giới thiệu các câu hỏi sử dụng thử nghiệm và cài đặt thuật toán trả lời
câu hỏi.
– Thực hiện tách từ và nhận dạng thực thể.
– Thử nghiệm Modul trả lời câu hỏi và kết quả sau thử nghiệm.
– Kết luận, hướng phát triển của Luận văn
NGƯỜI HƯỚNG DẪN Thành phố Hồ Chí Minh, năm 2021
HỌC VIÊN
TS.Trương Hoàng Vinh Võ Thanh Vương Đạo
v
ABSTRACT
Graph databases can represent complex relationships of information in the
real world, supporting efficient storage, querying, and processing of information
without having to go through commands. JOIN connections are quite expensive
for relational databases. Usually, the information retrieval needs in the database
are limited to a subgraph, from one or a set of points (nodes) that can initially
explore the data of surrounding points through arcs (relation) with low processing cost even though the total size of the entire graph data is very large. With the
advantages of graph databases, there have been studies on knowledge modeling
with data systems built based on graph databases, which are called Knowledge
graphs. Knowledge graphs represent data related to human knowledge, can ask
complex questions about collected knowledge data and get good answers from
this data warehouse over real time. Knowledge graphs can be applied in many
areas of computer science, including Natural language processing.
There have been great advances in Natural Language Processing (NLP) technology to help computers "understand" human questions/commands to find the
right answers. It is common to call such a system a chatbot application or a chat
system. A computer application that acts as a substitute for humans to chat is
called an Agent. Agents need to provide concise, direct answers to user queries
based on knowledge drawn from disparate data sources such as documents from
the Web, or pre-prepared data such as sales, marketing data sets . . . Agent can
vi
also complete user tasks (task completion) such as calling a car, making restaurant reservations, scheduling meetings... or chatting (social chat) seamlessly like
a human real (as measured by the Turing test) and provide relevant offers [1].
Recent years have seen an increasing demand for Conversation Answering
(QA) Chatbots that allow users to query from large-scale Knowledge Base (KB)
or from a set of documents in natural language [1]. In this document, refer to
the problem as QA-KB (Question Answering - Knowledge Base).
Our thesis focuses on researching a method of answering questions (in Vietnamese) based on KB. Through analysis, extract entities from the question, then
using search algorithms, analyze the data in a subgraph of the KB to find the answer (the best possible). Take advantage of a KB to solve a QA problem without
spending too much on natural language processing: converting natural language
questions into meaningful representations (MR) ) that a computer program can
"understand".
The thesis consists of 4 chapters:
• Chapter 1. Overview
1. Introduction to the thesis
– Introduction of related research works.
– Explain the reasons for choosing the research topic.
2. Proposals for research in the thesis.
– Research scope, content, research methods.
– Scientific and practical contributions.
• Chapter 2. Theoretical Basis
– Introduction to graphs, some algorithms on graphs.
– Introduction to knowledge graphs.
– An introduction to natural language processing (NLP).
vii