Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

T
PREMIUM
Số trang
116
Kích thước
11.0 MB
Định dạng
PDF
Lượt xem
1870

Phương pháp trả lời câu hỏi dựa vào đồ thị tri thức thuộc miền dữ liệu du lịch

Nội dung xem thử

Mô tả chi tiết

1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH

--------∞0∞--------

VÕ THANH VƯƠNG ĐẠO

PHƯƠNG PHÁP TRẢ LỜI CÂU HỎI

DỰA VÀO ĐỒ THỊ TRI THỨC

THUỘC MIỀN DỮ LIỆU DU LỊCH

LUẬN VĂN THẠC SĨ

KHOA HỌC MÁY TÍNH

TP. HỒ CHÍ MINH, NĂM 2022

2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH

--------∞0∞--------

VÕ THANH VƯƠNG ĐẠO

PHƯƠNG PHÁP TRẢ LỜI CÂU HỎI

DỰA VÀO ĐỒ THỊ TRI THỨC

THUỘC MIỀN DỮ LIỆU DU LỊCH

Chuyên ngành: Khoa học máy tính

Mã số chuyên ngành: 60 48 01 01

LUẬN VĂN THẠC SĨ

KHOA HỌC MÁY TÍNH

Giảng viên hướng dẫn: TS. TRƯƠNG HOÀNG VINH

TP. HỒ CHÍ MINH, NĂM 2022

TRƯỜNG ĐẠI HỌC MỞ

THÀNH PHỐ HỒ CHÍ MINH

KHOA ĐÀO TẠO SAU ĐẠI HỌC

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập – Tự do – Hạnh phúc

GIẤY XÁC NHẬN

Tôi tên là: VÕ THANH VƯƠNG ĐẠO

Ngày sinh: 05/10/1967 Nơi sinh: tỉnh Bến Tre

Chuyên ngành: Khoa học máy tính Mã học viên: 1784801010023

Tôi đồng ý cung cấp toàn văn thông tin luận văn tốt nghiệp hợp lệ về bản quyền cho

Thư viện trường đại học Mở Thành phố Hồ Chí Minh. Thư viện trường đại học Mở

Thành phố Hồ Chí Minh sẽ kết nối toàn văn thông tin luận văn tốt nghiệp vào hệ thống

thông tin khoa học của Sở Khoa học và Công nghệ Thành phố Hồ Chí Minh.

Ký tên

Võ Thanh Vương Đạo

LỜI CAM ĐOAN

Tôi tên là Võ Thanh Vương Đạo, học viên cao học lớp MCOM017A niên

khoá 2017 - 2019. Tôi xin cam đoan luận văn “Phương pháp trả lời câu hỏi dựa

vào Đồ thị tri thức thuộc miền dữ liệu du lịch” là bài nghiên cứu của chính tôi

dưới sự hướng dẫn của thầy tiến sĩ Trương Hoàng Vinh.

Những kết quả đạt được và những đóng góp từ luận văn là kết quả của quá

trình tìm hiểu, nghiên cứu và thực nghiệm của chính bản thân tôi. Bên cạnh đó,

luận văn sử dụng một số tài liệu, một số công trình nghiên cứu trước đây. Tất

cả những tài liệu và công trình nghiên cứu này được tôi trích dẫn và ghi nguồn

trích dẫn rõ ràng, theo đúng quy định.

Kết quả của luận văn này chưa được nộp để nhận bất kỳ bằng cấp nào tại

các trường đại học hoặc cơ sở đào tạo khác. Tôi xin cam đoan và chịu hoàn toàn

trách nhiệm về nội dung này.

Thành phố Hồ Chí Minh, năm 2021

Võ Thanh Vương Đạo

i

LỜI CẢM ƠN

Trong thời gian học tập, nghiên cứu để hoàn thiện luận văn, tôi đã nhận được

sự hướng dẫn, giúp đỡ rất tận tình của quý thầy cô trong khoa CNTT, khoa

Sau Đại Học của trường Đại học Mở Tp.HCM.

Tôi xin gởi lời cảm ơn chân thành đến tiến sĩ Trương Hoàng Vinh. Thầy đã

rất nhiệt tình hỗ trợ, hướng dẫn tôi trong suốt thời gian nghiên cứu cũng như

thực hiện luận văn. Bên cạnh đó, thầy còn khơi gợi, truyền đạt tinh thần nghiên

cứu khoa học và công bố khoa học thông qua các bài báo tại các hội nghị quốc

tế. Tôi đã rất may mắn khi được cùng cộng tác, cùng làm việc chung với thầy.

Một lần nữa, xin gởi đến thầy lòng biết ơn sâu sắc nhất.

Bên cạnh đó, tôi cũng xin cảm ơn các thầy đã giảng dạy một số bộ môn

trong quá trình học tập tại trường. Ngoài việc truyền đạt kiến thức, các thầy

còn hướng dẫn, đưa ra những lời khuyên, những kinh nghiệm cho việc chọn đề

tài nghiên cứu và viết đề tài luận văn.

Cuối cùng, tôi xin gởi lời cảm ơn đến những người thân yêu trong gia đình,

một số bạn bè thân thiết. Những người đã luôn ở bên cạnh, hỗ trợ, động viên

và tạo điều kiện thuận lợi nhất để tôi hoàn thành luận văn, cũng như chương

trình học thạc sĩ tại trường.

ii

TÓM TẮT

Cơ sở dữ liệu đồ thị có thể biểu diễn được các mối liên hệ phức tạp của thông

tin trong thế giới thực, hỗ trợ lưu trữ, truy vấn, xử lý thông tin một cách hiệu

quả mà không cần phải thông qua các lệnh kết nối JOIN khá tốn kém của cơ sở

dữ liệu quan hệ. Thông thường, các nhu cầu truy xuất thông tin trong cơ sở dữ

liệu chỉ giới hạn trong một đồ thị con, từ một hoặc tập hợp các điểm (nút) ban

đầu có thể khám phá dữ liệu các điểm xung quanh thông qua các cung (quan

hệ) với chi phí xử lý thấp dù là tổng kích thước của toàn bộ dữ liệu đồ thị là

rất lớn. Với các ưu điểm của cơ sở dữ liệu đồ thị, đã có các nghiên cứu mô hình

hóa tri thức với hệ thống dữ liệu được xây dựng dựa trên cơ sở dữ liệu đồ thị,

nó được gọi là đồ thị tri thức (Knowledge Graph). Đồ thị tri thức biểu diễn các

dữ liệu liên quan đến tri thức của con người, có thể đặt ra các câu hỏi phức tạp

về dữ liệu tri thức thu thập được và nhận được câu trả lời tốt từ kho dữ liệu

này theo thời gian thực. Đồ thị tri thức có thể ứng dụng trong nhiều lĩnh vực

của ngành khoa học máy tính trong đó có xử lý ngôn ngữ tự nhiên.

Đã có những tiến bộ lớn của công nghệ xử lý ngôn ngữ tự nhiên (Natural

Language Processing - NLP) giúp máy tính có thể “hiểu” được câu hỏi/lệnh của

con người để tìm ra các nội dung kết quả trả lời phù hợp. Người ta thường gọi

một hệ thống như vậy là một ứng dụng chatbot hay một hệ thống trò chuyện.

Một ứng dụng máy tính đóng vai trò thay thế con người để trò chuyện gọi là

Agent (tác nhân/người đại diện). Agent cần cung cấp câu trả lời ngắn gọn, trực

iii

tiếp cho các truy vấn của người dùng dựa trên kiến thức được rút ra từ các

nguồn dữ liệu khác nhau như tài liệu từ Web, hoặc dữ liệu được chuẩn bị trước

như bộ dữ liệu bán hàng, tiếp thị. . . Agent cũng có thể hoàn thành các nhiệm

vụ của người dùng (task completion) như gọi xe, đặt chỗ nhà hàng, lập lịch họp

... hoặc trò chuyện (social chat) liền mạch như một con người thật sự (được đo

bằng bài kiểm tra Turing) và cung cấp các đề nghị phù hợp [1].

Những năm gần đây đã chứng kiến nhu cầu ngày càng tăng đối với các

Chatbot đàm thoại trả lời câu hỏi (Question Answering- QA) cho phép người

dùng truy vấn từ đồ thị tri thức (Knowledge Base - KB) quy mô lớn hoặc từ

một tập các tài liệu bằng ngôn ngữ tự nhiên [1]. Trong tài liệu này xin gọi tắt

là bài toán QA-KB (Question Answering - Knowledge Base).

Luận văn của chúng tôi tập trung nghiên cứu một phương pháp trả lời câu

hỏi (tiếng Việt) dựa trên KB. Thông qua phân tích, trích xuất các thực thể từ

câu hỏi, sau đó sử dụng các thuật toán tìm kiếm, phân tích dữ liệu trong một

đồ thị con của KB để tìm ra câu trả lời (tốt nhất có thể). Tận dụng ưu điểm của

một KB để giải quyết bài toán QA mà không phải tốn quá nhiều chi phí cho

công việc xử lý ngôn ngữ tự nhiên: chuyển đổi câu hỏi bằng ngôn ngữ tự nhiên

thành biểu diễn ý nghĩa (meaning representations – MR) mà chương trình máy

tính có thể “hiểu” được. Luận văn gồm có 4 chương:

• Chương 1. Tổng quan

1. Giới thiệu về luận văn

– Giới thiệu các công trình nghiên cứu liên quan.

– Trình bày lý do chọn đề tài nghiên cứu.

2. Các đề xuất cho nghiên cứu trong luận văn.

– Phạm vi nghiên cứu, nội dung, phương pháp nghiên cứu.

– Đóng góp khoa học, thực tiễn.

• Chương 2. Cơ sở lý thuyết

iv

– Giới thiệu về đồ thị, một số thuật toán trên đồ thị

– Giới thiệu về đồ thị tri thức.

– Giới thiệu về xử lý ngôn ngữ tự nhiên (NLP).

– Một số tác vụ cơ bản trong xử lý ngôn ngữ tự nhiên .

– Nhận dạng thực thể được đặt tên (NER).

– Transformers and Transfer Learning (học chuyển giao).

– Kỹ thuật Bidirectional Encoder Representations from Transformers (BERT).

• Chương 3. Phương pháp trả lời câu hỏi về du lịch Bến Tre

– Xây dựng bộ câu hỏi thường gặp về du lịch Bến Tre

– Tách từ và nhận dạng thực thể được đặt tên từ câu hỏi đầu vào

– Tạo dựng một cơ sở dữ liệu đồ thị tri thức để thử nghiệm phương pháp

– Phân loại các dạng câu hỏi thường gặp về du lịch Bến Tre và phương

pháp tìm câu trả lời.

• Chương 4. Kết quả thử nghiệm phương pháp đã đề xuất

– Giới thiệu đồ thị tri thức sử dụng để thử nghiệm.

– Giới thiệu các câu hỏi sử dụng thử nghiệm và cài đặt thuật toán trả lời

câu hỏi.

– Thực hiện tách từ và nhận dạng thực thể.

– Thử nghiệm Modul trả lời câu hỏi và kết quả sau thử nghiệm.

– Kết luận, hướng phát triển của Luận văn

NGƯỜI HƯỚNG DẪN Thành phố Hồ Chí Minh, năm 2021

HỌC VIÊN

TS.Trương Hoàng Vinh Võ Thanh Vương Đạo

v

ABSTRACT

Graph databases can represent complex relationships of information in the

real world, supporting efficient storage, querying, and processing of information

without having to go through commands. JOIN connections are quite expensive

for relational databases. Usually, the information retrieval needs in the database

are limited to a subgraph, from one or a set of points (nodes) that can initially

explore the data of surrounding points through arcs (relation) with low process￾ing cost even though the total size of the entire graph data is very large. With the

advantages of graph databases, there have been studies on knowledge modeling

with data systems built based on graph databases, which are called Knowledge

graphs. Knowledge graphs represent data related to human knowledge, can ask

complex questions about collected knowledge data and get good answers from

this data warehouse over real time. Knowledge graphs can be applied in many

areas of computer science, including Natural language processing.

There have been great advances in Natural Language Processing (NLP) tech￾nology to help computers "understand" human questions/commands to find the

right answers. It is common to call such a system a chatbot application or a chat

system. A computer application that acts as a substitute for humans to chat is

called an Agent. Agents need to provide concise, direct answers to user queries

based on knowledge drawn from disparate data sources such as documents from

the Web, or pre-prepared data such as sales, marketing data sets . . . Agent can

vi

also complete user tasks (task completion) such as calling a car, making restau￾rant reservations, scheduling meetings... or chatting (social chat) seamlessly like

a human real (as measured by the Turing test) and provide relevant offers [1].

Recent years have seen an increasing demand for Conversation Answering

(QA) Chatbots that allow users to query from large-scale Knowledge Base (KB)

or from a set of documents in natural language [1]. In this document, refer to

the problem as QA-KB (Question Answering - Knowledge Base).

Our thesis focuses on researching a method of answering questions (in Viet￾namese) based on KB. Through analysis, extract entities from the question, then

using search algorithms, analyze the data in a subgraph of the KB to find the an￾swer (the best possible). Take advantage of a KB to solve a QA problem without

spending too much on natural language processing: converting natural language

questions into meaningful representations (MR) ) that a computer program can

"understand".

The thesis consists of 4 chapters:

• Chapter 1. Overview

1. Introduction to the thesis

– Introduction of related research works.

– Explain the reasons for choosing the research topic.

2. Proposals for research in the thesis.

– Research scope, content, research methods.

– Scientific and practical contributions.

• Chapter 2. Theoretical Basis

– Introduction to graphs, some algorithms on graphs.

– Introduction to knowledge graphs.

– An introduction to natural language processing (NLP).

vii

Tải ngay đi em, còn do dự, trời tối mất!