Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nhận dạng cảm xúc dựa trên bình luận trong điều kiện học nửa giám sát
Nội dung xem thử
Mô tả chi tiết
1
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
--------∞0∞--------
HỒ HƯỚNG THIÊN
NHẬN DẠNG CẢM XÚC DỰA TRÊN BÌNH LUẬN
TRONG ĐIỀU KIỆN HỌC NỬA GIÁM SÁT
LUẬN VĂN THẠC SĨ
KHOA HỌC MÁY TÍNH
TP. HỒ CHÍ MINH, NĂM 2020
2
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
--------∞0∞--------
HỒ HƯỚNG THIÊN
NHẬN DẠNG CẢM XÚC DỰA TRÊN BÌNH LUẬN
TRONG ĐIỀU KIỆN HỌC NỬA GIÁM SÁT
Chuyên ngành: Khoa học máy tính
Mã số chuyên ngành: 60 48 01 01
LUẬN VĂN THẠC SĨ
KHOA HỌC MÁY TÍNH
Giảng viên hướng dẫn: TS. TRƯƠNG HOÀNG VINH
TP. HỒ CHÍ MINH, NĂM 2020
TRƯỜNG ĐẠI HỌC MỞ
THÀNH PHỐ HỒ CHÍ MINH
KHOA ĐÀO TẠO SAU ĐẠI HỌC
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
GIẤY XÁC NHẬN
Tôi tên là: Hồ Hướng Thiên
Ngày sinh: 25/12/1982 Nơi sinh: Khánh Hoà
Chuyên ngành: Khoa Học Máy Tính Mã học viên: 1884801010008
Tôi đồng ý cung cấp toàn văn thông tin luận văn tốt nghiệp hợp lệ về bản quyền cho
Thư viện trường đại học Mở Thành phố Hồ Chí Minh. Thư viện trường đại học Mở
Thành phố Hồ Chí Minh sẽ kết nối toàn văn thông tin luận văn tốt nghiệp vào hệ thống
thông tin khoa học của Sở Khoa học và Công nghệ Thành phố Hồ Chí Minh.
Ký tên
Hồ Hướng Thiên
LỜI CAM ĐOAN
Tôi tên là Hồ Hướng Thiên, học viên cao học lớp MCOM018A niên khoá
2018 - 2020. Tôi xin cam đoan luận văn “Nhận dạng cảm xúc dựa trên bình luận
trong điều kiện học nửa giám sát” là bài nghiên cứu của chính tôi dưới sự hướng
dẫn của thầy tiến sĩ Trương Hoàng Vinh.
Những kết quả đạt được và những đóng góp từ luận văn là kết quả của quá
trình tìm hiểu, nghiên cứu và thực nghiệm của chính bản thân tôi. Bên cạnh đó,
luận văn sử dụng một số tài liệu, một số công trình nghiên cứu trước đây. Tất
cả những tài liệu và công trình nghiên cứu này được tôi trích dẫn và ghi nguồn
trích dẫn rõ ràng, theo đúng quy định.
Kết quả của luận văn này chưa được nộp để nhận bất kỳ bằng cấp nào tại
các trường đại học hoặc cơ sở đào tạo khác. Tôi xin cam đoan và chịu hoàn toàn
trách nhiệm về nội dung này.
Thành phố Hồ Chí Minh, năm 2020
Hồ Hướng Thiên
i
LỜI CẢM ƠN
Trong thời gian học tập, nghiên cứu để hoàn thiện luận văn, tôi đã nhận được
sự hướng dẫn, giúp đỡ rất tận tình của quý thầy cô trong khoa CNTT, khoa
Sau Đại Học của trường Đại học Mở Tp.HCM.
Tôi xin gởi lời cảm ơn chân thành đến tiến sĩ Trương Hoàng Vinh. Thầy đã
rất nhiệt tình hỗ trợ, hướng dẫn tôi trong suốt thời gian nghiên cứu cũng như
thực hiện luận văn. Bên cạnh đó, thầy còn khơi gợi, truyền đạt tinh thần nghiên
cứu khoa học và công bố khoa học thông qua các bài báo tại các hội nghị quốc
tế. Tôi đã rất may mắn khi được cùng cộng tác, cùng làm việc chung với thầy.
Một lần nữa, xin gởi đến thầy lòng biết ơn sâu sắc nhất.
Bên cạnh đó, tôi cũng xin cảm ơn các thầy đã giảng dạy một số bộ môn
trong quá trình học tập tại trường. Ngoài việc truyền đạt kiến thức, các thầy
còn hướng dẫn, đưa ra những lời khuyên, những kinh nghiệm cho việc chọn đề
tài nghiên cứu và viết đề tài luận văn.
Cuối cùng, tôi xin gởi lời cảm ơn đến những người thân yêu trong gia đình,
một số bạn bè thân thiết. Những người đã luôn ở bên cạnh, hỗ trợ, động viên
và tạo điều kiện thuận lợi nhất để tôi hoàn thành luận văn, cũng như chương
trình học thạc sĩ tại trường.
ii
TÓM TẮT
Cảm xúc là biểu hiện tâm lý của con người bao gồm hạnh phúc, buồn, vui,
hờn giận...v.v. Những cảm xúc này có thể được thể hiện qua lời nói, câu từ, cử
chỉ hay những biểu cảm trên khuôn mặt. Cảm xúc dường như ảnh hưởng nhiều
đến những việc làm, những quyết định của con người trong đời sống hằng ngày.
Việc nhận biết được cảm xúc của con người không chỉ giúp chúng ta thành công
trong giao tiếp, mà còn hỗ trợ các doanh nghiệp hiểu được khách hàng, nắm bắt
được thị hiếu, mong muốn của khách hàng để từ đó chăm sóc khách hàng tốt
hơn. Vì có nhiều lợi ích mang lại, cho nên nhận dạng cảm xúc đã và đang được
quan tâm rất lớn. Sự quan tâm đó không chỉ trong giới nghiên cứu khoa học,
mà còn đối với nhiều doanh nghiệp.
Ngày nay, với sự bùng nổ của công nghệ thông tin và các ứng dụng thuộc lĩnh
vực trí tuệ nhân tạo, việc nhận dạng cảm xúc là một nhu cầu lớn và được áp dụng
trong các lĩnh vực như chứng khoán, hệ thống khách sạn, du lịch, marketing.
Cùng với sự bùng nổ đó, cho nên nhiều công việc đã sử dụng các phương tiện
kỹ thuật số làm kênh liên lạc chính yếu. Con người giao tiếp, trao đổi với nhau
thông qua những tin nhắn, bình luận, email hoặc văn bản. Bằng nhiều phương
pháp khác nhau, chúng ta có thể nhận dạng được cảm xúc của con người thông
qua những bình luận hoặc bài viết ngắn này.
Trong những năm gần đây, hướng tiếp cận và xử lý bài toán nhận dạng cảm
xúc theo phương pháp học máy đã được nhiều công trình nghiên cứu áp dụng
iii
bởi vì nó đã đạt được nhiều kết quả khả quan. Phương pháp này cũng được luận
văn tiếp cận và nghiên cứu cho việc nhận dạng cảm xúc. Trong đó, ba bộ phân
lớp Naive Bayes, Random Forest và Support Vector Machine được luận văn lựa
chọn và áp dụng vào mô hình.
Đối với phương pháp học máy, việc xây dựng mô hình huấn luyện đòi hỏi phải
có một lượng dữ liệu đủ lớn. Số lượng dữ liệu huấn luyện nhiều hay ít cũng ảnh
hưởng một phần đến hiệu quả và độ chính xác của mô hình. Tuy nhiên, trong
nhiều lĩnh vực và trong nhiều trường hợp, chúng ta không có đủ dữ liệu được
gán nhãn để huấn luyện mô hình. Vì vậy, luận văn đã tập trung nghiên cứu và
đồng thời đề xuất một số kỹ thuật nhằm làm tăng dữ liệu huấn luyện này. Các
kỹ thuật được luận văn đề xuất đã mang lại kết quả đáng kể trong việc nâng
cao độ chính xác của mô hình.
Bên cạnh việc nghiên cứu và đề xuất các kỹ thuật làm tăng dữ liệu văn bản,
luận văn còn nghiên cứu xây dựng mô hình huấn luyện trong điều kiện có rất
ít dữ liệu huấn luyện. Trong mô hình thực nghiệm, luận văn đã đặt ra một thử
thách lớn trong việc xây dựng mô hình huấn luyện trong điều kiện rất ít dữ
liệu bằng việc lựa chọn xây dựng mô hình với dữ liệu huấn luyện từ một đến
mười câu bình luận. Qua thực nghiệm, luận văn đã cho thấy hiệu quả ở một số
phương pháp được đề xuất. Đặc biệt, luận văn đã đóng góp được thêm bốn kỹ
thuật làm tăng dữ liệu huấn luyện.
iv
ABSTRACT
Emotions are human psychological expression, including happiness, sadness,
anger, etc. These emotions can be expressed through words, sentences, gestures,
or facial expressions. Sentiment might have an impact to do and decisions of
people in daily life. Recognizing human emotions not only helps us to be successful in communication, but also helps understanding customers in business.
This allows to capture the desires of customers for customer care. There are
many benefits to it, sentiment analysis has been receiving many attentions in
the last decade both in scientific research community and businesses.
Today, with the explosion of information technology and various applications
of artificial intelligence, sentiment analysis is a great demand and is widely applied in different areas such as securities, hotel systems booking, tourism, marketing. Many jobs have used digital media as the main communication channel.
People can communicate via messages, comments, emails, or texts. By using different methods, we can identify human emotions through these short comments
or reviews.
In recent years, the sentiment analysis problem method has been solved by
different machine learning algorithms because it has achieved a promising result.
The sentiment analysis is further investigated in this thesis. The three classifiers
Naive Bayes, Random Forest and Support Vector Machine are considered to
recognize the sentiments of Vietnamese comment or reviews of products.
v
In machine learning, building a training model requires a sufficiently large
amount of data. The amount of training data also affects the performance and
accuracy of the model. However, in many areas, we do not have enough labeled
data to train the model. This thesis focusses on increasing training data for
Vietnamese short text reviews.
We put the proposed issues as a challenge problem by building the training
model in the context of very limited training data. The proposed approach is
evaluated, and which shows its efficiency. Through experiments, the thesis has
shown effectiveness in several proposed methods. In particular, the thesis has
contributed four additional techniques to increase training data.
vi
MỤC LỤC
Lời cam đoan i
Lời cảm ơn ii
Tóm tắt iii
Abstract v
Mục lục vii
Danh mục hình và đồ thị x
Danh mục bảng xi
Danh mục ký hiệu xiii
Danh mục viết tắt xiv
1 Tổng quan về nhận dạng cảm xúc 1
1.1 Giới thiệu luận văn . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Mục tiêu của luận văn . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Phương pháp nghiên cứu . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Đóng góp của luận văn . . . . . . . . . . . . . . . . . . . . . . . 8
1.5 Cấu trúc của luận văn . . . . . . . . . . . . . . . . . . . . . . . 9
vii