Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nhận dạng cảm xúc dựa trên bình luận trong điều kiện học nửa giám sát
PREMIUM
Số trang
115
Kích thước
10.0 MB
Định dạng
PDF
Lượt xem
1476

Nhận dạng cảm xúc dựa trên bình luận trong điều kiện học nửa giám sát

Nội dung xem thử

Mô tả chi tiết

1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH

--------∞0∞--------

HỒ HƯỚNG THIÊN

NHẬN DẠNG CẢM XÚC DỰA TRÊN BÌNH LUẬN

TRONG ĐIỀU KIỆN HỌC NỬA GIÁM SÁT

LUẬN VĂN THẠC SĨ

KHOA HỌC MÁY TÍNH

TP. HỒ CHÍ MINH, NĂM 2020

2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH

--------∞0∞--------

HỒ HƯỚNG THIÊN

NHẬN DẠNG CẢM XÚC DỰA TRÊN BÌNH LUẬN

TRONG ĐIỀU KIỆN HỌC NỬA GIÁM SÁT

Chuyên ngành: Khoa học máy tính

Mã số chuyên ngành: 60 48 01 01

LUẬN VĂN THẠC SĨ

KHOA HỌC MÁY TÍNH

Giảng viên hướng dẫn: TS. TRƯƠNG HOÀNG VINH

TP. HỒ CHÍ MINH, NĂM 2020

TRƯỜNG ĐẠI HỌC MỞ

THÀNH PHỐ HỒ CHÍ MINH

KHOA ĐÀO TẠO SAU ĐẠI HỌC

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập – Tự do – Hạnh phúc

GIẤY XÁC NHẬN

Tôi tên là: Hồ Hướng Thiên

Ngày sinh: 25/12/1982 Nơi sinh: Khánh Hoà

Chuyên ngành: Khoa Học Máy Tính Mã học viên: 1884801010008

Tôi đồng ý cung cấp toàn văn thông tin luận văn tốt nghiệp hợp lệ về bản quyền cho

Thư viện trường đại học Mở Thành phố Hồ Chí Minh. Thư viện trường đại học Mở

Thành phố Hồ Chí Minh sẽ kết nối toàn văn thông tin luận văn tốt nghiệp vào hệ thống

thông tin khoa học của Sở Khoa học và Công nghệ Thành phố Hồ Chí Minh.

Ký tên

Hồ Hướng Thiên

LỜI CAM ĐOAN

Tôi tên là Hồ Hướng Thiên, học viên cao học lớp MCOM018A niên khoá

2018 - 2020. Tôi xin cam đoan luận văn “Nhận dạng cảm xúc dựa trên bình luận

trong điều kiện học nửa giám sát” là bài nghiên cứu của chính tôi dưới sự hướng

dẫn của thầy tiến sĩ Trương Hoàng Vinh.

Những kết quả đạt được và những đóng góp từ luận văn là kết quả của quá

trình tìm hiểu, nghiên cứu và thực nghiệm của chính bản thân tôi. Bên cạnh đó,

luận văn sử dụng một số tài liệu, một số công trình nghiên cứu trước đây. Tất

cả những tài liệu và công trình nghiên cứu này được tôi trích dẫn và ghi nguồn

trích dẫn rõ ràng, theo đúng quy định.

Kết quả của luận văn này chưa được nộp để nhận bất kỳ bằng cấp nào tại

các trường đại học hoặc cơ sở đào tạo khác. Tôi xin cam đoan và chịu hoàn toàn

trách nhiệm về nội dung này.

Thành phố Hồ Chí Minh, năm 2020

Hồ Hướng Thiên

i

LỜI CẢM ƠN

Trong thời gian học tập, nghiên cứu để hoàn thiện luận văn, tôi đã nhận được

sự hướng dẫn, giúp đỡ rất tận tình của quý thầy cô trong khoa CNTT, khoa

Sau Đại Học của trường Đại học Mở Tp.HCM.

Tôi xin gởi lời cảm ơn chân thành đến tiến sĩ Trương Hoàng Vinh. Thầy đã

rất nhiệt tình hỗ trợ, hướng dẫn tôi trong suốt thời gian nghiên cứu cũng như

thực hiện luận văn. Bên cạnh đó, thầy còn khơi gợi, truyền đạt tinh thần nghiên

cứu khoa học và công bố khoa học thông qua các bài báo tại các hội nghị quốc

tế. Tôi đã rất may mắn khi được cùng cộng tác, cùng làm việc chung với thầy.

Một lần nữa, xin gởi đến thầy lòng biết ơn sâu sắc nhất.

Bên cạnh đó, tôi cũng xin cảm ơn các thầy đã giảng dạy một số bộ môn

trong quá trình học tập tại trường. Ngoài việc truyền đạt kiến thức, các thầy

còn hướng dẫn, đưa ra những lời khuyên, những kinh nghiệm cho việc chọn đề

tài nghiên cứu và viết đề tài luận văn.

Cuối cùng, tôi xin gởi lời cảm ơn đến những người thân yêu trong gia đình,

một số bạn bè thân thiết. Những người đã luôn ở bên cạnh, hỗ trợ, động viên

và tạo điều kiện thuận lợi nhất để tôi hoàn thành luận văn, cũng như chương

trình học thạc sĩ tại trường.

ii

TÓM TẮT

Cảm xúc là biểu hiện tâm lý của con người bao gồm hạnh phúc, buồn, vui,

hờn giận...v.v. Những cảm xúc này có thể được thể hiện qua lời nói, câu từ, cử

chỉ hay những biểu cảm trên khuôn mặt. Cảm xúc dường như ảnh hưởng nhiều

đến những việc làm, những quyết định của con người trong đời sống hằng ngày.

Việc nhận biết được cảm xúc của con người không chỉ giúp chúng ta thành công

trong giao tiếp, mà còn hỗ trợ các doanh nghiệp hiểu được khách hàng, nắm bắt

được thị hiếu, mong muốn của khách hàng để từ đó chăm sóc khách hàng tốt

hơn. Vì có nhiều lợi ích mang lại, cho nên nhận dạng cảm xúc đã và đang được

quan tâm rất lớn. Sự quan tâm đó không chỉ trong giới nghiên cứu khoa học,

mà còn đối với nhiều doanh nghiệp.

Ngày nay, với sự bùng nổ của công nghệ thông tin và các ứng dụng thuộc lĩnh

vực trí tuệ nhân tạo, việc nhận dạng cảm xúc là một nhu cầu lớn và được áp dụng

trong các lĩnh vực như chứng khoán, hệ thống khách sạn, du lịch, marketing.

Cùng với sự bùng nổ đó, cho nên nhiều công việc đã sử dụng các phương tiện

kỹ thuật số làm kênh liên lạc chính yếu. Con người giao tiếp, trao đổi với nhau

thông qua những tin nhắn, bình luận, email hoặc văn bản. Bằng nhiều phương

pháp khác nhau, chúng ta có thể nhận dạng được cảm xúc của con người thông

qua những bình luận hoặc bài viết ngắn này.

Trong những năm gần đây, hướng tiếp cận và xử lý bài toán nhận dạng cảm

xúc theo phương pháp học máy đã được nhiều công trình nghiên cứu áp dụng

iii

bởi vì nó đã đạt được nhiều kết quả khả quan. Phương pháp này cũng được luận

văn tiếp cận và nghiên cứu cho việc nhận dạng cảm xúc. Trong đó, ba bộ phân

lớp Naive Bayes, Random Forest và Support Vector Machine được luận văn lựa

chọn và áp dụng vào mô hình.

Đối với phương pháp học máy, việc xây dựng mô hình huấn luyện đòi hỏi phải

có một lượng dữ liệu đủ lớn. Số lượng dữ liệu huấn luyện nhiều hay ít cũng ảnh

hưởng một phần đến hiệu quả và độ chính xác của mô hình. Tuy nhiên, trong

nhiều lĩnh vực và trong nhiều trường hợp, chúng ta không có đủ dữ liệu được

gán nhãn để huấn luyện mô hình. Vì vậy, luận văn đã tập trung nghiên cứu và

đồng thời đề xuất một số kỹ thuật nhằm làm tăng dữ liệu huấn luyện này. Các

kỹ thuật được luận văn đề xuất đã mang lại kết quả đáng kể trong việc nâng

cao độ chính xác của mô hình.

Bên cạnh việc nghiên cứu và đề xuất các kỹ thuật làm tăng dữ liệu văn bản,

luận văn còn nghiên cứu xây dựng mô hình huấn luyện trong điều kiện có rất

ít dữ liệu huấn luyện. Trong mô hình thực nghiệm, luận văn đã đặt ra một thử

thách lớn trong việc xây dựng mô hình huấn luyện trong điều kiện rất ít dữ

liệu bằng việc lựa chọn xây dựng mô hình với dữ liệu huấn luyện từ một đến

mười câu bình luận. Qua thực nghiệm, luận văn đã cho thấy hiệu quả ở một số

phương pháp được đề xuất. Đặc biệt, luận văn đã đóng góp được thêm bốn kỹ

thuật làm tăng dữ liệu huấn luyện.

iv

ABSTRACT

Emotions are human psychological expression, including happiness, sadness,

anger, etc. These emotions can be expressed through words, sentences, gestures,

or facial expressions. Sentiment might have an impact to do and decisions of

people in daily life. Recognizing human emotions not only helps us to be suc￾cessful in communication, but also helps understanding customers in business.

This allows to capture the desires of customers for customer care. There are

many benefits to it, sentiment analysis has been receiving many attentions in

the last decade both in scientific research community and businesses.

Today, with the explosion of information technology and various applications

of artificial intelligence, sentiment analysis is a great demand and is widely ap￾plied in different areas such as securities, hotel systems booking, tourism, mar￾keting. Many jobs have used digital media as the main communication channel.

People can communicate via messages, comments, emails, or texts. By using dif￾ferent methods, we can identify human emotions through these short comments

or reviews.

In recent years, the sentiment analysis problem method has been solved by

different machine learning algorithms because it has achieved a promising result.

The sentiment analysis is further investigated in this thesis. The three classifiers

Naive Bayes, Random Forest and Support Vector Machine are considered to

recognize the sentiments of Vietnamese comment or reviews of products.

v

In machine learning, building a training model requires a sufficiently large

amount of data. The amount of training data also affects the performance and

accuracy of the model. However, in many areas, we do not have enough labeled

data to train the model. This thesis focusses on increasing training data for

Vietnamese short text reviews.

We put the proposed issues as a challenge problem by building the training

model in the context of very limited training data. The proposed approach is

evaluated, and which shows its efficiency. Through experiments, the thesis has

shown effectiveness in several proposed methods. In particular, the thesis has

contributed four additional techniques to increase training data.

vi

MỤC LỤC

Lời cam đoan i

Lời cảm ơn ii

Tóm tắt iii

Abstract v

Mục lục vii

Danh mục hình và đồ thị x

Danh mục bảng xi

Danh mục ký hiệu xiii

Danh mục viết tắt xiv

1 Tổng quan về nhận dạng cảm xúc 1

1.1 Giới thiệu luận văn . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Mục tiêu của luận văn . . . . . . . . . . . . . . . . . . . . . . . 5

1.3 Phương pháp nghiên cứu . . . . . . . . . . . . . . . . . . . . . . 7

1.4 Đóng góp của luận văn . . . . . . . . . . . . . . . . . . . . . . . 8

1.5 Cấu trúc của luận văn . . . . . . . . . . . . . . . . . . . . . . . 9

vii

Tải ngay đi em, còn do dự, trời tối mất!