Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Đánh giá mức độ tiêu cực bình luận trên mạng xã hội :Hội nghị khoa học trẻ lần 4
Nội dung xem thử
Mô tả chi tiết
Hội nghị Khoa học trẻ lần 4 năm 2022 (YSC2022) – IUH
Ngày 14/10/2022 ISBN: 978-604-920-155-4
18 2022 Trường Đại học Công nghiệp Thành phố Hồ Chí Minh
YSC4F.202
ĐÁNH GIÁ MỨC ĐỘ TIÊU CỰC BÌNH LUẬN TRÊN MẠNG XÃ HỘI
PHẠM MINH TUẤN, TRƯƠNG NGUYỄN DUY TÂN, NGUYỄN QUANG QUỐC,
ĐÀO DUY TRƯỜNG, NGUYỄN THỊ THANH HÒA, ĐẶNG THỊ PHÚC
Khoa Công nghệ Thông tin, Trường Đại học Công nghiệp Thành phố Hồ Chí Minh
[email protected], [email protected], [email protected],
[email protected], [email protected], [email protected]
Tóm tắt. Hiện nay, do việc thể hiện quan điểm cá nhân trên mạng xã hội ngày càng dễ dàng hơn nên không
thể tránh khỏi những nhóm người có hành vi bình luận tiêu cực trên mạng. Trong dự án nghiên cứu này,
chúng tôi sẽ thu thập dữ liệu từ mạng xã hội Facebook và xây dựng mô hình để dự đoán mức độ tiêu cực
bình luận. Bộ dữ liệu của chúng tôi thu thập gồm những nội dung bình luận và gán 7 loại nhãn: (1) quãng
cáo, (2) thông tin không liên quan, (3) không tiêu cực, (4) tiêu cực nhẹ, (5) thông tin tiêu cực, (6) tiêu cực
kỳ thị, (7) tiêu cực từ ngữ thô tục. Với mỗi bình luận được gán nhãn dựa vào kinh nghiệm người gán nhãn
và sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên đưa vào mô hình. Chúng tôi áp dụng kỹ thuật học sâu để
xây dựng mô hình phân loại các bình luận này để có độ chính xác cao nhất trên bộ dữ liệu trên 20000 bình
luận đã được gán nhãn. Mô hình được triển khai lên các hệ thống mạng xã hội giúp tự động quản lý, chọn
lọc bình luận phù hợp, loại bỏ hoặc ghi nhận những cá nhân có bình luận không đúng mục đích.
Từ khóa. mức độ tiêu cực bình luận, học sâu, xử lý ngôn ngữ tự nhiên.
ASSESS THE NEGATIVE LEVEL OF COMMENTS ON SOCIAL NETWORKS
Abstract. Currently, because it is easier to express personal views on social networks, groups of people
inevitably have negative comments online. In this research project, we will collect data from the social
network Facebook and build a model to predict the level of negative comments. Our data set includes
comments and assigns 7 types of labels: (1) advertising, (2) irrelevant information, (3) not negative, (4)
mildly negative, (5) negative information, (6) negative stigma, (7) negative profanity. Each comment is
labeled based on the tagger's experience and using natural language processing techniques to feed into the
model. We apply deep learning techniques to build a classification model of these comments to have the
highest accuracy on a dataset of over 20000 labeled comments. The model is deployed to social networking
systems to automatically manage and select appropriate comments, and remove or recognize individuals
with inappropriate comments.
Keywords. negative comments, deep learning, natural language processing.
1. TỔNG QUAN
Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) là một nhánh của Trí tuệ nhân tạo, tập trung
vào việc nghiên cứu sự tương tác giữa máy tính và ngôn ngữ tự nhiên của con người, dưới dạng giọng nói
(speech) hoặc văn bản (text). Mục tiêu là giúp máy tính hiểu và thực hiện hiệu quả những nhiệm vụ liên
quan đến ngôn ngữ của con người như: tương tác giữa người và máy, cải thiện hiệu quả giao tiếp giữa con
người với con người, hoặc đơn giản là nâng cao hiệu quả xử lý văn bản và lời nói…
Ngày nay, tình trạng xuất hiện những bình luận tiêu cực trên Facebook gây ảnh hưởng xấu không nhỏ đến
cuộc sống con người, thậm chí là suy sụp tinh thần, tự sát. Cũng chỉ vì những bình luận chứa từ ngữ thô
tục, chứa nội dung nhạy cảm; bình luận có xu hướng lôi kéo, dụ dỗ nhằm mục đích lừa đảo; bình luận kỳ
thị, chê bai, đánh giá, chỉ trích người khác vô cớ; bình luận chứa từ ngữ không rõ ràng, gây hiểu lầm và vô