Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Phân Tích Ý Định Từ Văn Bản Ngắn Trực Tuyến Tiếng Việt
Nội dung xem thử
Mô tả chi tiết
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lương Thái Lê
Phân tích ý định từ văn bản ngắn,
trực tuyến tiếng Việt
LUẬN ÁN TIẾN SỸ HỆ THỐNG THÔNG TIN
Hà Nội - 2021
LỜI CAM ĐOAN
Nghiên cứu sinh (NCS) xin cam đoan luận án Phân tích ý định
từ văn bản ngắn, trực tuyến tiếng Việt là công trình nghiên cứu của
riêng NCS. Các số liệu, kết quả được trình bày trong luận án là hoàn toàn
trung thực và chưa từng được công bố trong bất kỳ một công trình nào khác.
NCS đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu
liên quan trong và ngoài nước. Ngoại trừ các tài liệu tham khảo này,
luận án hoàn toàn là công việc của riêng NCS.
Trong các công trình khoa học được công bố liên quan đến luận án, NCS
đã thể hiện rõ và chính xác đóng góp của các đồng tác giả và những gì
do NCS đã thực hiện.
Tác giả:
Hà Nội:
i
LỜI CẢM ƠN
Lời đầu tiên, tôi xin được bày tỏ sự biết ơn sâu sắc đến PGS.TS. Phan
Xuân Hiếu, cán bộ hướng dẫn khoa học, người đã trực tiếp định hướng và
giúp đỡ tôi trong suốt quá trình nghiên cứu và thực hiện luận án. Thầy không
chỉ truyền đạt cho tôi những kiến thức quan trọng về học thuật mà còn chia
sẻ cho tôi nhiều kinh nghiệm quý giá trong con đường nghiên cứu khoa học.
Một vinh dự lớn cho tôi được học tập, nghiên cứu dưới sự hướng dẫn của
Thầy.
Tôi xin bày tỏ sự biết ơn chân thành đến các Thầy, Cô trong Bộ môn
Hệ thống thông tin, đặc biệt là PGS.TS. Hà Quang Thụy cùng các thành
viên của Phòng thí nghiệm Khoa học Dữ liệu và Công nghệ Tri thức vì sự
giúp đỡ cũng như những đóng góp chuyên môn hữu ích của các Thầy Cô cho
luận án.
Tôi xin trân trọng cảm ơn Khoa Công nghệ Thông tin, Phòng Đào tạo
và Ban Giám hiệu Trường Đại học Công nghệ đã tạo điều kiện thuận lợi cho
tôi trong suốt quá trình học tập và thực hiện luận án.
Tôi cũng bày tỏ sự biết ơn đến Ban Giám hiệu, Ban Chủ nhiệm Khoa,
và các đồng nghiệp của tôi tại Khoa Công nghệ Thông tin - Trường Đại học
Giao thông Vận tải vì đã tạo điều kiện về thời gian, tài chính và đã luôn cổ
vũ, hỗ trợ tôi trong suốt quá trình nghiên cứu. Bên cạnh đó, tôi cũng xin gửi
lời cảm ơn đến PGS.TS. Trần Văn Long, cán bộ đồng hướng dẫn luận án của
tôi, về những giúp đỡ hữu ích cho luận án.
Tôi không thể quên cảm ơn những cộng sự của tôi trong nhóm nghiên
cứu MDN–Team, những người đã đồng hành, sát cánh cùng tôi trong suốt
quá trình nghiên cứu, hoàn thành luận án, và tôi sẽ luôn ghi nhớ điều đó.
Ngoài ra, tôi muốn cảm ơn tất cả những người bạn của tôi vì sự động viên
chia sẻ bất cứ khi nào tôi cần.
Cuối cùng, tôi xin bày tỏ lòng biết ơn vô hạn đối với bố mẹ, chồng, con
và gia đình, những người đã luôn ủng hộ và yêu thương tôi một cách vô điều
kiện. Nếu không có sự ủng hộ của gia đình và chồng con, tôi không thể hoàn
thành được luận án này.
ii
Mục lục
Lời cam đoan i
Lời cảm ơn ii
Mục lục ii
Danh mục các từ viết tắt vi
Danh mục các bảng viii
Danh mục các hình vẽ x
Mở đầu 1
Chương 1. Tổng quan về ý định và phân tích ý định 10
1.1 Ý định và thể hiện ý định trong ngôn ngữ . . . . . . . . . . . . 10
1.2 Ý định trong văn bản trực tuyến . . . . . . . . . . . . . . . . . . 12
1.3 Phân tích ý định: bối cảnh khoa học . . . . . . . . . . . . . . . 14
1.3.1 Phân tích và xác định ý định từ truy vấn tìm kiếm . . . 16
1.3.2 Phân tích ý định trong các bài đăng . . . . . . . . . . . . 20
1.4 Một số kỹ thuật khai phá dữ liệu và mô hình học máy . . . . . 21
1.4.1 Cơ bản về kỹ thuật phân lớp . . . . . . . . . . . . . . . . 21
1.4.2 Cơ bản về kỹ thuật trích xuất thông tin . . . . . . . . . 23
1.4.3 Cơ bản về mạng nơ ron . . . . . . . . . . . . . . . . . . . 25
1.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Chương 2. Phân tích ý định từ văn bản trực tuyến 31
2.1 Phân tích ý định từ văn bản trực tuyến tiếng Việt . . . . . . . 31
2.1.1 Xây dựng dữ liệu thực nghiệm . . . . . . . . . . . . . . . 33
2.1.2 Khó khăn - Thách thức . . . . . . . . . . . . . . . . . . . 36
2.2 Định nghĩa ý định người dùng: bối cảnh khoa học . . . . . . . . 38
2.2.1 Định nghĩa ý định người dùng theo tiếp cận từ điển . . . 38
2.2.2 Định nghĩa ý định người dùng theo hướng cấu trúc . . . 39
iii
2.3 Định nghĩa ý định hướng miền quan tâm . . . . . . . . . . . . . 39
2.3.1 Định nghĩa quan điểm của Bing Liu . . . . . . . . . . . . 40
2.3.2 Định nghĩa ý định của Bing Liu . . . . . . . . . . . . . . 41
2.3.3 Định nghĩa ý định hướng miền quan tâm của luận án . . 42
2.4 Tiến trình ba pha phân tích và xác định ý định . . . . . . . . . 46
2.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Chương 3. Phát hiện ý định và xác định miền quan tâm của
ý định 51
3.1 Nghiên cứu trên thế giới về phát hiện ý định và xác định miền
quan tâm của ý định . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.1.1 Phát hiện bài đăng trực tuyến mang ý định . . . . . . . 52
3.1.2 Xác định miền quan tâm của ý định . . . . . . . . . . . . 53
3.2 Phát hiện ý định . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 55
3.2.2 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 56
3.2.3 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 60
3.2.4 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 61
3.2.5 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 62
3.3 Xác định miền quan tâm của ý định . . . . . . . . . . . . . . . . 65
3.3.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 65
3.3.2 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 67
3.3.3 Xây dựng tập các miền quan tâm . . . . . . . . . . . . . 70
3.3.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 71
3.3.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 73
3.3.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 73
3.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Chương 4. Phân tích và trích chọn nội dung ý định 79
4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.2 Nghiên cứu trên thế giới về trích chọn nội dung ý định . . . . . 81
4.3 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.4 Trích chọn ý định theo tiếp cận học máy thống kê và học sâu . 84
4.4.1 Xây dựng bộ nhãn thực nghiệm . . . . . . . . . . . . . . 84
4.4.2 Trích chọn ý định với phương pháp CRFs . . . . . . . . . 84
4.4.3 Trích chọn ý định với phương pháp học sâu Bi–LSTM–
CRFs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.4.4 Độ đo đánh giá mô hình thực nghiệm . . . . . . . . . . . 92
4.4.5 Thời gian thực nghiệm với mỗi mô hình . . . . . . . . . . 93
iv
4.4.6 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 93
4.4.7 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 95
4.4.8 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 96
4.5 Trích chọn ý định dựa trên kết hợp các mô hình học sâu . . . . 99
4.5.1 Kỹ thuật học kết hợp (ensemble learning) . . . . . . . . 100
4.5.2 Xây dựng bộ nhãn thực nghiệm . . . . . . . . . . . . . . 101
4.5.3 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 101
4.5.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 109
4.5.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 110
4.5.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 113
4.6 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 121
5.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.2 Nghiên cứu trên thế giới về thích nghi miền trong xác định ý
định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.3 Trích chọn nội dung ý định theo tiếp cận đa miền quan tâm . . 125
5.3.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 125
5.3.2 Xây dựng bộ nhãn không phụ thuộc miền . . . . . . . . 126
5.3.3 Mô hình trích xuất ý định đa miền quan tâm . . . . . . 131
5.3.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 135
5.3.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 136
5.3.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 138
5.3.7 Mô phỏng mô hình trích xuất ý định đa miền quan tâm 144
5.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
Kết luận 148
Danh mục các công trình khoa học 150
Tài liệu tham khảo 151
Phụ lục 159
v
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt Dạng đầy đủ Diễn giải/Tạm dịch
Bi-LSTM Bidirectional Long Short
Term Memory
Mạng bộ nhớ dài ngắn hai
chiều
Bi-LSTM-CRFs Bidirectional Long Short
Term Memory -
Conditional Random Field
Mạng bộ nhớ dài ngắn hai
chiều trường ngẫu nhiên có
điều kiện
CNN Convolutional Neural Network Mạng nơ ron tích chập
CRFs Conditional Random Fields Trường ngẫu nhiên có điều
kiện
EI Explicit Intent Ý định rõ
EMD Entity Mentioned
Detection
Xác định thực thể được
nhắc đến
IE Information Extraction Trích xuất thông tin
IH Intent Head Đầu của ý định
II Implicit Intent Ý định ẩn
IM Intent Modifiers Bổ nghĩa của ý định
L-BFGS Limited-memory
Broyden-Fletcher
Goldfarb Shanno
Giới hạn bộ nhớ BFGS
LSTM Long Short Term Memory
Mạng bộ nhớ ngắn dài
vi
ME Maximum Entropy Cực đại entropy
NI Non Intent Không có ý định
NER Named Entity Ricognition Nhận diện thực thể có tên
POS Part Of Speech Thành phần của câu
RNN Recurrent Neural Network Mạng nơ ron hồi quy
SVMs Support Vector Machines Máy véc tơ hỗ trợ
vii
DANH MỤC CÁC BẢNG
1.1 Ví dụ về văn bản trực tuyến chứa và không chứa ý định . . . . 13
3.1 Đặc trưng dùng để huấn luyện mô hình lọc bài đăng mang ý
định người dùng . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.2 Ý định của người dùng thuộc các miền quan tâm khác nhau . . 66
3.3 Ví dụ về một vài đặc trưng từ điển có trọng số cao cho mỗi
miền quan tâm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.4 Mười ba lớp miền quan tâm của ý định và ví dụ . . . . . . . . . 72
3.5 Precision, recall và F1-score của fold tốt nhất khi dùng SVMs
và ME . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.6 Độ chính xác của từng lớp miền quan tâm khi sử dụng phương
pháp CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.1 Bộ 13 nhãn cho miền quan tâm Bất động sản . . . . . . . . . . 85
4.2 Bộ 9 nhãn cho miền quan tâm Mỹ phẩm & Làm đẹp . . . . . . 85
4.3 Ví dụ minh họa cho đặc trưng dạng biểu thức chính quy . . . . 87
4.4 Đặc trưng từ điển . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.5 Gán nhãn dữ liệu với bộ nhãn tương ứng . . . . . . . . . . . . . 93
4.6 Trung bình F1-score với mỗi mô hình thực nghiệm thuộc miền
quan tâm Mỹ phẩm & Làm đẹp . . . . . . . . . . . . . . . . . . 98
4.7 Trung bình F1-score với mỗi mô hình thực nghiệm thuộc miền
quan tâm Bất động sản . . . . . . . . . . . . . . . . . . . . . . . 98
4.8 Bộ 18 nhãn của miền Bất động sản (BĐS) . . . . . . . . . . . . 110
4.9 Bộ 15 nhãn của miền Du lịch . . . . . . . . . . . . . . . . . . . 111
4.10 Bộ gồm 17 nhãn của miền Xe cộ . . . . . . . . . . . . . . . . . 112
4.11 Độ chính xác đối với từng nhãn thu được trên miền Du lịch khi
sử dụng phương pháp học kết hợp mà luận án đề xuất . . . . . 116
4.12 Độ chính xác đối với từng nhãn thu được trên miền Xe cộ khi
sử dụng phương pháp kết hợp mà luận án đề xuất . . . . . . . 118
viii
4.13 Độ chính xác đối với từng nhãn thu được trên miền Bất động
sản khi sử dụng phương pháp kết hợp mà luận án đề xuất . . . 119
4.14 Một số ví dụ về nhãn mô tả . . . . . . . . . . . . . . . . . . . . 120
5.1 Bộ 18 nhãn của miền Bất động sản (BĐS) . . . . . . . . . . . . 127
5.2 Bộ 15 nhãn của miền Du lịch . . . . . . . . . . . . . . . . . . . 128
5.3 Bộ gồm 17 nhãn của miền Xe cộ . . . . . . . . . . . . . . . . . 129
5.4 Bộ 10 nhãn không phụ thuộc miền . . . . . . . . . . . . . . . . . 130
5.5 Sử dụng bộ nhãn không phụ thuộc miền trên một số miền quan
tâm khác . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
5.6 Gán nhãn dữ liệu lần lượt với bộ nhãn riêng và bộ nhãn không
phụ thuộc miền . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
5.7 Kết quả F1 trung bình đối với mỗi miền quan tâm cụ thể khi
sử dụng bộ nhãn riêng và bộ nhãn không phụ thuộc miền tương
ứng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
5.8 Kết quả tốt nhất khi trích xuất từng nhãn trên miền Du lịch
với bộ nhãn không phụ thuộc miền . . . . . . . . . . . . . . . . 139
5.9 Kết quả tốt nhất khi trích xuất từng nhãn trên miền Du lịch
với bộ nhãn riêng . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
5.10 Kết quả tốt nhất khi trích xuất từng nhãn trên miền Xe cộ và
Bất động sản với bộ nhãn riêng . . . . . . . . . . . . . . . . . . 141
5.11 Kết quả tốt nhất khi trích xuất tập 32 nhãn riêng đối với tổ
hợp 3 miền quan tâm. . . . . . . . . . . . . . . . . . . . . . . . . 145
5.12 Kết quả tốt nhất khi trích xuất tập 10 nhãn không phụ thuộc
miền đối với tổ hợp 3 miền quan tâm. . . . . . . . . . . . . . . . 146
5.13 Ví dụ gán nhãn cho miền Bất động sản (BĐS) . . . . . . . . . . 159
5.14 Ví dụ gán nhãn cho miền Du lịch . . . . . . . . . . . . . . . . . 160
5.15 Ví dụ gán nhãn cho miền Xe cộ . . . . . . . . . . . . . . . . . 161
ix
DANH MỤC CÁC HÌNH VẼ
1.1 Quy tắc gán nhãn BIO . . . . . . . . . . . . . . . . . . . . . . . 24
1.2 Chuỗi trạng thái tương ứng với chuỗi quan sát . . . . . . . . . . 25
1.3 Mô hình mạng nơ ron feed − forward nhiều tầng . . . . . . . . . 27
1.4 Đồ thị tính toán trong kiến trúc RNNs . . . . . . . . . . . . . . 28
1.5 Kiến trúc một tế bào trong mô hình LSTM [46] . . . . . . . . . 29
2.1 Một bài đăng mang ý định rõ trên phương tiện truyền thông
xã hội Việt Nam . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2 Ví dụ minh họa cho việc tiền xử lý dữ liệu . . . . . . . . . . . . 34
2.3 Quy trình ba pha Phân tích và xác định ý định người dùng . . 47
2.4 Ví dụ cụ thể một quá trình phân tích và xác định ý định người
dùng trực tuyến . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.1 Mô phỏng mô hình phân lớp nhị phân với CNN . . . . . . . . 57
3.2 Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp ME 63
3.3 Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp SVMs 63
3.4 Độ chính xác của từng lớp con khi sử dụng phương pháp SVMs 64
3.5 Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp CNN 65
3.6 Sơ đồ khối thể hiện mô hình Xác định miền quan tâm của ý định 68
3.7 Độ chính xác F1 khi đánh giá chéo 5-fold với ME và SVMs . . 75
3.8 Độ chính xác trung bình F1 đối với mỗi miền quan tâm của ý
định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.9 Độ chính xác trung bình F1 khi đánh giá chéo 5-fold với CNN 76
4.1 Một số mẫu intention phrase [16] . . . . . . . . . . . . . . . . . 82
4.2 Bản thể mẫu ngữ nghĩa của ý định mua sắm - CI pattern [36] . 83
4.3 Cửa sổ trượt kích thước 5 để xây dựng đặc trưng từ vựng . . . 86
4.4 Kiến trúc mô hình Bi-LSTM-CRFs . . . . . . . . . . . . . . . . 89
4.5 Véc tơ mã hóa được huấn luyện trước của từ “có” . . . . . . . . 90
4.6 Mô hình mã hóa dựa vào ký tự . . . . . . . . . . . . . . . . . . . 91
4.7 Mô phỏng mô hình mạng nơ ron sử dụng kỹ thuật cắt tỉa . . . 92
4.8 Chuyển đổi sang chuẩn B-I-O . . . . . . . . . . . . . . . . . . . 94
x
4.9 Trung bình F1-score của mỗi fold đối với miền quan tâm Mỹ
phẩm & Làm đẹp . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.10 Trung bình F1-score của mỗi fold đối với miền quan tâm Bất
động sản . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.11 Độ chính xác trung bình F1 đối với mỗi nhãn trong miền quan
tâm Mỹ phẩm & Làm đẹp . . . . . . . . . . . . . . . . . . . . . . 100
4.12 Độ chính xác trung bình F1 đối với mỗi nhãn trong miền quan
tâm Bất động sản . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.13 Mô hình trích chọn ý định dựa trên kết hợp các mô hình học sâu 102
4.14 Sơ đồ khối thể hiện pha huấn luyện của mô hình học kết hợp
không chia sẻ tài nguyên . . . . . . . . . . . . . . . . . . . . . . 103
4.15 Sơ đồ khối thể hiện pha đoán nhận của mô hình học kết hợp
không chia sẻ tài nguyên . . . . . . . . . . . . . . . . . . . . . . 104
4.16 Mô hình trích chọn ý định dựa trên ý tưởng học kết hợp trong
ngữ cảnh học sâu với tầng biểu diễn từ dựa trên ký tự được
chia sẻ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.17 Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối
với miền Bất động sản . . . . . . . . . . . . . . . . . . . . . . . . 114
4.18 Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối
với miền Du lịch . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.19 Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối
với miền Xe cộ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
5.1 Mô hình trích xuất ý định đa miền quan tâm . . . . . . . . . . 132
5.2 Mô hình Bi-LSTM trích xuất ý định đa miền quan tâm . . . . 134
5.3 Kết quả F1 trung bình khi áp dụng các mô hình CRFs, BiLSTM, Bi-LSTM-CRFs lần lượt trên 1, 2 và 3 miền quan tâm
với bộ nhãn chung (General) và bộ nhãn riêng (Specific) tương
ứng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
5.4 Kết quả trung bình F1 trên tổ hợp 3 miền quan tâm khi áp
dụng lần lượt 3 mô hình Bi-LSTM-CRFs, Bi-LSTM, CRFs . . . 143
5.5 Giao diện mô hình trích xuất ý định người dùng . . . . . . . . . 146
xi
Mở đầu
Trong hơn một thập kỷ qua, với sự phát triển bùng nổ của blog, diễn đàn,
và mạng xã hội, người dùng Internet nói chung và người dùng Việt nói riêng
đã hình thành thói quen chia sẻ thông tin thường xuyên trên các kênh truyền
thông trực tuyến này. Theo đó, người dùng thường đăng các dòng trạng thái,
bài viết, bình luận thể hiện suy nghĩ, quan điểm, sở thích, tình cảm, và đặc
biệt là chia sẻ những ý định mà họ muốn thực hiện trong tương lai với mong
muốn nhận được phản hồi, tư vấn của những người dùng khác. Ý định của
người dùng có thể về bất cứ điều gì như dự tính mua điện thoại, thuê nhà,
vay ngân hàng, đi du lịch, học ngoại ngữ, khám chữa bệnh, hay đơn giản chỉ
là nghe nhạc, xem phim. Ngày nay, chúng ta dễ dàng bắt gặp những chia sẻ
như “nhà em đang tìm chiếc suv rộng rãi, bền bỉ, ăn ít xăng để đi làm và cả
nhà đi chơi cuối tuần, bác nào có crv hoặc santafe lướt thì inbox em” hay
“mình đang tính tổ chức chuyến du lịch cho cả phòng vào hè này. Bọn mình
đi ĐN, tầm tháng 7, khoảng 20 người cả trẻ em. Mẹ nào có kinh nghiệm đặt
tour thì tư vấn mình nhé, cảm ơn các mẹ nhiều”. Những bài đăng hàm chứa
ý định như trên thể hiện một cách rõ ràng mong muốn, nhu cầu và dự tính
của người viết. Từ đó nếu các công ty du lịch và hãng hàng không nắm bắt
được nhu cầu, dự định nghỉ hè của các khách hàng tiềm năng, họ có thể điều
chỉnh kế hoạch kinh doanh phù hợp hơn với thị trường. Không chỉ du lịch,
các lĩnh vực khác như bán lẻ, bất động sản, tài chính - ngân hàng, bảo hiểm,
y tế, giáo dục . . . đều được hưởng lợi. Rõ ràng, việc tự động thu thập, phân
tích và hiểu được ý định của người dùng thông qua những gì họ chia sẻ là
chìa khoá quan trọng giúp chúng ta nắm bắt nhu cầu khách hàng nhanh hơn
cũng như định vị các khách hàng tiềm năng hiệu quả hơn. Vì thế, phân tích
và hiểu ý định từ các văn bản trực tuyến là vấn đề có nhiều ý nghĩa thực tiễn
và có tính ứng dụng cao, đặc biệt đối với các hệ thống thương mại điện tử,
các hệ thống khuyến nghị, quảng cáo trực tuyến...
1
Mở đầu 2
Tuy vậy, phân tích và xác định một cách đầy đủ, chính xác ý định từ văn
bản là vấn đề khó trong lĩnh vực xử lý và hiểu ngôn ngữ tự nhiên. Thứ nhất,
ý định vốn rất đa dạng vì một người có thể thể hiện ý định về bất cứ điều
gì tuỳ thuộc vào nhu cầu, mong muốn của họ. Thứ hai, ngôn ngữ thể hiện
ý định có thể gây ra nhập nhằng. Ví dụ, câu “mình đang có hoa quả ngon,
mẹ nào muốn mua thì inbox nhé ” có ý định là bán hoa quả, nhưng sự hiện
diện của cụm từ muốn mua có thể đánh lừa máy tính. Thứ ba, ý định trong
văn bản có thể ở dạng ẩn (implicit) hoặc gián tiếp. Ví dụ “dòng 7 chỗ xe nào
chạy êm nhỉ ? ” không thể hiện rõ người viết muốn mua xe hay chỉ đơn thuần
tìm hiểu thông tin. Thứ tư, có thể tồn tại nhiều ý định ngay trong một câu
văn. Ngoài ra, việc các văn bản trên diễn đàn, mạng xã hội thường dùng từ
địa phương, tiếng lóng, từ viết tắt, ngôn ngữ “teen” cũng gây ra không ít khó
khăn cho việc phân tích ý định. Vì những thử thách trên, cộng đồng nghiên
cứu đang từng bước tìm cách giải quyết vấn đề này ở những phạm vi, mức
độ, hay miền lĩnh vực (miền dữ liệu) khác nhau. Chính vì vậy, bài toán phân
tích và hiểu ý định từ văn bản nói chung và văn bản truyền thông xã hội trực
tuyến nói riêng còn thiếu một cách tiếp cận xuyên suốt và đặc biệt là chưa
có giải pháp phù hợp cho ba vấn đề trọng tâm sau đây:
1) Đề xuất định nghĩa hình thức về ý định có khả năng khái
quát được cấu trúc ý định vốn được thể hiện rất đa dạng trong
văn bản.
Để phân tích và xác định ý định một cách hiệu quả và chính xác, trước
tiên chúng ta cần hiểu rõ ý định là gì. Ý định, theo cách hiểu chung nhất,
là những gì con người dự định sẽ thực hiện trong tương lai. Theo Bratman
(1987), “Ý định là trạng thái của trí não biểu thị một sự cam kết sẽ thực hiện
một hoặc một chuỗi các hành động trong tương lai. Ý định liên quan đến các
hoạt động đầu óc như lên kế hoạch hay sắp đặt chủ ý.” [13]. Tuy vậy định
nghĩa này mới chỉ ở dạng mô tả. Để máy tính có thể tự động phân tích và
hiểu được ý định, chúng ta cần những định nghĩa ở dạng hình thức hơn. Theo
hướng này, Liu mô tả ý định là một cấu trúc gồm năm thành phần bao gồm
hành động ý định (intended–action), đích của ý định (intention–target), độ
mạnh của ý định (intention–intensity), chủ thể của ý định (holder), và thời
điểm phát biểu ý định (time) [10]. Dù vậy, định nghĩa này chỉ mới phù hợp
với các câu văn mang ý định ở dạng đơn giản như “tôi muốn mua một chiếc
Mở đầu 3
iphone 11 pro” với muốn mua là intended–action, iphone 11 pro là intention–
target và tôi là holder. Trong thực tế, các câu mang ý định vốn đa dạng
và phức tạp hơn. Ngoài hành động và đích của ý định, miền quan tâm, ngữ
cảnh xuất hiện, cùng các thuộc tính hay ràng buộc của ý định là những khía
cạnh cần thiết được xem xét. Chẳng hạn, với văn bản được đăng trên trang
www.webtretho.com như sau:“Em cũng đang cần thuê phòng trọ khép kín cho
2 chị em gái đều đã đi làm(1 nvvp & 1 giáo viên ĐH). Em cần phòng giá
khoảng 1tr7, ở lâu dài khu vực CẦU GIẤY - LÁNG - TRẦN DUY HƯNG -
THANH XUÂN. Cả nhà có thông tin gì thì cho em biết với nhé. Em muốn
chuyển luôn cuối tuần này ạ. Liên hệ em Linh - 0988 428 197. Em đi làm
nên chỉ cần chỗ ở yên tĩnh, thoáng, có internet, có nấu ăn, có chỗ để xe và
an ninh tốt là được ạ. Cảm ơn cả nhà.”, ta có thể thấy rất nhiều thông tin
cần trích xuất như: giá thuê, địa điểm phòng trọ, số điện thoại liên hệ... Vì
thế, chúng ta cần có một định nghĩa, một cấu trúc đặc tả các thành phần
của ý định cụ thể và bao quát hơn.
2) Mô hình hoá vấn đề phân tích và hiểu ý định theo một quy
trình xuyên suốt với đầy đủ các bước phát hiện ý định, xác định
miền quan tâm, và trích chọn nội dung cụ thể của ý định.
Như đã đề cập, ý định thể hiện trong văn bản rất đa dạng. Vì thế, các
nghiên cứu trước đây thường tiếp cận vấn đề trong một phạm vi hoặc một
lĩnh vực ứng dụng cụ thể. Theo đó, Li (2010) [67] phân tích ý định trong
truy vấn tìm kiếm bằng việc xác định hai thành phần là trọng tâm của ý định
(intent heads – IH) và bổ nghĩa của ý định (intent modifiers – IM). Ví dụ
truy vấn “alice in wonderland 2010 cast” có IH là “cast” (diễn viên) và hai
IM là “alice in wonderland” (tên bộ phim) và “2010 ” (sản xuất năm 2010).
IH là thành phần máy tìm kiếm cần tìm câu trả lời còn mỗi IM là một ràng
buộc hay đặc điểm nào đó của truy vấn. Khi xác định được các thành phần
IH và IM trong một câu truy vấn, hệ thống sẽ hiểu được ý định tìm kiếm của
người dùng là gì. Heyrani–Nobari và cộng sự (2014) [76] phân tích ý định của
các bài đăng trên diễn đàn thảo luận bằng cách xác định khía cạnh (aspect)
và hành động (action) liên quan. Ví dụ khía cạnh có thể là “iphone” và hành
động có thể là “nâng cấp”. Tác giả áp dụng một mô hình chủ đề để đồng
thời xác định được cả hai loại thông tin này. Castellanos và cộng sự (2012)
[16] phân tích ý định từ các văn bản trực tuyến bằng cách xác định cụm từ
chứa ý định (intention phrase) và các thành phần khác của ý định (intention