Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Phân Tích Ý Định Từ Văn Bản Ngắn Trực Tuyến Tiếng Việt
PREMIUM
Số trang
173
Kích thước
2.6 MB
Định dạng
PDF
Lượt xem
902

Phân Tích Ý Định Từ Văn Bản Ngắn Trực Tuyến Tiếng Việt

Nội dung xem thử

Mô tả chi tiết

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Lương Thái Lê

Phân tích ý định từ văn bản ngắn,

trực tuyến tiếng Việt

LUẬN ÁN TIẾN SỸ HỆ THỐNG THÔNG TIN

Hà Nội - 2021

LỜI CAM ĐOAN

Nghiên cứu sinh (NCS) xin cam đoan luận án Phân tích ý định

từ văn bản ngắn, trực tuyến tiếng Việt là công trình nghiên cứu của

riêng NCS. Các số liệu, kết quả được trình bày trong luận án là hoàn toàn

trung thực và chưa từng được công bố trong bất kỳ một công trình nào khác.

 NCS đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu

liên quan trong và ngoài nước. Ngoại trừ các tài liệu tham khảo này,

luận án hoàn toàn là công việc của riêng NCS.

 Trong các công trình khoa học được công bố liên quan đến luận án, NCS

đã thể hiện rõ và chính xác đóng góp của các đồng tác giả và những gì

do NCS đã thực hiện.

Tác giả:

Hà Nội:

i

LỜI CẢM ƠN

Lời đầu tiên, tôi xin được bày tỏ sự biết ơn sâu sắc đến PGS.TS. Phan

Xuân Hiếu, cán bộ hướng dẫn khoa học, người đã trực tiếp định hướng và

giúp đỡ tôi trong suốt quá trình nghiên cứu và thực hiện luận án. Thầy không

chỉ truyền đạt cho tôi những kiến thức quan trọng về học thuật mà còn chia

sẻ cho tôi nhiều kinh nghiệm quý giá trong con đường nghiên cứu khoa học.

Một vinh dự lớn cho tôi được học tập, nghiên cứu dưới sự hướng dẫn của

Thầy.

Tôi xin bày tỏ sự biết ơn chân thành đến các Thầy, Cô trong Bộ môn

Hệ thống thông tin, đặc biệt là PGS.TS. Hà Quang Thụy cùng các thành

viên của Phòng thí nghiệm Khoa học Dữ liệu và Công nghệ Tri thức vì sự

giúp đỡ cũng như những đóng góp chuyên môn hữu ích của các Thầy Cô cho

luận án.

Tôi xin trân trọng cảm ơn Khoa Công nghệ Thông tin, Phòng Đào tạo

và Ban Giám hiệu Trường Đại học Công nghệ đã tạo điều kiện thuận lợi cho

tôi trong suốt quá trình học tập và thực hiện luận án.

Tôi cũng bày tỏ sự biết ơn đến Ban Giám hiệu, Ban Chủ nhiệm Khoa,

và các đồng nghiệp của tôi tại Khoa Công nghệ Thông tin - Trường Đại học

Giao thông Vận tải vì đã tạo điều kiện về thời gian, tài chính và đã luôn cổ

vũ, hỗ trợ tôi trong suốt quá trình nghiên cứu. Bên cạnh đó, tôi cũng xin gửi

lời cảm ơn đến PGS.TS. Trần Văn Long, cán bộ đồng hướng dẫn luận án của

tôi, về những giúp đỡ hữu ích cho luận án.

Tôi không thể quên cảm ơn những cộng sự của tôi trong nhóm nghiên

cứu MDN–Team, những người đã đồng hành, sát cánh cùng tôi trong suốt

quá trình nghiên cứu, hoàn thành luận án, và tôi sẽ luôn ghi nhớ điều đó.

Ngoài ra, tôi muốn cảm ơn tất cả những người bạn của tôi vì sự động viên

chia sẻ bất cứ khi nào tôi cần.

Cuối cùng, tôi xin bày tỏ lòng biết ơn vô hạn đối với bố mẹ, chồng, con

và gia đình, những người đã luôn ủng hộ và yêu thương tôi một cách vô điều

kiện. Nếu không có sự ủng hộ của gia đình và chồng con, tôi không thể hoàn

thành được luận án này.

ii

Mục lục

Lời cam đoan i

Lời cảm ơn ii

Mục lục ii

Danh mục các từ viết tắt vi

Danh mục các bảng viii

Danh mục các hình vẽ x

Mở đầu 1

Chương 1. Tổng quan về ý định và phân tích ý định 10

1.1 Ý định và thể hiện ý định trong ngôn ngữ . . . . . . . . . . . . 10

1.2 Ý định trong văn bản trực tuyến . . . . . . . . . . . . . . . . . . 12

1.3 Phân tích ý định: bối cảnh khoa học . . . . . . . . . . . . . . . 14

1.3.1 Phân tích và xác định ý định từ truy vấn tìm kiếm . . . 16

1.3.2 Phân tích ý định trong các bài đăng . . . . . . . . . . . . 20

1.4 Một số kỹ thuật khai phá dữ liệu và mô hình học máy . . . . . 21

1.4.1 Cơ bản về kỹ thuật phân lớp . . . . . . . . . . . . . . . . 21

1.4.2 Cơ bản về kỹ thuật trích xuất thông tin . . . . . . . . . 23

1.4.3 Cơ bản về mạng nơ ron . . . . . . . . . . . . . . . . . . . 25

1.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

Chương 2. Phân tích ý định từ văn bản trực tuyến 31

2.1 Phân tích ý định từ văn bản trực tuyến tiếng Việt . . . . . . . 31

2.1.1 Xây dựng dữ liệu thực nghiệm . . . . . . . . . . . . . . . 33

2.1.2 Khó khăn - Thách thức . . . . . . . . . . . . . . . . . . . 36

2.2 Định nghĩa ý định người dùng: bối cảnh khoa học . . . . . . . . 38

2.2.1 Định nghĩa ý định người dùng theo tiếp cận từ điển . . . 38

2.2.2 Định nghĩa ý định người dùng theo hướng cấu trúc . . . 39

iii

2.3 Định nghĩa ý định hướng miền quan tâm . . . . . . . . . . . . . 39

2.3.1 Định nghĩa quan điểm của Bing Liu . . . . . . . . . . . . 40

2.3.2 Định nghĩa ý định của Bing Liu . . . . . . . . . . . . . . 41

2.3.3 Định nghĩa ý định hướng miền quan tâm của luận án . . 42

2.4 Tiến trình ba pha phân tích và xác định ý định . . . . . . . . . 46

2.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

Chương 3. Phát hiện ý định và xác định miền quan tâm của

ý định 51

3.1 Nghiên cứu trên thế giới về phát hiện ý định và xác định miền

quan tâm của ý định . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.1.1 Phát hiện bài đăng trực tuyến mang ý định . . . . . . . 52

3.1.2 Xác định miền quan tâm của ý định . . . . . . . . . . . . 53

3.2 Phát hiện ý định . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.2.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 55

3.2.2 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 56

3.2.3 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 60

3.2.4 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 61

3.2.5 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 62

3.3 Xác định miền quan tâm của ý định . . . . . . . . . . . . . . . . 65

3.3.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 65

3.3.2 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 67

3.3.3 Xây dựng tập các miền quan tâm . . . . . . . . . . . . . 70

3.3.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 71

3.3.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 73

3.3.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 73

3.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

Chương 4. Phân tích và trích chọn nội dung ý định 79

4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

4.2 Nghiên cứu trên thế giới về trích chọn nội dung ý định . . . . . 81

4.3 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . 83

4.4 Trích chọn ý định theo tiếp cận học máy thống kê và học sâu . 84

4.4.1 Xây dựng bộ nhãn thực nghiệm . . . . . . . . . . . . . . 84

4.4.2 Trích chọn ý định với phương pháp CRFs . . . . . . . . . 84

4.4.3 Trích chọn ý định với phương pháp học sâu Bi–LSTM–

CRFs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

4.4.4 Độ đo đánh giá mô hình thực nghiệm . . . . . . . . . . . 92

4.4.5 Thời gian thực nghiệm với mỗi mô hình . . . . . . . . . . 93

iv

4.4.6 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 93

4.4.7 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 95

4.4.8 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 96

4.5 Trích chọn ý định dựa trên kết hợp các mô hình học sâu . . . . 99

4.5.1 Kỹ thuật học kết hợp (ensemble learning) . . . . . . . . 100

4.5.2 Xây dựng bộ nhãn thực nghiệm . . . . . . . . . . . . . . 101

4.5.3 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 101

4.5.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 109

4.5.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 110

4.5.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 113

4.6 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 121

5.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

5.2 Nghiên cứu trên thế giới về thích nghi miền trong xác định ý

định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

5.3 Trích chọn nội dung ý định theo tiếp cận đa miền quan tâm . . 125

5.3.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 125

5.3.2 Xây dựng bộ nhãn không phụ thuộc miền . . . . . . . . 126

5.3.3 Mô hình trích xuất ý định đa miền quan tâm . . . . . . 131

5.3.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 135

5.3.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 136

5.3.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 138

5.3.7 Mô phỏng mô hình trích xuất ý định đa miền quan tâm 144

5.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

Kết luận 148

Danh mục các công trình khoa học 150

Tài liệu tham khảo 151

Phụ lục 159

v

DANH MỤC CÁC TỪ VIẾT TẮT

Từ viết tắt Dạng đầy đủ Diễn giải/Tạm dịch

Bi-LSTM Bidirectional Long Short

Term Memory

Mạng bộ nhớ dài ngắn hai

chiều

Bi-LSTM-CRFs Bidirectional Long Short

Term Memory -

Conditional Random Field

Mạng bộ nhớ dài ngắn hai

chiều trường ngẫu nhiên có

điều kiện

CNN Convolutional Neural Network Mạng nơ ron tích chập

CRFs Conditional Random Fields Trường ngẫu nhiên có điều

kiện

EI Explicit Intent Ý định rõ

EMD Entity Mentioned

Detection

Xác định thực thể được

nhắc đến

IE Information Extraction Trích xuất thông tin

IH Intent Head Đầu của ý định

II Implicit Intent Ý định ẩn

IM Intent Modifiers Bổ nghĩa của ý định

L-BFGS Limited-memory

Broyden-Fletcher

Goldfarb Shanno

Giới hạn bộ nhớ BFGS

LSTM Long Short Term Memory

Mạng bộ nhớ ngắn dài

vi

ME Maximum Entropy Cực đại entropy

NI Non Intent Không có ý định

NER Named Entity Ricognition Nhận diện thực thể có tên

POS Part Of Speech Thành phần của câu

RNN Recurrent Neural Network Mạng nơ ron hồi quy

SVMs Support Vector Machines Máy véc tơ hỗ trợ

vii

DANH MỤC CÁC BẢNG

1.1 Ví dụ về văn bản trực tuyến chứa và không chứa ý định . . . . 13

3.1 Đặc trưng dùng để huấn luyện mô hình lọc bài đăng mang ý

định người dùng . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

3.2 Ý định của người dùng thuộc các miền quan tâm khác nhau . . 66

3.3 Ví dụ về một vài đặc trưng từ điển có trọng số cao cho mỗi

miền quan tâm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

3.4 Mười ba lớp miền quan tâm của ý định và ví dụ . . . . . . . . . 72

3.5 Precision, recall và F1-score của fold tốt nhất khi dùng SVMs

và ME . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

3.6 Độ chính xác của từng lớp miền quan tâm khi sử dụng phương

pháp CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

4.1 Bộ 13 nhãn cho miền quan tâm Bất động sản . . . . . . . . . . 85

4.2 Bộ 9 nhãn cho miền quan tâm Mỹ phẩm & Làm đẹp . . . . . . 85

4.3 Ví dụ minh họa cho đặc trưng dạng biểu thức chính quy . . . . 87

4.4 Đặc trưng từ điển . . . . . . . . . . . . . . . . . . . . . . . . . . 88

4.5 Gán nhãn dữ liệu với bộ nhãn tương ứng . . . . . . . . . . . . . 93

4.6 Trung bình F1-score với mỗi mô hình thực nghiệm thuộc miền

quan tâm Mỹ phẩm & Làm đẹp . . . . . . . . . . . . . . . . . . 98

4.7 Trung bình F1-score với mỗi mô hình thực nghiệm thuộc miền

quan tâm Bất động sản . . . . . . . . . . . . . . . . . . . . . . . 98

4.8 Bộ 18 nhãn của miền Bất động sản (BĐS) . . . . . . . . . . . . 110

4.9 Bộ 15 nhãn của miền Du lịch . . . . . . . . . . . . . . . . . . . 111

4.10 Bộ gồm 17 nhãn của miền Xe cộ . . . . . . . . . . . . . . . . . 112

4.11 Độ chính xác đối với từng nhãn thu được trên miền Du lịch khi

sử dụng phương pháp học kết hợp mà luận án đề xuất . . . . . 116

4.12 Độ chính xác đối với từng nhãn thu được trên miền Xe cộ khi

sử dụng phương pháp kết hợp mà luận án đề xuất . . . . . . . 118

viii

4.13 Độ chính xác đối với từng nhãn thu được trên miền Bất động

sản khi sử dụng phương pháp kết hợp mà luận án đề xuất . . . 119

4.14 Một số ví dụ về nhãn mô tả . . . . . . . . . . . . . . . . . . . . 120

5.1 Bộ 18 nhãn của miền Bất động sản (BĐS) . . . . . . . . . . . . 127

5.2 Bộ 15 nhãn của miền Du lịch . . . . . . . . . . . . . . . . . . . 128

5.3 Bộ gồm 17 nhãn của miền Xe cộ . . . . . . . . . . . . . . . . . 129

5.4 Bộ 10 nhãn không phụ thuộc miền . . . . . . . . . . . . . . . . . 130

5.5 Sử dụng bộ nhãn không phụ thuộc miền trên một số miền quan

tâm khác . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

5.6 Gán nhãn dữ liệu lần lượt với bộ nhãn riêng và bộ nhãn không

phụ thuộc miền . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

5.7 Kết quả F1 trung bình đối với mỗi miền quan tâm cụ thể khi

sử dụng bộ nhãn riêng và bộ nhãn không phụ thuộc miền tương

ứng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

5.8 Kết quả tốt nhất khi trích xuất từng nhãn trên miền Du lịch

với bộ nhãn không phụ thuộc miền . . . . . . . . . . . . . . . . 139

5.9 Kết quả tốt nhất khi trích xuất từng nhãn trên miền Du lịch

với bộ nhãn riêng . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

5.10 Kết quả tốt nhất khi trích xuất từng nhãn trên miền Xe cộ và

Bất động sản với bộ nhãn riêng . . . . . . . . . . . . . . . . . . 141

5.11 Kết quả tốt nhất khi trích xuất tập 32 nhãn riêng đối với tổ

hợp 3 miền quan tâm. . . . . . . . . . . . . . . . . . . . . . . . . 145

5.12 Kết quả tốt nhất khi trích xuất tập 10 nhãn không phụ thuộc

miền đối với tổ hợp 3 miền quan tâm. . . . . . . . . . . . . . . . 146

5.13 Ví dụ gán nhãn cho miền Bất động sản (BĐS) . . . . . . . . . . 159

5.14 Ví dụ gán nhãn cho miền Du lịch . . . . . . . . . . . . . . . . . 160

5.15 Ví dụ gán nhãn cho miền Xe cộ . . . . . . . . . . . . . . . . . 161

ix

DANH MỤC CÁC HÌNH VẼ

1.1 Quy tắc gán nhãn BIO . . . . . . . . . . . . . . . . . . . . . . . 24

1.2 Chuỗi trạng thái tương ứng với chuỗi quan sát . . . . . . . . . . 25

1.3 Mô hình mạng nơ ron feed − forward nhiều tầng . . . . . . . . . 27

1.4 Đồ thị tính toán trong kiến trúc RNNs . . . . . . . . . . . . . . 28

1.5 Kiến trúc một tế bào trong mô hình LSTM [46] . . . . . . . . . 29

2.1 Một bài đăng mang ý định rõ trên phương tiện truyền thông

xã hội Việt Nam . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.2 Ví dụ minh họa cho việc tiền xử lý dữ liệu . . . . . . . . . . . . 34

2.3 Quy trình ba pha Phân tích và xác định ý định người dùng . . 47

2.4 Ví dụ cụ thể một quá trình phân tích và xác định ý định người

dùng trực tuyến . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.1 Mô phỏng mô hình phân lớp nhị phân với CNN . . . . . . . . 57

3.2 Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp ME 63

3.3 Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp SVMs 63

3.4 Độ chính xác của từng lớp con khi sử dụng phương pháp SVMs 64

3.5 Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp CNN 65

3.6 Sơ đồ khối thể hiện mô hình Xác định miền quan tâm của ý định 68

3.7 Độ chính xác F1 khi đánh giá chéo 5-fold với ME và SVMs . . 75

3.8 Độ chính xác trung bình F1 đối với mỗi miền quan tâm của ý

định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

3.9 Độ chính xác trung bình F1 khi đánh giá chéo 5-fold với CNN 76

4.1 Một số mẫu intention phrase [16] . . . . . . . . . . . . . . . . . 82

4.2 Bản thể mẫu ngữ nghĩa của ý định mua sắm - CI pattern [36] . 83

4.3 Cửa sổ trượt kích thước 5 để xây dựng đặc trưng từ vựng . . . 86

4.4 Kiến trúc mô hình Bi-LSTM-CRFs . . . . . . . . . . . . . . . . 89

4.5 Véc tơ mã hóa được huấn luyện trước của từ “có” . . . . . . . . 90

4.6 Mô hình mã hóa dựa vào ký tự . . . . . . . . . . . . . . . . . . . 91

4.7 Mô phỏng mô hình mạng nơ ron sử dụng kỹ thuật cắt tỉa . . . 92

4.8 Chuyển đổi sang chuẩn B-I-O . . . . . . . . . . . . . . . . . . . 94

x

4.9 Trung bình F1-score của mỗi fold đối với miền quan tâm Mỹ

phẩm & Làm đẹp . . . . . . . . . . . . . . . . . . . . . . . . . . 97

4.10 Trung bình F1-score của mỗi fold đối với miền quan tâm Bất

động sản . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

4.11 Độ chính xác trung bình F1 đối với mỗi nhãn trong miền quan

tâm Mỹ phẩm & Làm đẹp . . . . . . . . . . . . . . . . . . . . . . 100

4.12 Độ chính xác trung bình F1 đối với mỗi nhãn trong miền quan

tâm Bất động sản . . . . . . . . . . . . . . . . . . . . . . . . . . 100

4.13 Mô hình trích chọn ý định dựa trên kết hợp các mô hình học sâu 102

4.14 Sơ đồ khối thể hiện pha huấn luyện của mô hình học kết hợp

không chia sẻ tài nguyên . . . . . . . . . . . . . . . . . . . . . . 103

4.15 Sơ đồ khối thể hiện pha đoán nhận của mô hình học kết hợp

không chia sẻ tài nguyên . . . . . . . . . . . . . . . . . . . . . . 104

4.16 Mô hình trích chọn ý định dựa trên ý tưởng học kết hợp trong

ngữ cảnh học sâu với tầng biểu diễn từ dựa trên ký tự được

chia sẻ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

4.17 Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối

với miền Bất động sản . . . . . . . . . . . . . . . . . . . . . . . . 114

4.18 Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối

với miền Du lịch . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

4.19 Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối

với miền Xe cộ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

5.1 Mô hình trích xuất ý định đa miền quan tâm . . . . . . . . . . 132

5.2 Mô hình Bi-LSTM trích xuất ý định đa miền quan tâm . . . . 134

5.3 Kết quả F1 trung bình khi áp dụng các mô hình CRFs, Bi￾LSTM, Bi-LSTM-CRFs lần lượt trên 1, 2 và 3 miền quan tâm

với bộ nhãn chung (General) và bộ nhãn riêng (Specific) tương

ứng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

5.4 Kết quả trung bình F1 trên tổ hợp 3 miền quan tâm khi áp

dụng lần lượt 3 mô hình Bi-LSTM-CRFs, Bi-LSTM, CRFs . . . 143

5.5 Giao diện mô hình trích xuất ý định người dùng . . . . . . . . . 146

xi

Mở đầu

Trong hơn một thập kỷ qua, với sự phát triển bùng nổ của blog, diễn đàn,

và mạng xã hội, người dùng Internet nói chung và người dùng Việt nói riêng

đã hình thành thói quen chia sẻ thông tin thường xuyên trên các kênh truyền

thông trực tuyến này. Theo đó, người dùng thường đăng các dòng trạng thái,

bài viết, bình luận thể hiện suy nghĩ, quan điểm, sở thích, tình cảm, và đặc

biệt là chia sẻ những ý định mà họ muốn thực hiện trong tương lai với mong

muốn nhận được phản hồi, tư vấn của những người dùng khác. Ý định của

người dùng có thể về bất cứ điều gì như dự tính mua điện thoại, thuê nhà,

vay ngân hàng, đi du lịch, học ngoại ngữ, khám chữa bệnh, hay đơn giản chỉ

là nghe nhạc, xem phim. Ngày nay, chúng ta dễ dàng bắt gặp những chia sẻ

như “nhà em đang tìm chiếc suv rộng rãi, bền bỉ, ăn ít xăng để đi làm và cả

nhà đi chơi cuối tuần, bác nào có crv hoặc santafe lướt thì inbox em” hay

“mình đang tính tổ chức chuyến du lịch cho cả phòng vào hè này. Bọn mình

đi ĐN, tầm tháng 7, khoảng 20 người cả trẻ em. Mẹ nào có kinh nghiệm đặt

tour thì tư vấn mình nhé, cảm ơn các mẹ nhiều”. Những bài đăng hàm chứa

ý định như trên thể hiện một cách rõ ràng mong muốn, nhu cầu và dự tính

của người viết. Từ đó nếu các công ty du lịch và hãng hàng không nắm bắt

được nhu cầu, dự định nghỉ hè của các khách hàng tiềm năng, họ có thể điều

chỉnh kế hoạch kinh doanh phù hợp hơn với thị trường. Không chỉ du lịch,

các lĩnh vực khác như bán lẻ, bất động sản, tài chính - ngân hàng, bảo hiểm,

y tế, giáo dục . . . đều được hưởng lợi. Rõ ràng, việc tự động thu thập, phân

tích và hiểu được ý định của người dùng thông qua những gì họ chia sẻ là

chìa khoá quan trọng giúp chúng ta nắm bắt nhu cầu khách hàng nhanh hơn

cũng như định vị các khách hàng tiềm năng hiệu quả hơn. Vì thế, phân tích

và hiểu ý định từ các văn bản trực tuyến là vấn đề có nhiều ý nghĩa thực tiễn

và có tính ứng dụng cao, đặc biệt đối với các hệ thống thương mại điện tử,

các hệ thống khuyến nghị, quảng cáo trực tuyến...

1

Mở đầu 2

Tuy vậy, phân tích và xác định một cách đầy đủ, chính xác ý định từ văn

bản là vấn đề khó trong lĩnh vực xử lý và hiểu ngôn ngữ tự nhiên. Thứ nhất,

ý định vốn rất đa dạng vì một người có thể thể hiện ý định về bất cứ điều

gì tuỳ thuộc vào nhu cầu, mong muốn của họ. Thứ hai, ngôn ngữ thể hiện

ý định có thể gây ra nhập nhằng. Ví dụ, câu “mình đang có hoa quả ngon,

mẹ nào muốn mua thì inbox nhé ” có ý định là bán hoa quả, nhưng sự hiện

diện của cụm từ muốn mua có thể đánh lừa máy tính. Thứ ba, ý định trong

văn bản có thể ở dạng ẩn (implicit) hoặc gián tiếp. Ví dụ “dòng 7 chỗ xe nào

chạy êm nhỉ ? ” không thể hiện rõ người viết muốn mua xe hay chỉ đơn thuần

tìm hiểu thông tin. Thứ tư, có thể tồn tại nhiều ý định ngay trong một câu

văn. Ngoài ra, việc các văn bản trên diễn đàn, mạng xã hội thường dùng từ

địa phương, tiếng lóng, từ viết tắt, ngôn ngữ “teen” cũng gây ra không ít khó

khăn cho việc phân tích ý định. Vì những thử thách trên, cộng đồng nghiên

cứu đang từng bước tìm cách giải quyết vấn đề này ở những phạm vi, mức

độ, hay miền lĩnh vực (miền dữ liệu) khác nhau. Chính vì vậy, bài toán phân

tích và hiểu ý định từ văn bản nói chung và văn bản truyền thông xã hội trực

tuyến nói riêng còn thiếu một cách tiếp cận xuyên suốt và đặc biệt là chưa

có giải pháp phù hợp cho ba vấn đề trọng tâm sau đây:

1) Đề xuất định nghĩa hình thức về ý định có khả năng khái

quát được cấu trúc ý định vốn được thể hiện rất đa dạng trong

văn bản.

Để phân tích và xác định ý định một cách hiệu quả và chính xác, trước

tiên chúng ta cần hiểu rõ ý định là gì. Ý định, theo cách hiểu chung nhất,

là những gì con người dự định sẽ thực hiện trong tương lai. Theo Bratman

(1987), “Ý định là trạng thái của trí não biểu thị một sự cam kết sẽ thực hiện

một hoặc một chuỗi các hành động trong tương lai. Ý định liên quan đến các

hoạt động đầu óc như lên kế hoạch hay sắp đặt chủ ý.” [13]. Tuy vậy định

nghĩa này mới chỉ ở dạng mô tả. Để máy tính có thể tự động phân tích và

hiểu được ý định, chúng ta cần những định nghĩa ở dạng hình thức hơn. Theo

hướng này, Liu mô tả ý định là một cấu trúc gồm năm thành phần bao gồm

hành động ý định (intended–action), đích của ý định (intention–target), độ

mạnh của ý định (intention–intensity), chủ thể của ý định (holder), và thời

điểm phát biểu ý định (time) [10]. Dù vậy, định nghĩa này chỉ mới phù hợp

với các câu văn mang ý định ở dạng đơn giản như “tôi muốn mua một chiếc

Mở đầu 3

iphone 11 pro” với muốn mua là intended–action, iphone 11 pro là intention–

target và tôi là holder. Trong thực tế, các câu mang ý định vốn đa dạng

và phức tạp hơn. Ngoài hành động và đích của ý định, miền quan tâm, ngữ

cảnh xuất hiện, cùng các thuộc tính hay ràng buộc của ý định là những khía

cạnh cần thiết được xem xét. Chẳng hạn, với văn bản được đăng trên trang

www.webtretho.com như sau:“Em cũng đang cần thuê phòng trọ khép kín cho

2 chị em gái đều đã đi làm(1 nvvp & 1 giáo viên ĐH). Em cần phòng giá

khoảng 1tr7, ở lâu dài khu vực CẦU GIẤY - LÁNG - TRẦN DUY HƯNG -

THANH XUÂN. Cả nhà có thông tin gì thì cho em biết với nhé. Em muốn

chuyển luôn cuối tuần này ạ. Liên hệ em Linh - 0988 428 197. Em đi làm

nên chỉ cần chỗ ở yên tĩnh, thoáng, có internet, có nấu ăn, có chỗ để xe và

an ninh tốt là được ạ. Cảm ơn cả nhà.”, ta có thể thấy rất nhiều thông tin

cần trích xuất như: giá thuê, địa điểm phòng trọ, số điện thoại liên hệ... Vì

thế, chúng ta cần có một định nghĩa, một cấu trúc đặc tả các thành phần

của ý định cụ thể và bao quát hơn.

2) Mô hình hoá vấn đề phân tích và hiểu ý định theo một quy

trình xuyên suốt với đầy đủ các bước phát hiện ý định, xác định

miền quan tâm, và trích chọn nội dung cụ thể của ý định.

Như đã đề cập, ý định thể hiện trong văn bản rất đa dạng. Vì thế, các

nghiên cứu trước đây thường tiếp cận vấn đề trong một phạm vi hoặc một

lĩnh vực ứng dụng cụ thể. Theo đó, Li (2010) [67] phân tích ý định trong

truy vấn tìm kiếm bằng việc xác định hai thành phần là trọng tâm của ý định

(intent heads – IH) và bổ nghĩa của ý định (intent modifiers – IM). Ví dụ

truy vấn “alice in wonderland 2010 cast” có IH là “cast” (diễn viên) và hai

IM là “alice in wonderland” (tên bộ phim) và “2010 ” (sản xuất năm 2010).

IH là thành phần máy tìm kiếm cần tìm câu trả lời còn mỗi IM là một ràng

buộc hay đặc điểm nào đó của truy vấn. Khi xác định được các thành phần

IH và IM trong một câu truy vấn, hệ thống sẽ hiểu được ý định tìm kiếm của

người dùng là gì. Heyrani–Nobari và cộng sự (2014) [76] phân tích ý định của

các bài đăng trên diễn đàn thảo luận bằng cách xác định khía cạnh (aspect)

và hành động (action) liên quan. Ví dụ khía cạnh có thể là “iphone” và hành

động có thể là “nâng cấp”. Tác giả áp dụng một mô hình chủ đề để đồng

thời xác định được cả hai loại thông tin này. Castellanos và cộng sự (2012)

[16] phân tích ý định từ các văn bản trực tuyến bằng cách xác định cụm từ

chứa ý định (intention phrase) và các thành phần khác của ý định (intention

Tải ngay đi em, còn do dự, trời tối mất!