Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Tự Động Nhận Biết Ngôn Ngữ Dựa Vào Học Sâu
Nội dung xem thử
Mô tả chi tiết
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN HỒNG THANH
TỰ ĐỘNG NHẬN DẠNG NGÔN NGỮ
DỰA VÀO HỌC SÂU
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN VĂN VINH
Hà Nội 2021
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN HỒNG THANH
TỰ ĐỘNG NHẬN DẠNG NGÔN NGỮ
DỰA VÀO HỌC SÂU
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN VĂN VINH
Hà Nội 2021
i
LỜI CAM ĐOAN
Tôi cam đoan luận văn được thực hiện dưới sự hướng dẫn của TS.Nguyễn
Văn Vinh. Các số liệu, kết quả kiểm tra dữ liệu kiểm thử trong luận văn là trung
thực và chưa từng được ai công bố trong bất kỳ công trình nào khác.
Hà Nội, Ngày 01 tháng 12 năm 2021
Người cam đoan
Nguyễn Hồng Thanh
ii
LỜI CẢM ƠN
Lời đầu tiên em xin gửi lời cảm ơn đến toàn thể các giảng viên trong Khoa
Công nghệ thông tin - Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội đã
truyền đạt kiến thức và định hướng nghiên cứu cho em trong thời gian em học tập
tại Trường.
Em xin gửi lời cảm ơn đến các cán bộ phụ trách thuộc Khoa Công nghệ
thông tin đào tạo sau đại học, những người đã quản lý, tư vấn và hỗ trợ em trong
quá trình học tập cũng như làm luận văn.
Em xin gửi lời cảm ơn sâu sắc đến TS. Nguyễn Văn Vinh, người thầy đã
trực tiếp tận tình hướng dẫn, tạo mọi điều kiện thuận lợi cho em trong suốt thời
gian làm luận văn tốt nghiệp.
Cuối cùng, Em xin gửi lời cảm ơn đến bạn bè, đồng nghiệp cũng như gia
đình luôn tạo điều kiện để em hoàn thành luận văn.
Tuy nhiên, do thời gian hạn hẹp, mặc dù đã nỗ lực hết sức mình nhưng chắc
rằng luận văn này khó tránh khỏi những thiếu sót. Em rất mong nhận được sự chia
sẽ, đóng góp ý kiến của giảng viên và các bạn.
Hà Nội, Ngày 01 tháng 12 năm 2021
Học viên
Nguyễn Hồng Thanh
iii
MỤC LỤC
LỜI CAM ĐOAN ....................................................................................................................i
LỜI CẢM ƠN .........................................................................................................................ii
Danh mục các ký hiệu và chữ viết tắt.........................................................................v
Danh mục các bảng ..........................................................................................................vi
Danh mục các hình vẽ, đồ thị ..................................................................................... vii
MỞ ĐẦU................................................................................................................................. 1
CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN NHẬN BIẾT NGÔN NGỮ............... 3
1.1 Giới thiệu chung.......................................................................................... 3
1.2 Các phương pháp xác định ngôn ngữ.......................................................... 3
1.2.1 Mô hình ngôn ngữ................................................................................ 3
1.2.2 Phương pháp xác định ngôn ngữ dựa trên n-gram............................... 6
1.2.3 Phương pháp xác định ngôn ngữ dựa vào Naive Bayes...................... 7
1.2.4 Phương pháp xác định ngôn ngữ dựa vào máy hỗ trợ vectơ (SVM)... 8
1.2.5 Phương pháp láng giềng gần nhất (K-Nearest Neighbor).................... 9
1.2.6 Phương pháp Word2vec..................................................................... 10
1.2.6.1 Skip-gram.................................................................................... 12
1.2.6.2 Túi từ liên tục (CBOW) .............................................................. 16
1.2.7 Phương pháp xác định ngôn ngữ dựa vào học sâu............................. 17
CHƯƠNG 2: MÔ HÌNH MẠNG LSTM.......................................................................18
2.1 Mạng Nơ ron nhân tạo .............................................................................. 18
2.1.1 Hàm kích hoạt. ................................................................................... 19
2.1.2 Chức năng kích hoạt đầu ra................................................................ 22
2.2 Mạng nơ ron hồi qui RNN ........................................................................ 25
2.3 Mạng LSTM.............................................................................................. 27
2.3.1 Cổng đầu vào, cổng quên và cổng đầu ra .......................................... 27
2.3.2 Ô nhớ tiềm năng................................................................................. 28
2.3.3 Ô nhớ.................................................................................................. 29
2.3.4 Các trạng thái ẩn................................................................................. 30
2.4 Kỹ thuật Dropout....................................................................................... 31