Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Hướng Tiếp Cận Dựa Trên Phổ Tần Số Cho Bài Toán Nhận Thức Tiếng Nói
Nội dung xem thử
Mô tả chi tiết
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN QUANG TRUNG
HƯỚNG TIẾP CẬN DỰA TRÊN PHỔ TẦN SỐ
CHO BÀI TOÁN NHẬN THỨC TIẾNG NÓI
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2019
Hà Nội - 2012
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN QUANG TRUNG
HƯỚNG TIẾP CẬN DỰA TRÊN PHỔ TẦN SỐ
CHO BÀI TOÁN NHẬN THỨC TIẾNG NÓI
Chuyên ngành: Khoa học máy tính
Mã số: 9480101.01
LUẬN ÁN TIẾN SĨ: CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1.PGS. TS. Bùi Thế Duy
Hà Nội - 2019
1
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện dưới sự
hướng dẫn của PGS., TS. Bùi Thế Duy tại bộ môn Khoa học máy tính, Khoa
Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà nội.
Các số liệu và kết quả trình bày trong luận án là trung thực, chưa được công bố
bởi bất kỳ tác giả nào hay ở bất kỳ công trình nào khác.
Tác giả
Nguyễn Quang Trung
2
LỜI CẢM ƠN
Kết quả đạt được của Luận án không chỉ là những nỗ lực cá nhân, mà còn có
sự hỗ trợ và giúp đỡ của tập thể người hướng dẫn, cơ sở đào tạo, cơ quan chủ quản,
đồng nghiệp và gia đình.
Trước tiên, tôi xin bày tỏ sự biết ơn sâu sắc đến PGS.TS. Bùi Thế Duy. Được
làm việc với thầy là một cơ hội lớn cho tôi học hỏi phương pháp nghiên cứu, tính
kiên trì và phương pháp làm việc nghiêm túc, khoa học.
Tôi xin trân trọng cảm ơn Khoa Công nghệ thông tin, Phòng Đào tạo, Ban
Giám hiệu trường đại học công nghệ, đại học Quốc gia Hà Nội đã tạo điều kiện thuận
lợi cho tôi trong suốt quá trình thực hiện luận án.
Tôi xin cảm ơn Ban Giám đốc Học viện Thanh thiếu niên Việt Nam và các
bạn bè, đồng nghiệp đã cổ vũ, động viên và tạo các điều kiện thuận lợi nhất cho tôi
trong quá trình học tập, nghiên cứu.
Tôi cũng bày tỏ lời cảm ơn sâu sắc tới sự hỗ trợ của đề tài “Nghiên cứu ứng
dụng công nghệ đa phương tiện trong bảo tồn và phát huy di sản văn hóa phi vật thể”,
mã số “ĐTĐL-CN.34/16” cũng như sự giúp đỡ nhiệt tình của các thành viên tham
gia đề tài.
Cuối cùng, tôi xin bày tỏ lòng biết ơn đối với gia đình tôi luôn bên cạnh ủng
hộ, giúp đỡ, chia sẻ với tôi những lúc khó khăn.
Xin chân thành cảm ơn!
3
MỤC LỤC
LỜI CAM ĐOAN ................................................................................... 1
LỜI CẢM ƠN......................................................................................... 2
MỞ ĐẦU .............................................................................................. 14
1. Tính cấp thiết của đề tài.................................................................... 14
2. Mục tiêu, phạm vi nghiên cứu của luận án....................................... 15
3. Phương pháp và nội dung nghiên cứu .............................................. 16
4. Kết quả đạt được của luận án............................................................ 17
5. Cấu trúc luận án ................................................................................ 18
Chương 1. TỔNG QUAN VỀ NHẬN THỨC TIẾNG NÓI .............. 19
1.1. Giới thiệu ............................................................................... 19
1.2. Quá trình nhận thức tiếng nói ở người................................... 20
1.2.1. Tai ngoài thu nhận tín hiệu tiếng nói từ ........................... 20
1.2.2. Tai giữa............................................................................. 20
1.2.3. Tai trong và cơ chế truyền sóng âm trong ốc tai.............. 20
1.3. Quá trình mô phỏng nhận thức tiếng nói trên máy tính......... 23
1.3.1. Lấy mẫu tín hiệu tiếng nói................................................ 24
1.3.2. Lượng tử hoá các mẫu ...................................................... 25
1.3.3. Mã hóa các mẫu lượng tử hóa .......................................... 25
1.3.4. Biểu diễn tín hiệu tiếng nói. ............................................. 25
1.3.5. Trích chọn đặc trưng tiếng nói ......................................... 27
1.3.6. Phân lớp, phân cụm dữ liệu .............................................. 27
1.4. Tổng quan tình hình nghiên cứu về nhận thức tiếng nói ....... 28
1.5. Bài toán nhận thức tiếng nói trong khoa học máy tính.......... 33
1.5.1. Bài toán nhận dạng người nói........................................... 33
1.5.2. Bài toán nhận dạng tiếng nói............................................ 34
1.5.3. Bài toán nhận thức tiếng nói............................................. 35
4
1.6. Một số khó khăn trong nhận thức tiếng nói........................... 36
1.6.1. Tính tuyến tính.................................................................. 36
1.6.2. Phân đoạn tiếng nói .......................................................... 36
1.6.3. Vấn đề phụ thuộc người nói ............................................. 36
1.6.4. Vấn đề nhiễu..................................................................... 36
1.6.5. Đơn vị nhận thức cơ bản................................................... 37
1.7. Mô hình nhận thức tiếng nói dựa trên học quan hệ giữa tín hiệu
tiếng nói với các tín hiệu khác .................................................................... 37
Chương 2. MỘT SỐ HƯỚNG TIẾP CẬN HỌC MÁY CHO BÀI
TOÁN NHẬN THỨC TIẾNG NÓI................................................................ 39
2.1. Giới thiệu ............................................................................... 39
2.2. Một số mô hình học máy cho bài toán nhận thức tiếng nói... 39
2.2.1. Mô hình Markov ẩn .......................................................... 39
2.2.2. Mô hình ngôn ngữ ............................................................ 41
2.2.3. Mô hình mạng nơ-ron....................................................... 43
2.2.4. Mạng học sâu.................................................................... 45
2.3. Trích chọn đặc trưng tiếng nói cho các mô hình học máy..... 54
2.3.1. Đặc trưng MFCC.............................................................. 54
2.3.2. Phương pháp mã dự đoán tuyến tính LPC ....................... 56
2.3.3. Đặc trưng PLP .................................................................. 58
2.4. Kết luận.................................................................................. 60
Chương 3. HƯỚNG TIẾP CẬN DỰA TRÊN PHỔ TẦN SỐ CHO BÀI
TOÁN NHẬN THỨC TIẾNG NÓI TRONG MỐI LIÊN HỆ VỚI CÁC KHÁI
NIỆM 61
3.1. Giới thiệu ............................................................................... 61
3.2. Phổ tần số của tín hiệu tiếng nói............................................ 62
3.3. Đặc trưng bất biến SIFT ........................................................ 64
3.4. Phương pháp phân lớp NBNN............................................... 68
5
3.5. Phương pháp phân lớp LNBNN ............................................ 70
3.6. Hướng tiếp cận trích chọn đặc trưng tiếng nói dựa trên phổ tần
số cho bài toán nhận thức tiếng nói............................................................. 72
3.7. Hướng tiếp cận mạng tích chập dựa trên phổ tần số cho bài toán
nhận thức tiếng nói...................................................................................... 75
3.8. Thực nghiệm và kết quả......................................................... 75
3.8.1. Dữ liệu thực nghiệm......................................................... 76
3.8.2. Thí nghiệm so sánh độ chính xác phân lớp của đặc trưng
SIFT với đặc trưng MFCC khi sử dụng LNBNN ................................... 76
3.8.3. Thí nghiệm với dữ liệu co dãn theo thời gian .................. 79
3.8.4. Thí nghiệm so sánh LNBNN và các phương pháp phân lớp
khác 80
3.8.5. Thí nghiệm khả năng học tăng cường của LNBNN......... 81
3.8.6. Thí nghiệm với mạng tích chập trên tín hiệu tiếng nói .... 82
3.9. Kết luận.................................................................................. 84
Chương 4. MÔ HÌNH NHẬN THỨC TIẾNG NÓI THÔNG QUA
HỌC MỐI QUAN HỆ GIỮA TÍN HIỆU TIẾNG NÓI VÀ HÌNH ẢNH ...... 86
4.1. Giới thiệu ............................................................................... 86
4.2. Các phương pháp học mối quan hệ........................................ 87
4.2.1. Học mối quan hệ bằng mạng nhân tạo ............................. 87
4.2.2. Học mối quan hệ bằng HMM........................................... 90
4.2.3. Học mối quan hệ dựa trên luật ......................................... 91
4.2.4. Học mối quan hệ dựa trên thống kê.................................. 91
4.3. Đề xuất mô hình nhận thức tiếng nói..................................... 93
4.3.1. Cơ sở đề xuất mô hình...................................................... 93
4.3.2. Mô hình nhận thức tiếng nói dựa trên học quan hệ giữa tín
hiệu âm thanh và tín hiệu hình ảnh ......................................................... 96
6
4.3.3. Mô hình nhận thức tiếng nói dựa trên ánh xạ giữa tín hiệu
âm thanh và tín hiệu hình ảnh bằng mạng tích chập............................... 99
4.4. Thực nghiệm và kết quả....................................................... 100
4.4.1. Thực nghiệm mô hình nhận thức tiếng nói dựa trên học quan
hệ giữa tín hiệu âm thanh và tín hiệu hình ảnh..................................... 100
4.4.2. Thực nghiệm mô hình nhận thức dựa trên mạng tích chập
102
4.5. Kết luận................................................................................ 106
Chương 5. MỘT SỐ CẢI TIẾN CHO BÀI TOÁN NHẬN THỨC
TIẾNG NÓI DỮ LIỆU LỚN ........................................................................ 108
5.1. Giới thiệu ............................................................................. 108
5.2. Rút gọn đặc trưng................................................................. 109
5.2.1. Giới thiệu về rút gọn đặc trưng ...................................... 109
5.2.2. Rút gọn đặc trưng SIFT.................................................. 110
5.2.3. Bảng băm đa chỉ số......................................................... 113
5.2.4. Thực nghiệm và kết quả ................................................. 115
5.3. Cài đặt phương pháp phân lớp LNBNN cho bài toán nhận thức
tiếng nói dữ liệu lớn .................................................................................. 116
5.3.1. Giới thiệu Framework Hadoop....................................... 116
5.3.2. Cài đặt thuật toán phân lớp LNBNN trên nền Hadoop .. 117
5.3.3. Thực nghiệm................................................................... 121
5.4. Kết luận................................................................................ 124
7
DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT
TT Viết tắt Từ tiếng Anh Nghĩa tiếng Việt
1. ANN Artificial Neural Network Mạng trí tuệ nhân tạo
2. BAM Bi-directional Assosiation
Memory
Mạng nhớ kết hợp hai
chiều
3. CNN Convolution Neural Network Mạng tích chập
4. CFG Context Free Grammar
Văn phạm phi ngữ
cảnh
5. CSLU Center for Spoken Language
Understanding
Trung tâm nghiên cứu
tiếng nói
6. DNN Deep Neural Network Mạng học sâu
7. DoG Different-of-Gaussian Bộ lọc DoG
8. DCT Discrete Cosin Transform Biến đổi Cosin rời rạc
9. DFT Discrete Fourier Transform Biến đổi Fourier rời
rạc
10. DTW Dynamic Time Warping Phương pháp lập trình
động
11. FA Factor Analysis Phân tích nhân tố
12. FFT Fast Fourier Transform Biến đổi Fuutier nhanh
13. GMM Gaussian Mixture Model Mô hình Gaussian hỗn
hợp
14. HDFS Hadoop Distributed File
System Hệ thống tệp phân tán
15. HMM Hidden Markov Model Mô hình Markov ẩn
16. HOG Histogram of Oriented
Gradients
Đặc trưng lược đồ độ
dốc theo hướng
17. ICA Independent Component
Analysis
Phân tích thành phần
độc lập
18. LBG Linde–Buzo–Gray Thuật toán LBG
19. LDA Linear Discriminant Analysis Phân tích biệt thức
tuyến tính
20. LNBNN Local Naïve Bayes Nearest
Neighbor
Phương pháp phân lớp
NBNN cục bộ
21. LPC Linear Predictive Coding Mã dự báo tuyến tính
22. MFCC Mel-frequency cepstral
coefficients Hệ số Mel
23. MPCA Multiple Principal Component
Analysis
Phân tích đa thành
phần
8
24. NBNN Naïve Bayes Nearest Neighbor Phương pháp phân lớp
NBNN
25. PCA Principal Component Analysis Phân tích thành phần
chính
26. PLP Perceptual Linear Prediction Mã nhận thức tuyến
tính
27. RNN Recurrent Neural Network Mạng hồi quy
28. SIFT Scale Invariant Feature
Transform
Đặc trưng bất biến đối
với phép biến đổi
29. SOM Self Organizing Map Bản đồ tự tổ chức
30. SURF Speeded Up Robust Features Đặc trưng ảnh nhanh
31. SVM Support Vector Machine Máy véc tơ hỗ trợ
32. VOT Voice On Set time Thời gian bắt đầu
nguyên âm
9
DANH MỤC HÌNH ẢNH
Hình 1.1 Sơ đồ quá trình nhận thức tiếng nói....................................... 19
Hình 1. 2 Mô phỏng các bước trong nhận thức tiếng nói của máy tính19
Hình 1. 3 Quá trình thu nhận âm thanh ở ốc tai ................................... 21
Hình 1. 4 Cộng hưởng với các tần số âm khác nhau ở ốc tai............... 22
Hình 1.5 Khu vực lưu trữ đặc trưng tiếng nói trên vỏ não ................... 23
Hình 1. 6 Biểu diễn tín hiệu tiếng nói trên miền thời gian ................... 26
Hình 1. 7 Biểu diễn tín hiệu tiếng nói trên miền tần số........................ 27
Hình 1.8 Biểu diễn tín hiệu tiếng nói trên miền kết hợp ...................... 27
Hình 2. 1 Mô hình HMM-GMM có cấu trúc dạng Left-Right liên kết
không đầy đủ ................................................................................................... 40
Hình 2. 2 Mạng Perceptron. (a) Perceptron 1 lớp, (b) Perceptron nhiều
lớp.................................................................................................................... 44
Hình 2. 3 Mô hình bộ tự mã hóa........................................................... 47
Hình 2. 4 Mô hình mạng hồi quy.......................................................... 48
Hình 2. 5 Mô hình mạng tích chập CNN.............................................. 49
Hình 2. 6 Tích chập một bộ lọc với dữ liệu đầu vào ............................ 50
Hình 2. 7 Ví dụ lấy mẫu với hàm max.................................................. 51
Hình 2. 8 Mô hình mạng tích chập LeNet 5 [Lecun, 1998] ................ 52
Hình 2. 9 Mô hình mạng tích chập AlexNet [Krizhevsky, 2012] ....... 52
Hình 2. 10 Mô hình mạng ZF Net [Zeiler, 2014] ................................ 53
Hình 2. 11 Mô hình mạng tích chập VGGNET [Simonyan, 2014] ..... 53
Hình 2. 12 Sơ đồ khối các bước trích chọn đặc trưng MFCC.............. 54
Hình 2. 13 Sơ đồ trích chọn đặc trưng LPC ......................................... 57
Hình 2. 14 Sơ đồ khối các bước trích chọn đặc trưng PLP .................. 59
Hình 3. 1 Phổ của từ A trong tiếng Anh được nói bởi 4 người khác nhau
......................................................................................................................... 62
Hình 3. 2 Phổ của các chữ cái A-D trong tiếng Anh của cùng một người
nói.................................................................................................................... 63
Hình 3. 3 Phổ của âm tiết Haa trong tiếng Nhật được nói bởi 5 người
khác nhau......................................................................................................... 63
10
Hình 3. 4 Phổ của 5 âm tiết tiếng Nhật do cùng một người nói........... 63
Hình 3. 5 Sơ đồ trich xuất phổ tần số của tín hiệu tiếng nói ................ 64
Hình 3. 6 Mô tả điểm hấp dẫn SIFT [Lowe, 1999] ............................. 66
Hình 3. 7 Sơ đồ các bước trích chọn đặc trưng SIFT-SPEECH từ tín hiệu
tiếng nói........................................................................................................... 67
Hình 3. 8 Một số điểm SIFT-SPEECH trích xuất từ phổ tần số của tín
hiệu tiếng nói................................................................................................... 67
Hình 3. 9 Mô hình phân lớp tiếng nói bằng LNBNN-SIFT-SPEECH. 72
Hình 3. 10 Mô hình CNN cho bài toán nhận dạng tiếng nói dựa trên phổ
tần số................................................................................................................ 75
Hình 3. 11 So sánh độ chính xác của LNBNN kết hợp với MFCC và
SIFT trên dữ liệu số English Digits................................................................. 77
Hình 3. 12 So sánh độ chính xác của LNBNN kết hợp với MFCC và
SIFT trên dữ liệu ISOLET. ............................................................................. 78
Hình 3.13 So sánh độ chính xác của LNBNN kết hợp với MFCC và SIFT
trên 20 lớp đầu tiên của dữ liệu TMW............................................................ 78
Hình 3.14 So sánh độ chính xác của LNBNN kết hợp với MFCC và SIFT
trên dữ liệu JVPD............................................................................................ 78
Hình 3.15 So sánh độ chính xác của LNBNN kết hợp với MFCC và SIFT
trên dữ liệu số tiếng Việt................................................................................. 79
Hình 4. 1 Mô hình mạng Hopfield [Raul, 1996] ................................. 88
Hình 4. 2 Mô hình mạng BAM [Kosko, 1987] ................................... 89
Hình 4. 3 Mô hình mạng tự tổ chức [Kohonen, 1982] ........................ 90
Hình 4. 4 Mô hình HMM [Baum, 1966] ............................................. 91
Hình 4. 5 Ví dụ các luật theo văn phạm phi ngữ cảnh ......................... 92
Hình 4. 6 Sơ đồ các vùng vỏ não sơ cấp và vùng vỏ não liên kết........ 93
Hình 4. 7 Ví dụ minh họa tập dữ liệu thực nghiệm DIGITS................ 94
Hình 4. 8 Mô hình nhận thức tiếng nói cho người máy ....................... 95
Hình 4. 9 Mô hình học ánh xạ giữa tiếng nói và hình ảnh bằng mạng
CNN............................................................................................................... 100
Hình 4. 10 Độ chính xác của mô hình trên bộ dữ liệu DIGITS ......... 101
Hình 4. 11 Độ chính xác của mô hình trên bộ dữ liệu OBJECTS...... 101
11
Hình 4. 12 Hai mươi mẫu huấn luyện của 8 lớp trong bộ dữ liệu COIL
....................................................................................................................... 102
Hình 4. 13 Hai mươi mẫu huấn luyện của bộ dữ liệu FNT từ A đến Z
....................................................................................................................... 103
Hình 4. 14 Hai mươi mẫu huấn luyện chữ số viết tay trong MNIST. 103
Hình 4. 15 Hai mươi mẫu hình ảnh do mô hình sinh ra của bộ dữ liệu
COIL.............................................................................................................. 104
Hình 4. 16 Hai mươi mẫu hình ảnh do mô hình sinh ra của bộ dữ liệu
MNIST .......................................................................................................... 104
Hình 4. 17 Hai mươi mẫu hình ảnh kết quả do mô hình sinh ra đối với
bộ dữ liệu FNT.............................................................................................. 106
Hình 5. 1 a. Lược đồ giá trị các thành phần của điểm đặc trưng SIFT, b.
Medians của các thành phần của SIFT trên dữ liệu ISOLET ....................... 110
Hình 5. 2 a. Lược đồ giá trị của các thành phần của SIFT trên cơ sở dữ
liệu Digits, b. Medians của các thành phần của SIFT trên dữ liệu Digits.... 111
Hình 5. 3 Lược đồ giá trị các thành phần của đặc trưng SIFT trên dữ liệu
PLACES, b. Median của SIFT trên dữ liệu PLACES .................................. 111
Hình 5. 4 a. Lược đồ giá trị các thành phần của SIFT trên dữ liệu JVPD,
b. Trung vị của các thành phần của SIFT trên dữ liệu JVPD ....................... 112
Hình 5. 5 Lược đồ giá trị các thành phần của SIFT trên dữ liệu TMW, b.
Medians của các thành phần của SIFT trên dữ liệu TMW ........................... 112
Hình 5. 6 Mô hình cụm máy tính thực nghiệm .................................. 122
12
DANH MỤC BẢNG
Bảng 3. 1 So sánh độ chính xác phân lớp của LNBNN với SIFT và
MFCC.............................................................................................................. 77
Bảng 3. 2 So sánh kết quả đối với dữ liệu bị co dãn một chiều ........... 79
Bảng 3. 3 So sánh độ chính xác của các phương pháp phân lớp với đặc
trưng MFCC.................................................................................................... 80
Bảng 3. 4 So sánh độ chính xác của các phương pháp phân lớp với đặc
trưng SIFT....................................................................................................... 80
Bảng 3. 5 So sánh độ chính xác phân lớp khi bổ sung thêm dữ liệu huấn
luyện cho tất cả các lớp................................................................................... 81
Bảng 3. 6 So sánh độ chính xác phân lớp khi bổ sung thêm lớp (tri thức)
cho mô hình..................................................................................................... 82
Bảng 3. 7 So sánh độ chính xác phân lớp của CNN và LNBNN kết hợp
với SIFT trên phổ tần số của tín hiệu tiếng nói............................................... 83
Bảng 4. 1 Kết quả phân lớp trung bình hình ảnh do mô hình nhận thức
tiếng nói sinh ra bằng mạng tích chập........................................................... 105
Bảng 5. 1 So sánh độ chính xác phân lớp trên các bộ dữ liệu............ 115
Bảng 5. 2 So sánh thời gian chạy trên các dữ liệu khác nhau (giây).. 115
Bảng 5. 3 So sánh độ phân lớp chính xác trên các dữ liệu thực nghiệm
....................................................................................................................... 123
Bảng 5. 4 So sánh thời gian truy vấn trung bình một đặc trưng trên các
dữ liệu khác nhau (tính bằng giây)................................................................ 123