Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Hướng Tiếp Cận Dựa Trên Phổ Tần Số Cho Bài Toán Nhận Thức Tiếng Nói
PREMIUM
Số trang
141
Kích thước
5.3 MB
Định dạng
PDF
Lượt xem
1248

Hướng Tiếp Cận Dựa Trên Phổ Tần Số Cho Bài Toán Nhận Thức Tiếng Nói

Nội dung xem thử

Mô tả chi tiết

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN QUANG TRUNG

HƯỚNG TIẾP CẬN DỰA TRÊN PHỔ TẦN SỐ

CHO BÀI TOÁN NHẬN THỨC TIẾNG NÓI

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2019

Hà Nội - 2012

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN QUANG TRUNG

HƯỚNG TIẾP CẬN DỰA TRÊN PHỔ TẦN SỐ

CHO BÀI TOÁN NHẬN THỨC TIẾNG NÓI

Chuyên ngành: Khoa học máy tính

Mã số: 9480101.01

LUẬN ÁN TIẾN SĨ: CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1.PGS. TS. Bùi Thế Duy

Hà Nội - 2019

1

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện dưới sự

hướng dẫn của PGS., TS. Bùi Thế Duy tại bộ môn Khoa học máy tính, Khoa

Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà nội.

Các số liệu và kết quả trình bày trong luận án là trung thực, chưa được công bố

bởi bất kỳ tác giả nào hay ở bất kỳ công trình nào khác.

Tác giả

Nguyễn Quang Trung

2

LỜI CẢM ƠN

Kết quả đạt được của Luận án không chỉ là những nỗ lực cá nhân, mà còn có

sự hỗ trợ và giúp đỡ của tập thể người hướng dẫn, cơ sở đào tạo, cơ quan chủ quản,

đồng nghiệp và gia đình.

Trước tiên, tôi xin bày tỏ sự biết ơn sâu sắc đến PGS.TS. Bùi Thế Duy. Được

làm việc với thầy là một cơ hội lớn cho tôi học hỏi phương pháp nghiên cứu, tính

kiên trì và phương pháp làm việc nghiêm túc, khoa học.

Tôi xin trân trọng cảm ơn Khoa Công nghệ thông tin, Phòng Đào tạo, Ban

Giám hiệu trường đại học công nghệ, đại học Quốc gia Hà Nội đã tạo điều kiện thuận

lợi cho tôi trong suốt quá trình thực hiện luận án.

Tôi xin cảm ơn Ban Giám đốc Học viện Thanh thiếu niên Việt Nam và các

bạn bè, đồng nghiệp đã cổ vũ, động viên và tạo các điều kiện thuận lợi nhất cho tôi

trong quá trình học tập, nghiên cứu.

Tôi cũng bày tỏ lời cảm ơn sâu sắc tới sự hỗ trợ của đề tài “Nghiên cứu ứng

dụng công nghệ đa phương tiện trong bảo tồn và phát huy di sản văn hóa phi vật thể”,

mã số “ĐTĐL-CN.34/16” cũng như sự giúp đỡ nhiệt tình của các thành viên tham

gia đề tài.

Cuối cùng, tôi xin bày tỏ lòng biết ơn đối với gia đình tôi luôn bên cạnh ủng

hộ, giúp đỡ, chia sẻ với tôi những lúc khó khăn.

Xin chân thành cảm ơn!

3

MỤC LỤC

LỜI CAM ĐOAN ................................................................................... 1

LỜI CẢM ƠN......................................................................................... 2

MỞ ĐẦU .............................................................................................. 14

1. Tính cấp thiết của đề tài.................................................................... 14

2. Mục tiêu, phạm vi nghiên cứu của luận án....................................... 15

3. Phương pháp và nội dung nghiên cứu .............................................. 16

4. Kết quả đạt được của luận án............................................................ 17

5. Cấu trúc luận án ................................................................................ 18

Chương 1. TỔNG QUAN VỀ NHẬN THỨC TIẾNG NÓI .............. 19

1.1. Giới thiệu ............................................................................... 19

1.2. Quá trình nhận thức tiếng nói ở người................................... 20

1.2.1. Tai ngoài thu nhận tín hiệu tiếng nói từ ........................... 20

1.2.2. Tai giữa............................................................................. 20

1.2.3. Tai trong và cơ chế truyền sóng âm trong ốc tai.............. 20

1.3. Quá trình mô phỏng nhận thức tiếng nói trên máy tính......... 23

1.3.1. Lấy mẫu tín hiệu tiếng nói................................................ 24

1.3.2. Lượng tử hoá các mẫu ...................................................... 25

1.3.3. Mã hóa các mẫu lượng tử hóa .......................................... 25

1.3.4. Biểu diễn tín hiệu tiếng nói. ............................................. 25

1.3.5. Trích chọn đặc trưng tiếng nói ......................................... 27

1.3.6. Phân lớp, phân cụm dữ liệu .............................................. 27

1.4. Tổng quan tình hình nghiên cứu về nhận thức tiếng nói ....... 28

1.5. Bài toán nhận thức tiếng nói trong khoa học máy tính.......... 33

1.5.1. Bài toán nhận dạng người nói........................................... 33

1.5.2. Bài toán nhận dạng tiếng nói............................................ 34

1.5.3. Bài toán nhận thức tiếng nói............................................. 35

4

1.6. Một số khó khăn trong nhận thức tiếng nói........................... 36

1.6.1. Tính tuyến tính.................................................................. 36

1.6.2. Phân đoạn tiếng nói .......................................................... 36

1.6.3. Vấn đề phụ thuộc người nói ............................................. 36

1.6.4. Vấn đề nhiễu..................................................................... 36

1.6.5. Đơn vị nhận thức cơ bản................................................... 37

1.7. Mô hình nhận thức tiếng nói dựa trên học quan hệ giữa tín hiệu

tiếng nói với các tín hiệu khác .................................................................... 37

Chương 2. MỘT SỐ HƯỚNG TIẾP CẬN HỌC MÁY CHO BÀI

TOÁN NHẬN THỨC TIẾNG NÓI................................................................ 39

2.1. Giới thiệu ............................................................................... 39

2.2. Một số mô hình học máy cho bài toán nhận thức tiếng nói... 39

2.2.1. Mô hình Markov ẩn .......................................................... 39

2.2.2. Mô hình ngôn ngữ ............................................................ 41

2.2.3. Mô hình mạng nơ-ron....................................................... 43

2.2.4. Mạng học sâu.................................................................... 45

2.3. Trích chọn đặc trưng tiếng nói cho các mô hình học máy..... 54

2.3.1. Đặc trưng MFCC.............................................................. 54

2.3.2. Phương pháp mã dự đoán tuyến tính LPC ....................... 56

2.3.3. Đặc trưng PLP .................................................................. 58

2.4. Kết luận.................................................................................. 60

Chương 3. HƯỚNG TIẾP CẬN DỰA TRÊN PHỔ TẦN SỐ CHO BÀI

TOÁN NHẬN THỨC TIẾNG NÓI TRONG MỐI LIÊN HỆ VỚI CÁC KHÁI

NIỆM 61

3.1. Giới thiệu ............................................................................... 61

3.2. Phổ tần số của tín hiệu tiếng nói............................................ 62

3.3. Đặc trưng bất biến SIFT ........................................................ 64

3.4. Phương pháp phân lớp NBNN............................................... 68

5

3.5. Phương pháp phân lớp LNBNN ............................................ 70

3.6. Hướng tiếp cận trích chọn đặc trưng tiếng nói dựa trên phổ tần

số cho bài toán nhận thức tiếng nói............................................................. 72

3.7. Hướng tiếp cận mạng tích chập dựa trên phổ tần số cho bài toán

nhận thức tiếng nói...................................................................................... 75

3.8. Thực nghiệm và kết quả......................................................... 75

3.8.1. Dữ liệu thực nghiệm......................................................... 76

3.8.2. Thí nghiệm so sánh độ chính xác phân lớp của đặc trưng

SIFT với đặc trưng MFCC khi sử dụng LNBNN ................................... 76

3.8.3. Thí nghiệm với dữ liệu co dãn theo thời gian .................. 79

3.8.4. Thí nghiệm so sánh LNBNN và các phương pháp phân lớp

khác 80

3.8.5. Thí nghiệm khả năng học tăng cường của LNBNN......... 81

3.8.6. Thí nghiệm với mạng tích chập trên tín hiệu tiếng nói .... 82

3.9. Kết luận.................................................................................. 84

Chương 4. MÔ HÌNH NHẬN THỨC TIẾNG NÓI THÔNG QUA

HỌC MỐI QUAN HỆ GIỮA TÍN HIỆU TIẾNG NÓI VÀ HÌNH ẢNH ...... 86

4.1. Giới thiệu ............................................................................... 86

4.2. Các phương pháp học mối quan hệ........................................ 87

4.2.1. Học mối quan hệ bằng mạng nhân tạo ............................. 87

4.2.2. Học mối quan hệ bằng HMM........................................... 90

4.2.3. Học mối quan hệ dựa trên luật ......................................... 91

4.2.4. Học mối quan hệ dựa trên thống kê.................................. 91

4.3. Đề xuất mô hình nhận thức tiếng nói..................................... 93

4.3.1. Cơ sở đề xuất mô hình...................................................... 93

4.3.2. Mô hình nhận thức tiếng nói dựa trên học quan hệ giữa tín

hiệu âm thanh và tín hiệu hình ảnh ......................................................... 96

6

4.3.3. Mô hình nhận thức tiếng nói dựa trên ánh xạ giữa tín hiệu

âm thanh và tín hiệu hình ảnh bằng mạng tích chập............................... 99

4.4. Thực nghiệm và kết quả....................................................... 100

4.4.1. Thực nghiệm mô hình nhận thức tiếng nói dựa trên học quan

hệ giữa tín hiệu âm thanh và tín hiệu hình ảnh..................................... 100

4.4.2. Thực nghiệm mô hình nhận thức dựa trên mạng tích chập

102

4.5. Kết luận................................................................................ 106

Chương 5. MỘT SỐ CẢI TIẾN CHO BÀI TOÁN NHẬN THỨC

TIẾNG NÓI DỮ LIỆU LỚN ........................................................................ 108

5.1. Giới thiệu ............................................................................. 108

5.2. Rút gọn đặc trưng................................................................. 109

5.2.1. Giới thiệu về rút gọn đặc trưng ...................................... 109

5.2.2. Rút gọn đặc trưng SIFT.................................................. 110

5.2.3. Bảng băm đa chỉ số......................................................... 113

5.2.4. Thực nghiệm và kết quả ................................................. 115

5.3. Cài đặt phương pháp phân lớp LNBNN cho bài toán nhận thức

tiếng nói dữ liệu lớn .................................................................................. 116

5.3.1. Giới thiệu Framework Hadoop....................................... 116

5.3.2. Cài đặt thuật toán phân lớp LNBNN trên nền Hadoop .. 117

5.3.3. Thực nghiệm................................................................... 121

5.4. Kết luận................................................................................ 124

7

DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT

TT Viết tắt Từ tiếng Anh Nghĩa tiếng Việt

1. ANN Artificial Neural Network Mạng trí tuệ nhân tạo

2. BAM Bi-directional Assosiation

Memory

Mạng nhớ kết hợp hai

chiều

3. CNN Convolution Neural Network Mạng tích chập

4. CFG Context Free Grammar

Văn phạm phi ngữ

cảnh

5. CSLU Center for Spoken Language

Understanding

Trung tâm nghiên cứu

tiếng nói

6. DNN Deep Neural Network Mạng học sâu

7. DoG Different-of-Gaussian Bộ lọc DoG

8. DCT Discrete Cosin Transform Biến đổi Cosin rời rạc

9. DFT Discrete Fourier Transform Biến đổi Fourier rời

rạc

10. DTW Dynamic Time Warping Phương pháp lập trình

động

11. FA Factor Analysis Phân tích nhân tố

12. FFT Fast Fourier Transform Biến đổi Fuutier nhanh

13. GMM Gaussian Mixture Model Mô hình Gaussian hỗn

hợp

14. HDFS Hadoop Distributed File

System Hệ thống tệp phân tán

15. HMM Hidden Markov Model Mô hình Markov ẩn

16. HOG Histogram of Oriented

Gradients

Đặc trưng lược đồ độ

dốc theo hướng

17. ICA Independent Component

Analysis

Phân tích thành phần

độc lập

18. LBG Linde–Buzo–Gray Thuật toán LBG

19. LDA Linear Discriminant Analysis Phân tích biệt thức

tuyến tính

20. LNBNN Local Naïve Bayes Nearest

Neighbor

Phương pháp phân lớp

NBNN cục bộ

21. LPC Linear Predictive Coding Mã dự báo tuyến tính

22. MFCC Mel-frequency cepstral

coefficients Hệ số Mel

23. MPCA Multiple Principal Component

Analysis

Phân tích đa thành

phần

8

24. NBNN Naïve Bayes Nearest Neighbor Phương pháp phân lớp

NBNN

25. PCA Principal Component Analysis Phân tích thành phần

chính

26. PLP Perceptual Linear Prediction Mã nhận thức tuyến

tính

27. RNN Recurrent Neural Network Mạng hồi quy

28. SIFT Scale Invariant Feature

Transform

Đặc trưng bất biến đối

với phép biến đổi

29. SOM Self Organizing Map Bản đồ tự tổ chức

30. SURF Speeded Up Robust Features Đặc trưng ảnh nhanh

31. SVM Support Vector Machine Máy véc tơ hỗ trợ

32. VOT Voice On Set time Thời gian bắt đầu

nguyên âm

9

DANH MỤC HÌNH ẢNH

Hình 1.1 Sơ đồ quá trình nhận thức tiếng nói....................................... 19

Hình 1. 2 Mô phỏng các bước trong nhận thức tiếng nói của máy tính19

Hình 1. 3 Quá trình thu nhận âm thanh ở ốc tai ................................... 21

Hình 1. 4 Cộng hưởng với các tần số âm khác nhau ở ốc tai............... 22

Hình 1.5 Khu vực lưu trữ đặc trưng tiếng nói trên vỏ não ................... 23

Hình 1. 6 Biểu diễn tín hiệu tiếng nói trên miền thời gian ................... 26

Hình 1. 7 Biểu diễn tín hiệu tiếng nói trên miền tần số........................ 27

Hình 1.8 Biểu diễn tín hiệu tiếng nói trên miền kết hợp ...................... 27

Hình 2. 1 Mô hình HMM-GMM có cấu trúc dạng Left-Right liên kết

không đầy đủ ................................................................................................... 40

Hình 2. 2 Mạng Perceptron. (a) Perceptron 1 lớp, (b) Perceptron nhiều

lớp.................................................................................................................... 44

Hình 2. 3 Mô hình bộ tự mã hóa........................................................... 47

Hình 2. 4 Mô hình mạng hồi quy.......................................................... 48

Hình 2. 5 Mô hình mạng tích chập CNN.............................................. 49

Hình 2. 6 Tích chập một bộ lọc với dữ liệu đầu vào ............................ 50

Hình 2. 7 Ví dụ lấy mẫu với hàm max.................................................. 51

Hình 2. 8 Mô hình mạng tích chập LeNet 5 [Lecun, 1998] ................ 52

Hình 2. 9 Mô hình mạng tích chập AlexNet [Krizhevsky, 2012] ....... 52

Hình 2. 10 Mô hình mạng ZF Net [Zeiler, 2014] ................................ 53

Hình 2. 11 Mô hình mạng tích chập VGGNET [Simonyan, 2014] ..... 53

Hình 2. 12 Sơ đồ khối các bước trích chọn đặc trưng MFCC.............. 54

Hình 2. 13 Sơ đồ trích chọn đặc trưng LPC ......................................... 57

Hình 2. 14 Sơ đồ khối các bước trích chọn đặc trưng PLP .................. 59

Hình 3. 1 Phổ của từ A trong tiếng Anh được nói bởi 4 người khác nhau

......................................................................................................................... 62

Hình 3. 2 Phổ của các chữ cái A-D trong tiếng Anh của cùng một người

nói.................................................................................................................... 63

Hình 3. 3 Phổ của âm tiết Haa trong tiếng Nhật được nói bởi 5 người

khác nhau......................................................................................................... 63

10

Hình 3. 4 Phổ của 5 âm tiết tiếng Nhật do cùng một người nói........... 63

Hình 3. 5 Sơ đồ trich xuất phổ tần số của tín hiệu tiếng nói ................ 64

Hình 3. 6 Mô tả điểm hấp dẫn SIFT [Lowe, 1999] ............................. 66

Hình 3. 7 Sơ đồ các bước trích chọn đặc trưng SIFT-SPEECH từ tín hiệu

tiếng nói........................................................................................................... 67

Hình 3. 8 Một số điểm SIFT-SPEECH trích xuất từ phổ tần số của tín

hiệu tiếng nói................................................................................................... 67

Hình 3. 9 Mô hình phân lớp tiếng nói bằng LNBNN-SIFT-SPEECH. 72

Hình 3. 10 Mô hình CNN cho bài toán nhận dạng tiếng nói dựa trên phổ

tần số................................................................................................................ 75

Hình 3. 11 So sánh độ chính xác của LNBNN kết hợp với MFCC và

SIFT trên dữ liệu số English Digits................................................................. 77

Hình 3. 12 So sánh độ chính xác của LNBNN kết hợp với MFCC và

SIFT trên dữ liệu ISOLET. ............................................................................. 78

Hình 3.13 So sánh độ chính xác của LNBNN kết hợp với MFCC và SIFT

trên 20 lớp đầu tiên của dữ liệu TMW............................................................ 78

Hình 3.14 So sánh độ chính xác của LNBNN kết hợp với MFCC và SIFT

trên dữ liệu JVPD............................................................................................ 78

Hình 3.15 So sánh độ chính xác của LNBNN kết hợp với MFCC và SIFT

trên dữ liệu số tiếng Việt................................................................................. 79

Hình 4. 1 Mô hình mạng Hopfield [Raul, 1996] ................................. 88

Hình 4. 2 Mô hình mạng BAM [Kosko, 1987] ................................... 89

Hình 4. 3 Mô hình mạng tự tổ chức [Kohonen, 1982] ........................ 90

Hình 4. 4 Mô hình HMM [Baum, 1966] ............................................. 91

Hình 4. 5 Ví dụ các luật theo văn phạm phi ngữ cảnh ......................... 92

Hình 4. 6 Sơ đồ các vùng vỏ não sơ cấp và vùng vỏ não liên kết........ 93

Hình 4. 7 Ví dụ minh họa tập dữ liệu thực nghiệm DIGITS................ 94

Hình 4. 8 Mô hình nhận thức tiếng nói cho người máy ....................... 95

Hình 4. 9 Mô hình học ánh xạ giữa tiếng nói và hình ảnh bằng mạng

CNN............................................................................................................... 100

Hình 4. 10 Độ chính xác của mô hình trên bộ dữ liệu DIGITS ......... 101

Hình 4. 11 Độ chính xác của mô hình trên bộ dữ liệu OBJECTS...... 101

11

Hình 4. 12 Hai mươi mẫu huấn luyện của 8 lớp trong bộ dữ liệu COIL

....................................................................................................................... 102

Hình 4. 13 Hai mươi mẫu huấn luyện của bộ dữ liệu FNT từ A đến Z

....................................................................................................................... 103

Hình 4. 14 Hai mươi mẫu huấn luyện chữ số viết tay trong MNIST. 103

Hình 4. 15 Hai mươi mẫu hình ảnh do mô hình sinh ra của bộ dữ liệu

COIL.............................................................................................................. 104

Hình 4. 16 Hai mươi mẫu hình ảnh do mô hình sinh ra của bộ dữ liệu

MNIST .......................................................................................................... 104

Hình 4. 17 Hai mươi mẫu hình ảnh kết quả do mô hình sinh ra đối với

bộ dữ liệu FNT.............................................................................................. 106

Hình 5. 1 a. Lược đồ giá trị các thành phần của điểm đặc trưng SIFT, b.

Medians của các thành phần của SIFT trên dữ liệu ISOLET ....................... 110

Hình 5. 2 a. Lược đồ giá trị của các thành phần của SIFT trên cơ sở dữ

liệu Digits, b. Medians của các thành phần của SIFT trên dữ liệu Digits.... 111

Hình 5. 3 Lược đồ giá trị các thành phần của đặc trưng SIFT trên dữ liệu

PLACES, b. Median của SIFT trên dữ liệu PLACES .................................. 111

Hình 5. 4 a. Lược đồ giá trị các thành phần của SIFT trên dữ liệu JVPD,

b. Trung vị của các thành phần của SIFT trên dữ liệu JVPD ....................... 112

Hình 5. 5 Lược đồ giá trị các thành phần của SIFT trên dữ liệu TMW, b.

Medians của các thành phần của SIFT trên dữ liệu TMW ........................... 112

Hình 5. 6 Mô hình cụm máy tính thực nghiệm .................................. 122

12

DANH MỤC BẢNG

Bảng 3. 1 So sánh độ chính xác phân lớp của LNBNN với SIFT và

MFCC.............................................................................................................. 77

Bảng 3. 2 So sánh kết quả đối với dữ liệu bị co dãn một chiều ........... 79

Bảng 3. 3 So sánh độ chính xác của các phương pháp phân lớp với đặc

trưng MFCC.................................................................................................... 80

Bảng 3. 4 So sánh độ chính xác của các phương pháp phân lớp với đặc

trưng SIFT....................................................................................................... 80

Bảng 3. 5 So sánh độ chính xác phân lớp khi bổ sung thêm dữ liệu huấn

luyện cho tất cả các lớp................................................................................... 81

Bảng 3. 6 So sánh độ chính xác phân lớp khi bổ sung thêm lớp (tri thức)

cho mô hình..................................................................................................... 82

Bảng 3. 7 So sánh độ chính xác phân lớp của CNN và LNBNN kết hợp

với SIFT trên phổ tần số của tín hiệu tiếng nói............................................... 83

Bảng 4. 1 Kết quả phân lớp trung bình hình ảnh do mô hình nhận thức

tiếng nói sinh ra bằng mạng tích chập........................................................... 105

Bảng 5. 1 So sánh độ chính xác phân lớp trên các bộ dữ liệu............ 115

Bảng 5. 2 So sánh thời gian chạy trên các dữ liệu khác nhau (giây).. 115

Bảng 5. 3 So sánh độ phân lớp chính xác trên các dữ liệu thực nghiệm

....................................................................................................................... 123

Bảng 5. 4 So sánh thời gian truy vấn trung bình một đặc trưng trên các

dữ liệu khác nhau (tính bằng giây)................................................................ 123

Tải ngay đi em, còn do dự, trời tối mất!