Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Mô hình kết hợp CNN - LSTM cho bài toán chuyển lời nói tường trình phòng mổ sang văn bản :Luận văn thạc sĩ - Chuyên ngành: Khoa học máy tính
Nội dung xem thử
Mô tả chi tiết
BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH
NGUYỄN TUẤN ANH
MÔ HÌNH KẾT HỢP CNN-LSTM CHO BÀI
TOÁN CHUYỂN LỜI NÓI TƯỜNG TRÌNH
PHÒNG MỔ SANG VĂN BẢN
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã chuyên ngành: 60.480101
LUẬN VĂN THẠC SĨ
THÀNH PHỐ HỒ CHÍ MINH, NĂM 2020
Công trình được hoàn thành tại Trường Đại học Công nghiệp TP. Hồ Chí Minh.
Người hướng dẫn khoa học: PGS.TS. Phạm Thế Bảo
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Luận văn thạc sĩ được bảo vệ tại Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường
Đại học Công nghiệp thành phố Hồ Chí Minh ngày 21 tháng 8 năm 2020
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. PGS.TS. Huỳnh Trung Hiếu ............................- Chủ tịch Hội đồng
2. TS. Lê Thành Sách...........................................- Phản biện 1
3. TS. Huỳnh Khả Tú ...........................................- Phản biện 2
4. TS. Đặng Quang Vinh......................................- Ủy viên
5. TS. Lê Nhật Duy ..............................................- Thư ký
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA CÔNG NGHỆ THÔNG TIN
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Nguyễn Tuấn Anh MSHV: 16002631
Ngày, tháng, năm sinh: 04/04/1983 Nơi sinh: Hà Nội
Chuyên ngành: Khoa học máy tính Mã chuyên ngành: 60.480101
I. TÊN ĐỀ TÀI
Mô hình kết hợp CNN-LSTM cho bài toán chuyển lời nói tường trình phòng mổ sang
văn bản.
NHIỆM VỤ VÀ NỘI DUNG
Nghiên cứu phương pháp MFCC, mô hình CNN, mô hình LSTM. Kết hợp CNN và
LSTM thành một mô hình thống nhất CNN-LSTM.
Áp dụng mô hình CNN-LSTM để giải quyết bài toán chuyển lời nói trong tường trình
phòng mổ sang dạng văn bản.
II. NGÀY GIAO NHIỆM VỤ: 14/06/2019
III. NGÀY HOÀN THÀNH NHIỆM VỤ: 14/06/2020
IV. NGƯỜI HƯỚNG DẪN KHOA HỌC: PSG.TS.Phạm Thế Bảo
Tp. Hồ Chí Minh, ngày … tháng … năm 2020
NGƯỜI HƯỚNG DẪN
(Họ tên và chữ ký)
CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
(Họ tên và chữ ký)
TRƯỞNG KHOA CÔNG NGHỆ THÔNG TIN
(Họ tên và chữ ký)
BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP
THÀNH PHỐ HỒ CHÍ MINH
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
i
LỜI CẢM ƠN
Để hoàn thành luận văn "Mô hình kết hợp CNN-LSTM cho bài toán chuyển lời nói
tường trình phòng mổ sang văn bản" bên cạnh những nỗ lực của bản thân, em xin
chân thành cảm ơn quý thầy cô trong khoa Công nghệ Thông tin, trường đại học Công
Nghiệp đã tận tình giảng dạy, trang bị cho em những kiến thức quý báu trong những
năm vừa qua.
Đặc biệt em xin được bày tỏ lòng biết ơn chân thành đến thầy PGS.TS. Phạm Thế
Bảo người trực tiếp hướng dẫn luận văn, đã tận tình chỉ bảo và hướng dẫn em tìm ra
hướng nghiên cứu, tiếp cận thực tế, tìm kiếm tài liệu, xử lý và phân tích số liệu, giải
quyết vấn đề...nhờ đó em mới có thể hoàn thành luận văn cao học của mình.
Ngoài ra em cũng xin chân thành cảm ơn đến thầy TS. Trịnh Tấn Đạt, người đã cùng
thầy PGS.TS. Phạm Thế Bảo hỗ trợ cho em thêm những kiến thức, kinh nghiệm quý
báu trong quá trình thực hiện luận văn.
Em cũng xin cám ơn đến bệnh viện đa khoa Đồng Nai đã tạo điều kiện tốt nhất trong
việc sử dụng dữ liệu phục vụ mục đích nghiên cứu của đề tài này.
Cuối em xin cảm ơn những người thân, bạn bè đã luôn bên em, động viên em hoàn
thành khóa học và bài luận văn này.
Một lần nữa, xin trân trọng cảm ơn!
ii
TÓM TẮT LUẬN VĂN THẠC SĨ
Chúng tôi mong muốn xây dựng một mô hình có thể chuyển lời nói tiếng Việt trong
phòng mổ sang văn bản với những âm thanh thực tế khi đang phẫu thuật (bao gồm cả
các lời nói của phẫu thật viên và các tiếng ồn xung quanh). Vì vậy, chúng tôi đề xuất
sử dụng mô hình nhận dạng và chuyển lời nói sang văn bản - Speech to text
recognition (STR) cho nghiên cứu này. Chúng tôi nghiên cứu sự hiệu quả của các
mạng nơ ron thần kinh tích chập hồi quy sâu (CRNN hay cụ thể hơn là CNN-LSTM)
về nhận dạng lời nói. Mạng nơ ron thần kinh tích chập (CNN) và mạng nơ ron thần
kinh bộ nhớ ngắn dài hạn (LSTM) đã được chứng minh là hiệu quả trong các phương
pháp nhận dạng lời nói. Chúng tôi đề xuất áp dụng kết hợp giữa CNN và bidirectionalLSTM (BLSTM) để xem xét việc học các đặc trưng giọng nói cục bộ, mô hình tuần
tự, và phiên mã để nhận dạng giọng nói. Chúng tôi mở rộng mô hình CNN-LSTM
với cơ chế dựa trên sự chú ý (Attention-based hay Attention) để giải mã các khung
thành một chuỗi các từ. Các mô hình CNN, LSTM và Attention-based được kết hợp
với nhau thành một kiến trúc thống nhất. Bênh cạnh đó, chúng tôi cũng kết hợp
phương pháp phân loại tạm thời kết nối - Connectionist Temporal Classification
(CTC) và Attention-based với nhau trong quá trình huấn luyện. Chiều dài của dãy
nhãn đầu ra từ CTC được áp dụng cho pha giải mã của Attention-based để dự đoán
tạo ra nhãn cuối cùng. Quá trình này giúp giảm sự canh chỉnh không đều (giữa đầu
ra và đầu vào) và làm tăng tốc khi ước tính chuỗi trong quá trình huấn luyện và suy
luận thay vì chỉ dựa vào Attention (attention-based encoder-decoder) dựa trên dữ liệu
để ước tính dãy nhãn trong các câu dài. Hệ thống đề xuất được đánh giá bằng cách sử
dụng một bộ dữ liệu thực tế trong phòng mổ. Kết quả thử nghiệm cho thấy phương
pháp đề xuất làm tăng đáng kể độ chính xác của hệ thống nhận dạng giọng nói. Chúng
tôi thấy rằng phương pháp của chúng tôi cho ra tỷ lệ lỗi từ (WER) là 13,05% và vượt
trội hơn các phương pháp tiêu chuẩn.
iii
ABSTRACT
We look forward to building a model that converts Vietnamese speech into text in the
operating room with realistic sounds during surgery (including the words of real
surgeons and ambient noise). Therefore, we propose to use the automatic speech to
text recognition system (STR) for this study. We investigate the effectiveness of deep
convolution recurrent neural networks (CRNN or more specifically CNN-LSTM) on
speech recognition. The CNN and LSTM network have proven to be effective in
speech recognition methods. We propose the combination of CNN and bidirectionalLSTM (BLSTM) to consider learning the language of speech features, sequence
model and transcription for speech recognition. We extend the CNN-LSTM model
with the attention mechanism to decode the frames into a sequence of words. The
CNN, LSTM models and attention mechanisms are combined together into a unified
architecture. Besides, we also combine Connectionist Temporal Classification (CTC)
and attention mechanism to one another during the training process. The length of the
CTC label output sequence is applied to Attention's decoding phase to predict the
final label production. This process reduces irregular alignment (between output and
input) and accelerates when predicting sequences during training and reasoning
instead of relying solely on the data-based attention (encoder-decoder) to estimate the
range of labels in long sentences. The proposed system is rated using a set of actual
data in the operating room. The experimental results show that the proposed approach
significantly increases the accuracy of the speech recognition system. We found that
our method of giving out the word error rate (WER) was 13.05% and superior to the
standard method.
iv
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Mô hình kết hợp CNN-LSTM cho bài toán chuyển lời
nói tường trình phòng mổ sang văn bản” là công trình nghiên cứu của bản thân, dưới
sự hướng dẫn của giáo viên hướng dẫn của PGS.TS Phạm Thế Bảo. Các số liệu sử
dụng phân tích trong luận án có nguồn gốc rõ ràng, đã công bố theo đúng quy định
và trích dẫn trong phần tài liệu tham khảo. Các số liệu, kết quả trình bày trong đồ án
là hoàn toàn trung thực, các kết quả nghiên cứu của luận án chưa được công bố trong
bất kỳ công trình nghiên cứu nào khác.
Học viên
Nguyễn Tuấn Anh
v
MỤC LỤC
MỤC LỤC...................................................................................................................v
DANH MỤC HÌNH ẢNH ...................................................................................... viii
DANH MỤC BẢNG BIỂU ........................................................................................x
DANH MỤC TỪ VIẾT TẮT.................................................................................... xi
MỞ ĐẦU.....................................................................................................................1
1. Đặt vấn đề ............................................................................................................1
2. Mục tiêu nghiên cứu ............................................................................................3
3. Đối tượng và phạm vi nghiên cứu .......................................................................3
4. Cách tiếp cận và phương pháp nghiên cứu..........................................................4
5. Ý nghĩa thực tiễn của đề tài .................................................................................4
6. Bố cục luận văn....................................................................................................5
CHƯƠNG 1 TỔNG QUAN..................................................................................6
1.1 Bài toán chuyển lời nói tiếng Việt sang văn bản trong phòng mổ ................6
1.2 Chuyển lời nói thành dạng văn bản ...............................................................6
1.2.1 Lịch sử phát triển ....................................................................................6
1.2.2 Quá trình chuyển lời nói thành dạng văn bản.........................................7
1.3 Các hướng tiếp cận ........................................................................................8
1.4 Khó khăn và thách thức ...............................................................................10
1.5 Đề xuất hướng giải quyết ............................................................................11
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT.....................................................................13
2.1 Âm thanh và tiếng nói .................................................................................13
2.1.1 Các đặc trưng của âm thanh và tiếng nói..............................................13
2.1.1.1 Cao độ của âm thanh......................................................................13
2.1.1.2 Cường độ và mức cường độ của âm thanh ....................................13
2.1.1.3 Độ to của âm ..................................................................................14
2.1.1.4 Âm sắc............................................................................................14
2.1.2 Xử lý tín hiệu âm thanh ........................................................................14