Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Mô hình kết hợp CNN - LSTM cho bài toán chuyển lời nói tường trình phòng mổ sang văn bản :Luận văn thạc sĩ - Chuyên ngành: Khoa học máy tính
PREMIUM
Số trang
81
Kích thước
2.7 MB
Định dạng
PDF
Lượt xem
857

Mô hình kết hợp CNN - LSTM cho bài toán chuyển lời nói tường trình phòng mổ sang văn bản :Luận văn thạc sĩ - Chuyên ngành: Khoa học máy tính

Nội dung xem thử

Mô tả chi tiết

BỘ CÔNG THƯƠNG

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH

NGUYỄN TUẤN ANH

MÔ HÌNH KẾT HỢP CNN-LSTM CHO BÀI

TOÁN CHUYỂN LỜI NÓI TƯỜNG TRÌNH

PHÒNG MỔ SANG VĂN BẢN

Chuyên ngành: KHOA HỌC MÁY TÍNH

Mã chuyên ngành: 60.480101

LUẬN VĂN THẠC SĨ

THÀNH PHỐ HỒ CHÍ MINH, NĂM 2020

Công trình được hoàn thành tại Trường Đại học Công nghiệp TP. Hồ Chí Minh.

Người hướng dẫn khoa học: PGS.TS. Phạm Thế Bảo

(Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Luận văn thạc sĩ được bảo vệ tại Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường

Đại học Công nghiệp thành phố Hồ Chí Minh ngày 21 tháng 8 năm 2020

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

1. PGS.TS. Huỳnh Trung Hiếu ............................- Chủ tịch Hội đồng

2. TS. Lê Thành Sách...........................................- Phản biện 1

3. TS. Huỳnh Khả Tú ...........................................- Phản biện 2

4. TS. Đặng Quang Vinh......................................- Ủy viên

5. TS. Lê Nhật Duy ..............................................- Thư ký

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)

CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA CÔNG NGHỆ THÔNG TIN

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Nguyễn Tuấn Anh MSHV: 16002631

Ngày, tháng, năm sinh: 04/04/1983 Nơi sinh: Hà Nội

Chuyên ngành: Khoa học máy tính Mã chuyên ngành: 60.480101

I. TÊN ĐỀ TÀI

Mô hình kết hợp CNN-LSTM cho bài toán chuyển lời nói tường trình phòng mổ sang

văn bản.

NHIỆM VỤ VÀ NỘI DUNG

Nghiên cứu phương pháp MFCC, mô hình CNN, mô hình LSTM. Kết hợp CNN và

LSTM thành một mô hình thống nhất CNN-LSTM.

Áp dụng mô hình CNN-LSTM để giải quyết bài toán chuyển lời nói trong tường trình

phòng mổ sang dạng văn bản.

II. NGÀY GIAO NHIỆM VỤ: 14/06/2019

III. NGÀY HOÀN THÀNH NHIỆM VỤ: 14/06/2020

IV. NGƯỜI HƯỚNG DẪN KHOA HỌC: PSG.TS.Phạm Thế Bảo

Tp. Hồ Chí Minh, ngày … tháng … năm 2020

NGƯỜI HƯỚNG DẪN

(Họ tên và chữ ký)

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO

(Họ tên và chữ ký)

TRƯỞNG KHOA CÔNG NGHỆ THÔNG TIN

(Họ tên và chữ ký)

BỘ CÔNG THƯƠNG

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP

THÀNH PHỐ HỒ CHÍ MINH

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập - Tự do - Hạnh phúc

i

LỜI CẢM ƠN

Để hoàn thành luận văn "Mô hình kết hợp CNN-LSTM cho bài toán chuyển lời nói

tường trình phòng mổ sang văn bản" bên cạnh những nỗ lực của bản thân, em xin

chân thành cảm ơn quý thầy cô trong khoa Công nghệ Thông tin, trường đại học Công

Nghiệp đã tận tình giảng dạy, trang bị cho em những kiến thức quý báu trong những

năm vừa qua.

Đặc biệt em xin được bày tỏ lòng biết ơn chân thành đến thầy PGS.TS. Phạm Thế

Bảo người trực tiếp hướng dẫn luận văn, đã tận tình chỉ bảo và hướng dẫn em tìm ra

hướng nghiên cứu, tiếp cận thực tế, tìm kiếm tài liệu, xử lý và phân tích số liệu, giải

quyết vấn đề...nhờ đó em mới có thể hoàn thành luận văn cao học của mình.

Ngoài ra em cũng xin chân thành cảm ơn đến thầy TS. Trịnh Tấn Đạt, người đã cùng

thầy PGS.TS. Phạm Thế Bảo hỗ trợ cho em thêm những kiến thức, kinh nghiệm quý

báu trong quá trình thực hiện luận văn.

Em cũng xin cám ơn đến bệnh viện đa khoa Đồng Nai đã tạo điều kiện tốt nhất trong

việc sử dụng dữ liệu phục vụ mục đích nghiên cứu của đề tài này.

Cuối em xin cảm ơn những người thân, bạn bè đã luôn bên em, động viên em hoàn

thành khóa học và bài luận văn này.

Một lần nữa, xin trân trọng cảm ơn!

ii

TÓM TẮT LUẬN VĂN THẠC SĨ

Chúng tôi mong muốn xây dựng một mô hình có thể chuyển lời nói tiếng Việt trong

phòng mổ sang văn bản với những âm thanh thực tế khi đang phẫu thuật (bao gồm cả

các lời nói của phẫu thật viên và các tiếng ồn xung quanh). Vì vậy, chúng tôi đề xuất

sử dụng mô hình nhận dạng và chuyển lời nói sang văn bản - Speech to text

recognition (STR) cho nghiên cứu này. Chúng tôi nghiên cứu sự hiệu quả của các

mạng nơ ron thần kinh tích chập hồi quy sâu (CRNN hay cụ thể hơn là CNN-LSTM)

về nhận dạng lời nói. Mạng nơ ron thần kinh tích chập (CNN) và mạng nơ ron thần

kinh bộ nhớ ngắn dài hạn (LSTM) đã được chứng minh là hiệu quả trong các phương

pháp nhận dạng lời nói. Chúng tôi đề xuất áp dụng kết hợp giữa CNN và bidirectional￾LSTM (BLSTM) để xem xét việc học các đặc trưng giọng nói cục bộ, mô hình tuần

tự, và phiên mã để nhận dạng giọng nói. Chúng tôi mở rộng mô hình CNN-LSTM

với cơ chế dựa trên sự chú ý (Attention-based hay Attention) để giải mã các khung

thành một chuỗi các từ. Các mô hình CNN, LSTM và Attention-based được kết hợp

với nhau thành một kiến trúc thống nhất. Bênh cạnh đó, chúng tôi cũng kết hợp

phương pháp phân loại tạm thời kết nối - Connectionist Temporal Classification

(CTC) và Attention-based với nhau trong quá trình huấn luyện. Chiều dài của dãy

nhãn đầu ra từ CTC được áp dụng cho pha giải mã của Attention-based để dự đoán

tạo ra nhãn cuối cùng. Quá trình này giúp giảm sự canh chỉnh không đều (giữa đầu

ra và đầu vào) và làm tăng tốc khi ước tính chuỗi trong quá trình huấn luyện và suy

luận thay vì chỉ dựa vào Attention (attention-based encoder-decoder) dựa trên dữ liệu

để ước tính dãy nhãn trong các câu dài. Hệ thống đề xuất được đánh giá bằng cách sử

dụng một bộ dữ liệu thực tế trong phòng mổ. Kết quả thử nghiệm cho thấy phương

pháp đề xuất làm tăng đáng kể độ chính xác của hệ thống nhận dạng giọng nói. Chúng

tôi thấy rằng phương pháp của chúng tôi cho ra tỷ lệ lỗi từ (WER) là 13,05% và vượt

trội hơn các phương pháp tiêu chuẩn.

iii

ABSTRACT

We look forward to building a model that converts Vietnamese speech into text in the

operating room with realistic sounds during surgery (including the words of real

surgeons and ambient noise). Therefore, we propose to use the automatic speech to

text recognition system (STR) for this study. We investigate the effectiveness of deep

convolution recurrent neural networks (CRNN or more specifically CNN-LSTM) on

speech recognition. The CNN and LSTM network have proven to be effective in

speech recognition methods. We propose the combination of CNN and bidirectional￾LSTM (BLSTM) to consider learning the language of speech features, sequence

model and transcription for speech recognition. We extend the CNN-LSTM model

with the attention mechanism to decode the frames into a sequence of words. The

CNN, LSTM models and attention mechanisms are combined together into a unified

architecture. Besides, we also combine Connectionist Temporal Classification (CTC)

and attention mechanism to one another during the training process. The length of the

CTC label output sequence is applied to Attention's decoding phase to predict the

final label production. This process reduces irregular alignment (between output and

input) and accelerates when predicting sequences during training and reasoning

instead of relying solely on the data-based attention (encoder-decoder) to estimate the

range of labels in long sentences. The proposed system is rated using a set of actual

data in the operating room. The experimental results show that the proposed approach

significantly increases the accuracy of the speech recognition system. We found that

our method of giving out the word error rate (WER) was 13.05% and superior to the

standard method.

iv

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn “Mô hình kết hợp CNN-LSTM cho bài toán chuyển lời

nói tường trình phòng mổ sang văn bản” là công trình nghiên cứu của bản thân, dưới

sự hướng dẫn của giáo viên hướng dẫn của PGS.TS Phạm Thế Bảo. Các số liệu sử

dụng phân tích trong luận án có nguồn gốc rõ ràng, đã công bố theo đúng quy định

và trích dẫn trong phần tài liệu tham khảo. Các số liệu, kết quả trình bày trong đồ án

là hoàn toàn trung thực, các kết quả nghiên cứu của luận án chưa được công bố trong

bất kỳ công trình nghiên cứu nào khác.

Học viên

Nguyễn Tuấn Anh

v

MỤC LỤC

MỤC LỤC...................................................................................................................v

DANH MỤC HÌNH ẢNH ...................................................................................... viii

DANH MỤC BẢNG BIỂU ........................................................................................x

DANH MỤC TỪ VIẾT TẮT.................................................................................... xi

MỞ ĐẦU.....................................................................................................................1

1. Đặt vấn đề ............................................................................................................1

2. Mục tiêu nghiên cứu ............................................................................................3

3. Đối tượng và phạm vi nghiên cứu .......................................................................3

4. Cách tiếp cận và phương pháp nghiên cứu..........................................................4

5. Ý nghĩa thực tiễn của đề tài .................................................................................4

6. Bố cục luận văn....................................................................................................5

CHƯƠNG 1 TỔNG QUAN..................................................................................6

1.1 Bài toán chuyển lời nói tiếng Việt sang văn bản trong phòng mổ ................6

1.2 Chuyển lời nói thành dạng văn bản ...............................................................6

1.2.1 Lịch sử phát triển ....................................................................................6

1.2.2 Quá trình chuyển lời nói thành dạng văn bản.........................................7

1.3 Các hướng tiếp cận ........................................................................................8

1.4 Khó khăn và thách thức ...............................................................................10

1.5 Đề xuất hướng giải quyết ............................................................................11

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT.....................................................................13

2.1 Âm thanh và tiếng nói .................................................................................13

2.1.1 Các đặc trưng của âm thanh và tiếng nói..............................................13

2.1.1.1 Cao độ của âm thanh......................................................................13

2.1.1.2 Cường độ và mức cường độ của âm thanh ....................................13

2.1.1.3 Độ to của âm ..................................................................................14

2.1.1.4 Âm sắc............................................................................................14

2.1.2 Xử lý tín hiệu âm thanh ........................................................................14

Tải ngay đi em, còn do dự, trời tối mất!