Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Một số đánh giá về hiệu quả nhận dạng tiếng nói dung kỹ thuật phân tích băng con
MIỄN PHÍ
Số trang
6
Kích thước
212.0 KB
Định dạng
PDF
Lượt xem
1728

Một số đánh giá về hiệu quả nhận dạng tiếng nói dung kỹ thuật phân tích băng con

Nội dung xem thử

Mô tả chi tiết

52(4): 47 - 51 Tạp chí KHOA HỌC & CÔNG NGHỆ 4 - 2009

1

MỘT SỐ ĐÁNH GIÁ VỀ HIỆU QUẢ NHẬN DẠNG TIẾNG NÓI

DÙNG KỸ THUẬT PHÂN TÍCH BĂNG CON

Phùng Trung Nghĩa (Khoa Công nghệ thông tin - ĐH Thái Nguyên)

Tóm tắt

Trong báo cáo này, chúng tôi sử dụng phân tích wavelet rời rạc DWT để phân tích tiếng nói thành các băng

con và thực hiện nhận dạng tiếng nói đã phân tích. Các kết quả nhận dạng cho thấy các băng con có ảnh hưởng

khác nhau tới hiệu quả nhận dạng tiếng nói sạch và tiếng nói có nhiễu. Đặc biệt, một số băng con cho hiệu quả

nhận dạng cao hơn tiếng nói gốc không phân tích băng con. Cụ thể với phân tích DWT, băng A1 là ảnh hưởng

nhiều nhất đối với tiếng nói sạch còn băng A2 ảnh hưởng nhiều nhất đối với tiếng nói có nhiễu. Các kết quả này

cho thấy việc sử dụng phân tích băng con để phân tách ra một số băng tần chọn lọc sẽ cho hiệu quả cao hơn nhận

dạng với tiếng nói gốc. Các băng con khác nhau ảnh hưởng khác nhau tới hiệu quả nhận dạng cho thấy trong kỹ

thuật nhận dạng tiếng nói dùng phân tích băng con, khi kết hợp kết quả nhận dạng trong các băng con để cho ra kết

luận nhận dạng cuối cùng thì các băng con cần phải gán các trọng số khác nhau tương ứng với độ ảnh hưởng lên

kết quả nhận dạng. Ở một khía cạnh khác, các kết quả thực nghiệm ở đây cũng cho thấy việc cắt bỏ các thông tin

tần số cao ở một mức độ thích hợp sẽ làm tăng hiệu quả nhận dạng tiếng nói. Đây là cơ sở cần thiết để khẳng định

việc sử dụng các bộ triệt nhiễu tiếng nói trong khối tiền xử lý của các hệ thống nhận dạng tương ứng với việc cắt

bỏ bớt thông tin tần số cao ở một mức độ thích hợp dù loại bỏ một số thông tin quan trọng nhưng vẫn làm tăng kết

quả nhận dạng.

I. Đặt vấn đề

Nhiều nghiên cứu gần đây về nhận dạng tiếng

nói quan tâm đến các phương pháp nâng cao tỉ lệ

nhận dạng trong môi trường có nhiễu (noise robust

speech recognition). Đã có rất nhiều phương pháp

được đưa ra, trong đó phương pháp sử dụng biến

đổi wavelet theo hai cách tiếp cận là xây dựng bộ

triệt nhiễu wavelet trong khối tiền xử lý [6, 14, 15]

hoặc sử dụng các đặc trưng wavelet ít nhạy cảm

với nhiễu trong khối trích đặc trưng [5, 8, 9, 10,

11, 12] là các phương pháp có nhiều triển vọng.

Đối với cách tiếp cận dùng khối triệt nhiễu tiền xử

lý, do ý tưởng cơ bản của triệt nhiễu dùng wavelet

là loại bỏ các hệ số tần số cao (hệ số chi tiết) có

mức năng lượng dưới ngưỡng, nên triệt nhiễu

dùng wavelet cũng đồng nghĩa với việc cắt bỏ bớt

thông tin tần số cao. Đối với cách tiếp cận thứ hai

dùng các đặc trưng ít nhạy cảm với nhiễu, đặc

trưng wavelet liên tục CWT và wavelet gói WPT

được sử dụng phổ biến. Nhược điểm cơ bản của

CWT là vấn đề tốc độ thực thi do khối lượng tính

toán lớn. Do vậy trong hầu hết các hệ thống nhận

dạng sử dụng wavelet với tiếng nói được lấy mẫu

với tần số lấy mẫu lớn người ta thường phải giảm

tốc độ lấy mẫu tiếng nói xuống 8 KHz để đảm bảo

tốc độ thực thi. Tuy nhiên, khi giảm tốc độ lấy

mẫu cũng có nghĩa là cắt bỏ bớt các thông tin tần

số cao (giảm tốc độ lấy mẫu từ 16 KHz xuống 8

KHz tương ứng với cắt phổ tần tiếng nói từ 8 KHz

xuống 4 KHz). Do đó, trong cả hai cách tiếp cận,

tiếng nói gốc đều phải cắt bỏ các thông tin tần số cao

trong khối tiền xử lý và trích đặc trưng. Theo suy

luận logic thông thường, việc cắt bỏ các thông tin tần

số cao này cũng có thể làm mất các đặc trưng của

tiếng nói và ảnh hưởng tới kết quả nhận dạng.

Cũng trong thời gian gần đây, trên thế giới đã

có một số tác giả đề xuất các phương pháp nhận

dạng tiếng nói dùng phân tích băng con trong đó

nhận dạng tiếng nói trong từng băng và kết hợp

các kết quả lại để cho ra kết quả nhận dạng cuối

cùng. Các nghiên cứu hiện tại thường sử dụng kỹ

thuật đặt trọng số cân bằng (equal weighting) cho

các băng con [7]. Mặc dù các kết quả thực nghiệm

cho thấy các kỹ thuật này nâng cao được hiệu quả

nhận dạng đặc biệt với tiếng nói có nhiễu, kỹ thuật

đặt trọng số cân bằng không phản ánh được thực tế

các băng con khác nhau ảnh hưởng khác nhau tới

hiệu quả nhận dạng. Vì vậy đánh giá hiệu quả

nhận dạng của từng băng con độc lập sẽ là cơ sở

để xây dựng một phương pháp đặt trọng số phù

hợp cho các băng con.

Tải ngay đi em, còn do dự, trời tối mất!