Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Tài liệu Chất lượng tiếng nói ppt
Nội dung xem thử
Mô tả chi tiết
1
SPEECH ENHENCEMENT ALGORITHMS
FINAL PROJECT JUN-2012, DUT
ELECTRONICS AND TELECOMMUNICATION ENGINEERING
DIGITAL SIGNAL PROCESSING
MAIN REPORT
Author
Hoàng Minh Thảo
[email protected] Thao M. Hoang
2
1. Tổng quan về nâng cao chất lượng tiếng nói:
Tiếng nói đóng vai trò rất quan trọng trong thông tin liên lạc. Quá trình truyền
tín hiệu tiếng nói được truyền đi qua các phương tiện thông tin bị các loại nhiễu tác động
nên chất lượng bị suy giảm. Vì vậy, các thuật toán Speech Enhancement và các kĩ thuật
làm giảm nhiễu được ra đời. Trong bài Lab này ta sẽ đi nghiên cứu 2 thuật toán ước lượng
phổ để khử nhiễu kinh điển là Spectral Subtraction [1] và Wiener Filter [2]. Việc ước
lượng phổ nhiễu đòi hỏi một thuật toán VAD ( Voice Activity Detection ) để tìm khoảng
thời gian không có tiếng nói hoạt động. Ta sẽ đi phân tích từng phần theo sự phát triển của
các thuật toán và đánh giá kết quả mà các thuật toán mang lại.
1.1. Phân tích tín hiệu có nhiễu thành các segment/frame :
Tín hiệu có nhiễu được chia ra thành nhiều Segment ( hay Frame ) có chiều dài
bằng 25 ms với độ dịch là 40% của Window trên suốt chiều dài tín hiệu. Cửa sổ có thể
chọn Rectangle, Hanning, Hamming, Blackman … Việc chọn loại cửa sổ sẽ ảnh hưởng
tới việc khôi phục tín hiệu đã tăng cường sau này. Ở đây, cửa sổ được lựa chọn là
Hamming. Do Hamming là cửa sổ phi tuyến nên khi thực hiện biến đổi FFT thì vô tình đã
làm suy giảm tín hiệu , vì thế yêu cầu đặt ra là các Segment phải sắp xếp chồng lên nhau
theo 1 tỉ lệ dịch (SP) thích hợp , vùng xếp chồng giữa 2 Segment liên tục gọi là “overlap”. Thao M. Hoang
3
Minh họa quá trình Segmenting bằng cửa sổ rectwin
y(n) : tín hiệu có nhiễu cộng vào.
SP : shift percentage
W : Window Length
o : số mẫu ở vùng overlap ( o = fix(W*(1-SP)) ) .
L :≜ Noisy Signal Length
Số Segment có thể được tính dựa vào công thức sau:
Number of noisy signal Segments =
(LengthSignal - WindowLength)/(Shift Percentage* WindowLength) + 1 (1)
Dấu ▪ để chỉ là lấy giá trị nguyên nhỏ hơn và gần kết quả nhất.
Khi tín hiệu được phân tích thành các Segment liên tục, thì trong từng Segment, tín
hiệu của chúng ta sẽ biến đổi chậm và nó được xem là tĩnh ( trạng thái dừng ). Khi đó các
thuật toán xử lý triệt nhiễu trong tín hiệu mới có thể thực hiện được một cách hiệu quả.
Cách phân tích tín hiệu được sử dụng là nhân với hàm cửa sổ , mỗi vector Segment có
kích thước WindowLength sau khi phân tích sẽ được lưu vào 1 cột của ma trận, vậy ma
trậThao M. Hoang n Segment sẽ có kích thước WindowLength x NumberOfSegments.