Tài liệu Chất lượng tiếng nói ppt

SPEECH ENHENCEMENT ALGORITHMS

FINAL PROJECT JUN-2012, DUT

ELECTRONICS AND TELECOMMUNICATION ENGINEERING

DIGITAL SIGNAL PROCESSING

MAIN REPORT

Author

Hoàng Minh Thảo

[email protected] Thao M. Hoang

1. Tổng quan về nâng cao chất lượng tiếng nói:

Tiếng nói đóng vai trò rất quan trọng trong thông tin liên lạc. Quá trình truyền

tín hiệu tiếng nói được truyền đi qua các phương tiện thông tin bị các loại nhiễu tác động

nên chất lượng bị suy giảm. Vì vậy, các thuật toán Speech Enhancement và các kĩ thuật

làm giảm nhiễu được ra đời. Trong bài Lab này ta sẽ đi nghiên cứu 2 thuật toán ước lượng

phổ để khử nhiễu kinh điển là Spectral Subtraction [1] và Wiener Filter [2]. Việc ước

lượng phổ nhiễu đòi hỏi một thuật toán VAD ( Voice Activity Detection ) để tìm khoảng

thời gian không có tiếng nói hoạt động. Ta sẽ đi phân tích từng phần theo sự phát triển của

các thuật toán và đánh giá kết quả mà các thuật toán mang lại.

1.1. Phân tích tín hiệu có nhiễu thành các segment/frame :

Tín hiệu có nhiễu được chia ra thành nhiều Segment ( hay Frame ) có chiều dài

bằng 25 ms với độ dịch là 40% của Window trên suốt chiều dài tín hiệu. Cửa sổ có thể

chọn Rectangle, Hanning, Hamming, Blackman … Việc chọn loại cửa sổ sẽ ảnh hưởng

tới việc khôi phục tín hiệu đã tăng cường sau này. Ở đây, cửa sổ được lựa chọn là

Hamming. Do Hamming là cửa sổ phi tuyến nên khi thực hiện biến đổi FFT thì vô tình đã

làm suy giảm tín hiệu , vì thế yêu cầu đặt ra là các Segment phải sắp xếp chồng lên nhau

theo 1 tỉ lệ dịch (SP) thích hợp , vùng xếp chồng giữa 2 Segment liên tục gọi là “overlap”. Thao M. Hoang

Minh họa quá trình Segmenting bằng cửa sổ rectwin

y(n) : tín hiệu có nhiễu cộng vào.

SP : shift percentage

W : Window Length

o : số mẫu ở vùng overlap ( o = fix(W*(1-SP)) ) .

L :≜ Noisy Signal Length

Số Segment có thể được tính dựa vào công thức sau:

Number of noisy signal Segments =

(LengthSignal - WindowLength)/(Shift Percentage* WindowLength) + 1 (1)

Dấu ▪ để chỉ là lấy giá trị nguyên nhỏ hơn và gần kết quả nhất.

Khi tín hiệu được phân tích thành các Segment liên tục, thì trong từng Segment, tín

hiệu của chúng ta sẽ biến đổi chậm và nó được xem là tĩnh ( trạng thái dừng ). Khi đó các

thuật toán xử lý triệt nhiễu trong tín hiệu mới có thể thực hiện được một cách hiệu quả.

Cách phân tích tín hiệu được sử dụng là nhân với hàm cửa sổ , mỗi vector Segment có

kích thước WindowLength sau khi phân tích sẽ được lưu vào 1 cột của ma trận, vậy ma

trậThao M. Hoang n Segment sẽ có kích thước WindowLength x NumberOfSegments.

Thư viện tri thức trực tuyến

Tài liệu Chất lượng tiếng nói ppt

Nội dung xem thử

Mô tả chi tiết

Tài liệu tương tự (6)

Tài liệu Chất dẻo - tơ sợi ppt

Tài liệu Chất lượng ảnh báo chí Việt Nam chưa cao pdf

Tài liệu chất thải rắn pptx

Tài liệu Chất liệu ren quyến rũ cho ngày cưới potx

Tài liệu Chất lượng lao động: Đầu tư vào vốn con người potx

Tài liệu Chất lượng nước potx