Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nét âm thanh thoại dựa vào ngưỡng nghe tuyệt đối và phân bố dải tới hạn của tai người
Nội dung xem thử
Mô tả chi tiết
Nguyễn Xuân Trường Tạp chí KHOA HỌC & CÔNG NGHỆ 135(05): 39 - 44
39
NÉN ÂM THANH THOẠI DỰA VÀO
NGƯỠNG NGHE TUYỆT ĐỐI VÀ PHÂN BỐ DẢI TỚI HẠN CỦA TAI NGƯỜI
Nguyễn Xuân Trường*
Trường Cao đẳng Phát thanh-Truyền hình I
TÓM TẮT
Để tiết kiệm tần phổ, trong thông tin thoại âm thanh chỉ lấy tới 4kHz. Trong phổ tần đó, tai người
chỉ nghe được những tone có năng lượng đủ lớn, lớn hơn ngưỡng nghe tối thiểu. Hơn nữa, những
tone âm thanh yếu xuất hiện gần (cả miền tần số và miền thời gian) những tone âm thanh mạnh
đều có thể bị che khuất, tai người cũng không thể nghe được. Bài báo này đề xuất một giải pháp để
nén âm thanh thoại mà chất lượng vẫn không đổi. Cơ sở của giải pháp này dựa vào ngưỡng nghe
tuyệt đối và phân bố dải tới hạn của tai người. Dải phổ âm thanh thoại 4kHz được phân chia thành
3 dải con, mỗi dải con bao phủ một số dải tới hạn của tai người. Trong mỗi dải con loại bỏ những
thành phần tai người không nghe thấy. Những dải con có năng lượng phổ nhỏ, được mã hóa với số
lượng bít ít và ngược lại.
Từ khóa: Mã hóa băng con (SBC), Mức áp suất âm thanh (SPL), Hài âm thanh có khả năng che
(Tone Masker), Hài âm thanh bị hài khác che (Tone Maskee)
GIỚI THIỆU CHUNG*
Âm thanh thoại ở định dạng không nén, tần số
lấy mẫu 8kHz, do đó tần số cực đại của âm
thanh thoại chỉ là 4kHz. Với mã hóa 8
bít/mẫu thì tốc độ bít là 8kHz x 8bits/mẫu =
64kbps. Thực tế có nhiều thuật toán mã hóa
nén âm thanh với tỷ lệ nén khác nhau. Mã hóa
dải con là một trong những thuật toán đạt tỷ lệ
nén dữ liệu cao. Điển hình là thuật toán ứng
dụng trong chuẩn âm thanh MPEG cho tỷ lệ
nén dữ liệu lên tới 12:1 (128kbps lớp III) so
với CD (Linear PCM, tốc độ bít là 1411kbps).
Chuẩn MPEG phân chia dải tần tín hiệu âm
thanh lên đến 32 dải con. Thuật toán
ATRAC1 giảm tốc độ bít xuống còn 292kbps
(3 dải con), thuật toán ATRAC3 tốc độ bít
còn 132kbps (4 dải con), thuật toán
ATRAC3plus tốc độ bít là 64kbps (16 dải
con). Tất cả các thuật toán đều dùng phân chia
Wavelet (các hệ số phân chia đều là lũy thừa
của 2), chưa phải đã phù hợp hoàn toàn với các
đặc tính của âm thanh và của tai người.
Bài báo đề xuất một giải pháp nén âm thanh
thoại, chất lượng âm thanh vẫn không đổi. Cơ
sở của giải pháp này là loại bỏ những thành
phần âm thanh tai người không nghe thấy,
*
Tel: 0913 067429, Email: [email protected]
dựa vào ngưỡng nghe tuyệt đối và phân bố
dải tới hạn của tai người.
CƠ SỞ LÝ LUẬN VÀ THỰC TẾ
1- Ngưỡng nghe tuyệt đối: Ngưỡng nghe
tuyệt đối (absolute threshold of hearing) của
tai người mô tả mức thanh áp (sound pressure
level-SPL) nhỏ nhất mà tai người còn nghe
thấy được. Dải tần nghe thấy của tai người từ
20Hz tới 20kHz, trong khoảng này, độ nhạy
của tai người khác nhau đối với các tần số
khác nhau. Tai người chỉ nghe được những
tone âm thanh lớn hơn ngưỡng nghe tuyệt đối.
Hình 1 là ngưỡng nghe tuyệt đối của tai người
trong khoảng từ 0 đến 11,25kHz[1]
.
Những tone âm thanh nằm dưới ngưỡng
nghe, tai người không có khả năng nghe thấy.
Do vậy, khi mã hóa-nén âm thanh nói chung
và âm thanh thoại nói riêng, nên tách riêng
những thành phần tần số có biên độ phổ lớn
hơn và nhỏ hơn ngưỡng nghe tuyệt đối.
Những thành phần tần số có biên độ phổ lớn
hơn ngưỡng nghe tuyệt đối được mã hóa và
loại bỏ những thành phần tần số có biên độ
phổ nhỏ hơn ngưỡng nghe tuyệt đối.
Phổ của tín hiệu âm thanh chứa nhiều hài,
mỗi hài gọi là một tone. Căn cứ vào ngưỡng
nghe tuyệt đối, tai người nhạy nhất đối với
những tone âm thanh ở vùng tần số từ
Nitro PDF Software
100 Portable Document Lane
Wonderland
Nitro PDF Software
100 Portable Document Lane
Wonderland