Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nghiên cứu phương pháp nhận dạng phân biệt tiếng nói với âm nhạc
Nội dung xem thử
Mô tả chi tiết
Đỗ Thị Loan và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 89 - 95
89
NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DẠNG PHÂN BIỆT
TIẾNG NÓI VỚI ÂM NHẠC
Đỗ Thị Loan, Lưu Thị Liễu, Nguyễn Thị Hiền
Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên
TÓM TẮT
Tự động nhận dạng phân biệt tiếng nói với âm nhạc là công cụ quan trọng trong nhiều ứng dụng đa
phương tiện. Để nhận dạng phân biệt tiếng nói với âm nhạc, chúng tôi đã sử dụng ba đặc trưng: tần
suất vượt điểm không cao (HZCRR), tỷ lệ khung có năng lượng ngắn hạn thấp (LSTER), độ biến
thiên phổ (SF) và thuật toán sử dụng để huấn luyện cũng như nhận dạng là K-NN (K Nearest
Neighbor). Dữ liệu là các đoạn nhạc gồm nhiều thể loại từ nhạc không lời tới nhạc có lời (nhạc
Việt Nam, nhạc Rock, nhạc Pop, Đồng quê), các đoạn tiếng nói của giọng nam và nữ bằng tiếng
Việt. Trong bài báo này mục đích nghiên cứu ban đầu của chúng tôi chủ yếu là nhận dạng phân
biệt hai loại âm thanh: tiếng nói và âm nhạc với kết quả thu được có độ chính xác khá cao, với
tiếng nói có độ chính xác xấp xỉ 84%, âm nhạc là 92%. Trong tương lai chúng tôi mong muốn phát
triển hệ thống có khả năng nhận dạng phân biệt nhiều lớp âm thanh hơn.
Từ khóa: Phân biệt, tiếng nói, âm nhạc, nhạc Việt Nam, tiếng Việt.
GIỚI THIỆU
*
Nhận dạng phân biệt tiếng nói với âm nhạc là
một phần trong hệ thống phân loại âm thanh
ASC (Audio Signal Classifier) [1] hay trong
hệ thống nhận dạng các khung cảnh âm thanh
CASR (Computeral Audio Scence
Recognizer) [2], nhận dạng các chương trình
trên ti vi [3], [4], hay hệ thống phiên dịch nốt
nhạc AMTS [5]. Để xây dựng một hệ thống
hoàn chỉnh thì rất khó khăn vì âm thanh rất
phong phú, đa dạng và mỗi loại có những đặc
trưng riêng, sự kết hợp giữa chúng tạo nên vô
vàn các dạng âm thanh khác nhau, điều này
ảnh hưởng lớn đến việc phân loại các khung
cảnh âm thanh. Hầu hết các nghiên cứu nhận
dạng phân biệt các lớp âm thanh đều căn cứ
theo từng trường hợp mà bạn đưa về số lớp,
và một vài điều kiện ràng buộc khác. Chẳng
hạn phân loại âm thanh thành bốn lớp: âm
nhạc, tiếng nói, nhiễu, khoảng lặng [4], [6]
hoặc chỉ phân thành tiếng nói và âm nhạc
không thôi [3], [7].
SỰ KHÁC NHAU GIỮA TIẾNG NÓI VÀ
ÂM NHẠC
Các tín hiệu âm thanh là một tín hiệu có ý
nghĩa trong khoảng thời gian ngắn. Khi kiểm
*
Tel: 0972998865; Email:[email protected]
tra tín hiệu âm thanh trong khoảng thời gian
đủ ngắn (giữa 5 và 100msec), ta có thể nhận
thấy đặc điểm của nó là khá cụ thể. Tuy nhiên
trong thời gian dài, các đặc tính của tín hiệu
thay đổi để phản ánh đặc điểm của chuỗi tín
hiệu như một bài phát biểu hay một đoạn
nhạc. Trong phần này, chúng tôi đưa ra một
số nhận định về sự khác biệt giữa tiếng nói và
âm nhạc như sau:
- Thanh điệu: Giai điệu có ý nghĩa sự biểu
thị của dạng sóng âm thanh. Âm nhạc có xu
hướng được tạo ra từ sự đa dạng của các tần
số. Còn tiếng nói có giai điệu từ chính sắc
điệu và giọng nói của người nói.
- Chuỗi thay thế: Tiếng nói cho ta một chuỗi
các tiếng ồn, khoảng lặng xem kẽ từng đoạn
trong khi âm nhạc không có. Nói cách khác,
lời nói có tín hiệu phân phối thông qua quang
phổ ngẫu nhiên hơn so với âm nhạc.
- Băng thông: Tiếng nói thường có 90%
năng lượng tập trung ở tần số thấp hơn 4kHz
(và hạn chế đến 8kHz), trong khi âm nhạc có
thể mở rộng thông qua các giới hạn trên
khoảng 20kHz.
- Phân phối: Năng lượng của tiếng nói
thường tập trung ở tần số thấp sau đó giảm rất
nhanh trong các miền tần số cao hơn. Còn tín
hiệu âm nhạc thì trải đều hơn.