Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nghiên cứu phương pháp nhận dạng phân biệt tiếng nói với âm nhạc
MIỄN PHÍ
Số trang
7
Kích thước
551.6 KB
Định dạng
PDF
Lượt xem
817

Nghiên cứu phương pháp nhận dạng phân biệt tiếng nói với âm nhạc

Nội dung xem thử

Mô tả chi tiết

Đỗ Thị Loan và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 89 - 95

89

NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DẠNG PHÂN BIỆT

TIẾNG NÓI VỚI ÂM NHẠC

Đỗ Thị Loan, Lưu Thị Liễu, Nguyễn Thị Hiền

Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên

TÓM TẮT

Tự động nhận dạng phân biệt tiếng nói với âm nhạc là công cụ quan trọng trong nhiều ứng dụng đa

phương tiện. Để nhận dạng phân biệt tiếng nói với âm nhạc, chúng tôi đã sử dụng ba đặc trưng: tần

suất vượt điểm không cao (HZCRR), tỷ lệ khung có năng lượng ngắn hạn thấp (LSTER), độ biến

thiên phổ (SF) và thuật toán sử dụng để huấn luyện cũng như nhận dạng là K-NN (K Nearest

Neighbor). Dữ liệu là các đoạn nhạc gồm nhiều thể loại từ nhạc không lời tới nhạc có lời (nhạc

Việt Nam, nhạc Rock, nhạc Pop, Đồng quê), các đoạn tiếng nói của giọng nam và nữ bằng tiếng

Việt. Trong bài báo này mục đích nghiên cứu ban đầu của chúng tôi chủ yếu là nhận dạng phân

biệt hai loại âm thanh: tiếng nói và âm nhạc với kết quả thu được có độ chính xác khá cao, với

tiếng nói có độ chính xác xấp xỉ 84%, âm nhạc là 92%. Trong tương lai chúng tôi mong muốn phát

triển hệ thống có khả năng nhận dạng phân biệt nhiều lớp âm thanh hơn.

Từ khóa: Phân biệt, tiếng nói, âm nhạc, nhạc Việt Nam, tiếng Việt.

GIỚI THIỆU

*

Nhận dạng phân biệt tiếng nói với âm nhạc là

một phần trong hệ thống phân loại âm thanh

ASC (Audio Signal Classifier) [1] hay trong

hệ thống nhận dạng các khung cảnh âm thanh

CASR (Computeral Audio Scence

Recognizer) [2], nhận dạng các chương trình

trên ti vi [3], [4], hay hệ thống phiên dịch nốt

nhạc AMTS [5]. Để xây dựng một hệ thống

hoàn chỉnh thì rất khó khăn vì âm thanh rất

phong phú, đa dạng và mỗi loại có những đặc

trưng riêng, sự kết hợp giữa chúng tạo nên vô

vàn các dạng âm thanh khác nhau, điều này

ảnh hưởng lớn đến việc phân loại các khung

cảnh âm thanh. Hầu hết các nghiên cứu nhận

dạng phân biệt các lớp âm thanh đều căn cứ

theo từng trường hợp mà bạn đưa về số lớp,

và một vài điều kiện ràng buộc khác. Chẳng

hạn phân loại âm thanh thành bốn lớp: âm

nhạc, tiếng nói, nhiễu, khoảng lặng [4], [6]

hoặc chỉ phân thành tiếng nói và âm nhạc

không thôi [3], [7].

SỰ KHÁC NHAU GIỮA TIẾNG NÓI VÀ

ÂM NHẠC

Các tín hiệu âm thanh là một tín hiệu có ý

nghĩa trong khoảng thời gian ngắn. Khi kiểm

*

Tel: 0972998865; Email:[email protected]

tra tín hiệu âm thanh trong khoảng thời gian

đủ ngắn (giữa 5 và 100msec), ta có thể nhận

thấy đặc điểm của nó là khá cụ thể. Tuy nhiên

trong thời gian dài, các đặc tính của tín hiệu

thay đổi để phản ánh đặc điểm của chuỗi tín

hiệu như một bài phát biểu hay một đoạn

nhạc. Trong phần này, chúng tôi đưa ra một

số nhận định về sự khác biệt giữa tiếng nói và

âm nhạc như sau:

- Thanh điệu: Giai điệu có ý nghĩa sự biểu

thị của dạng sóng âm thanh. Âm nhạc có xu

hướng được tạo ra từ sự đa dạng của các tần

số. Còn tiếng nói có giai điệu từ chính sắc

điệu và giọng nói của người nói.

- Chuỗi thay thế: Tiếng nói cho ta một chuỗi

các tiếng ồn, khoảng lặng xem kẽ từng đoạn

trong khi âm nhạc không có. Nói cách khác,

lời nói có tín hiệu phân phối thông qua quang

phổ ngẫu nhiên hơn so với âm nhạc.

- Băng thông: Tiếng nói thường có 90%

năng lượng tập trung ở tần số thấp hơn 4kHz

(và hạn chế đến 8kHz), trong khi âm nhạc có

thể mở rộng thông qua các giới hạn trên

khoảng 20kHz.

- Phân phối: Năng lượng của tiếng nói

thường tập trung ở tần số thấp sau đó giảm rất

nhanh trong các miền tần số cao hơn. Còn tín

hiệu âm nhạc thì trải đều hơn.

Tải ngay đi em, còn do dự, trời tối mất!