Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

So sánh hai phương pháp trích chọn đặc trưng âm thanh: đường bao phổ (MFCC) và cao độ pitch trong việc tìm kiếm âm nhạc theo nội dung
Nội dung xem thử
Mô tả chi tiết
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 33 - 38
33
SO SÁNH HAI PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG ÂM THANH:
ĐƯỜNG BAO PHỔ (MFCC) VÀ CAO ĐỘ PITCH TRONG VIỆC
TÌM KIẾM ÂM NHẠC THEO NỘI DUNG
Phùng Thị Thu Hiền
1*
, Đoàn Xuân Ngọc
2
, Phùng Trung Nghĩa
3
1
Trường Đại học Kỹ thuật Công nghiệp - ĐH Thái Nguyên
2Cục thuế tỉnh Thái Nguyên
3
Trường Đại học CNTT&TT - ĐH Thái Nguyên
TÓM TẮT
Trong cách tiếp cận truyền thống, các vector đặc trưng của tín hiệu âm thanh được xây dựng từ các
đặc trưng vật lý của âm thanh như độ to, độ cao, năng lượng, phổ tần số,… Có rất nhiều phương
pháp trích chọn đặc trưng âm thanh đã và đang được nghiên cứu để áp dụng vào bài toán tìm kiếm
âm nhạc theo nội dung. Tuy nhiên hai phương pháp phổ biến nhất và được đánh giá cao là phương
pháp sử dụng đường bao phổ (MFCC) và phương pháp sử dụng cao độ (F0).
Bài báo này nghiên cứu về hai phương pháp này đồng thời so sánh đánh giá hiệu quả của từng
phương pháp.
Từ khóa: Vector đặc trưng, Mel Cepstral, K-means, F0, pitch, DTW.
ĐẶT VẤN ĐỀ*
Hiện nay, có rất nhiều nghiên cứu về vấn đề
trích chọn đặc trưng âm thanh trong bài toán
tìm kiếm âm nhạc theo nội dung.
S.Blackburn và D.DeRoure [4] đã sử dụng kỹ
thuật hiệu chỉnh cao độ (F0) để xác định giai
điệu chính của đoạn nhạc. Trong nghiên cứu
của mình, S.Blackburn và D.DeRoure đã so
sánh tính toán độ tương tự của bài hát bằng
kỹ thuật so khớp xâu. Trong khi đó, Mc Nab,
Smith, Witten, Henderson và Cunningham [5]
đã sử dụng phương thức tính toán giai điệu
bằng cách ước lượng cao độ Pitch để so sánh
giữa các bản phiên âm của mỗi bài hát.
Tuy nhiên, theo một nghiên cứu của Beth
Logan [3] thì cấu trúc âm thanh của âm nhạc
là quan trọng. Vì vậy cần phải có một hệ
thống nhận biết độ tương tự âm thanh theo
cách gần giống như hệ thống nghe của con
người, và hệ thống thính giác của con người
dễ dàng thu và nhận dạng các nhóm âm thanh
hơn là từng nốt nhạc hay âm riêng lẻ.
Bài báo này trình bày phương pháp tìm kiếm
âm nhạc theo nội dung sử dụng theo hai đặc
trưng, thứ nhất là sử dụng đặc trưng cao độ
(Pitch) và thứ hai là sử dụng đặc trưng đường
*
Tel: 0986060545; Email: [email protected]
bao phổ (MFCC), cuối cùng là đưa ra một số
kết quả thực nghiệm để so sánh hiệu quả của
hai phương pháp.
CƠ SỞ LÝ THUYẾT
Sử dụng đặc trưng cao độ
Cao độ Pitch
Không khí đi qua thanh quản làm thanh quản
rung lên. Sự rung động này với một tỷ lệ nào
đó cũng được gọi là tần số cơ bản – f0 . Tần
số cơ bản phụ thuộc vào kích cỡ và áp lực của
thanh quản. Tần số cơ bản liên quan đến âm
thanh về cao độ và nó có thể được ước lượng
chính xác từ tín hiệu âm thanh.
Độ cao hay độ trầm bổng của âm thanh chính
là tần số sóng cơ học của âm thanh. Âm thanh
nào cũng phát ra ở một độ cao nhất định. Độ
cao của âm thanh phụ thuộc vào tần số dao
động. Đối với tiếng nói, tần số dao động của
dây thanh quy định độ cao giọng nói của con
người. Mỗi người có một cao độ giọng nói
khác nhau, độ cao của nữ giới thường cao hơn
nam giới và độ cao của trẻ em thường cao
hơn của người lớn.
Cao độ Pitch do đó là đại lượng tỷ lệ nghịch
với tần số cơ bản F0.
Pitch là thuộc tính cơ bản của tiếng nói. Tai
người nhạy cảm với sự thay đổi tần số cơ bản