Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng tần số cơ bản F0 và giải thuật thời gian động DTW
Nội dung xem thử
Mô tả chi tiết
Phùng Thị Thu Hiền và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 61(12/2): 55 - 59
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.Lrc-tnu.edu.vn
55
TÌM KIẾM ÂM NHẠC THEO NỘI DUNG SỬ DỤNG ĐẶC TRƢNG TẦN SỐ
CƠ BẢN F0 VÀ GIẢI THUẬT THỜI GIAN ĐỘNG DTW
Phùng Thị Thu Hiền1*
, Thái Quang Vinh2
, Phùng Trung Nghĩa3
,Lê Tuấn Anh4
1Đại học Kỹ thuật Công nghiệp Thái Nguyên, 2Viện Công nghệ thông tin, Viện KHCN Việt nam,
3
Japan Advanced Institute of Science and Technology, 4Khoa Công nghệ thông tin, Đại học Thái Nguyên
TÓM TẮT
Việc tìm kiếm bài hát trong một cơ sở dữ liệu là một vấn đề hấp dẫn đƣợc một số nhà nghiên cứu
quan tâm trong thời gian gần đây. Tìm kiếm âm nhạc trong các cơ sở dữ liệu hiện tại thƣờng dựa
trên cơ sở tìm kiếm chỉ mục. Tuy nhiên, việc tìm kiếm âm nhạc theo chỉ mục có nhiều nhƣợc
điểm.Với một từ khoá sử dụng khi tìm kiếm thì kết quả trả về của các truy vấn dựa trên text là một
xâu dữ liệu. Mặt khác, đôi khi ngƣời dùng có thể quên tên hoặc nhớ không chính xác tên bài hát, lời
bài hát, tác giả bài hát. Với cùng một bài hát, hoặc các bài hát tƣơng tự nhau nhƣng do các ca sĩ
khác nhau hát thì kết quả tìm kiếm có thể là khác nhau. Tìm kiếm bài hát theo nội dung khắc phục
đƣợc những nhƣợc điểm này. Trong các cơ sở dữ liệu đa phƣơng tiện lớn thì vấn đề tìm kiếm âm
nhạc theo nội dung trở nên rất quan trọng. Bài báo này trình bày phƣơng pháp tìm kiếm âm nhạc
theo nội dung dùng đặc trƣng dùng tần số cơ bản F0 và giải thuật thời gian động DTW.
Từ khóa: Giải thuật thời gian động, Cao độ Pitch.
ĐẶT VẤN ĐỀ
Tìm kiếm âm nhạc theo nội dung là một lĩnh
vực nghiên cứu mới và đƣợc nhiều nhà
nghiên cứu quan tâm. Hiện có một số phƣơng
thức đã đƣợc áp dụng tìm kiếm âm nhạc theo
nội dung. Một số nhà nghiên cứu nhƣ
S.Blackburn, D.DeRoure [4] đã sử dụng kỹ
thuật ƣớc lƣợng cao độ Pitch để xác định giai
điệu của đoạn nhạc và sử dụng Pitch làm tham
số đặc trƣng cho hệ thống tìm kiếm âm nhạc
theo nội dung. Tƣơng tự, Mc Nab và các cộng
sự [5] đã sử dụng phƣơng thức tính toán giai
điệu bằng cách ƣớc tần số cơ bản F0 để so
sánh giữa các bản phiên âm của mỗi bài hát.
Ghias và các cộng sự [6] đã giới thiệu các
phƣơng pháp so khớp độ tƣơng tự sử dụng để
đƣa ra kết quả truy vấn cơ sở dữ liệu âm nhạc.
Tuy nhiên, theo kết quả nghiên cứu của Beth
Logan [8] thì các phƣơng pháp tìm kiếm âm
nhạc theo nội dung hiện nay vẫn chƣa đảm
bảo đƣợc cả độ chính xác và thời gian tính
toán, đặc biệt khi tìm kiếm giai điệu của các
bản nhạc hoàn chỉnh trong hệ cơ sở dữ liệu
lớn. Bài báo này trình bày phƣơng pháp
dùng tham số tần số cơ bản F0 để trích chọn
đặc trƣng âm thanh, sau đó dùng giải thuật
thời gian động DTW (Dynamic Time
Tel: 0986060545, Email: [email protected]
Wraping) để phân lớp dữ liệu và đƣa ra các
kết quả thực nghiệm.
CƠ SỞ LÝ THUYẾT
Trích chọn đặc trƣng âm thanh sử dụng
tần số cơ bản F0 (Pitch)
Cao độ (Pitch) là thuộc tính cơ bản của tiếng
nói và âm thanh nói chung. Chu kỳ Pitch là
đại lƣợng đƣợc xác định trên miền thời gian
và tỉ lệ nghịch với tần số cơ bản F0 là đại
lƣợng xác định trên miền tần số. Có rất nhiều
thuật toán và phƣơng pháp ƣớc lƣợng Pitch.
Các thuật toán ƣớc lƣợng Pitch cố gắng để
định vị trực tiếp chu kỳ Pitch trong miền thời
gian hoặc thông qua ƣớc lƣợng tần số cơ bản
F0 trên miền tần số của tín hiệu âm thanh.
Phƣơng pháp ƣớc lƣợng Pitch phổ biến nhất
là sử dụng hàm tự tƣơng quan ACF
(AutoCorrelation Function). Ý nghĩa tƣơng
quan giữa hai tín hiệu là đo độ tƣơng tự giữa
chúng và tự tƣơng quan là đo độ tƣơng tự của
một tín hiệu và biến đổi theo thời gian của
chính nó. Hàm tự tƣơng quan trong một
khoảng thời gian hữu hạn, của một tín hiệu
rời rạc theo thời gian s(n) có thể đƣợc biểu
diễn là:
N k
m
r k s m s m k
1
0
( ) ( ) ( ) (1)
k là độ trễ và N là độ dài đoạn, s(m) = 0 ngoài miền.