Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng tần số cơ bản F0 và giải thuật thời gian động DTW
MIỄN PHÍ
Số trang
5
Kích thước
276.3 KB
Định dạng
PDF
Lượt xem
1282

Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng tần số cơ bản F0 và giải thuật thời gian động DTW

Nội dung xem thử

Mô tả chi tiết

Phùng Thị Thu Hiền và cs Tạp chí KHOA HỌC & CÔNG NGHỆ 61(12/2): 55 - 59

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.Lrc-tnu.edu.vn

55

TÌM KIẾM ÂM NHẠC THEO NỘI DUNG SỬ DỤNG ĐẶC TRƢNG TẦN SỐ

CƠ BẢN F0 VÀ GIẢI THUẬT THỜI GIAN ĐỘNG DTW

Phùng Thị Thu Hiền1*

, Thái Quang Vinh2

, Phùng Trung Nghĩa3

,Lê Tuấn Anh4

1Đại học Kỹ thuật Công nghiệp Thái Nguyên, 2Viện Công nghệ thông tin, Viện KHCN Việt nam,

3

Japan Advanced Institute of Science and Technology, 4Khoa Công nghệ thông tin, Đại học Thái Nguyên

TÓM TẮT

Việc tìm kiếm bài hát trong một cơ sở dữ liệu là một vấn đề hấp dẫn đƣợc một số nhà nghiên cứu

quan tâm trong thời gian gần đây. Tìm kiếm âm nhạc trong các cơ sở dữ liệu hiện tại thƣờng dựa

trên cơ sở tìm kiếm chỉ mục. Tuy nhiên, việc tìm kiếm âm nhạc theo chỉ mục có nhiều nhƣợc

điểm.Với một từ khoá sử dụng khi tìm kiếm thì kết quả trả về của các truy vấn dựa trên text là một

xâu dữ liệu. Mặt khác, đôi khi ngƣời dùng có thể quên tên hoặc nhớ không chính xác tên bài hát, lời

bài hát, tác giả bài hát. Với cùng một bài hát, hoặc các bài hát tƣơng tự nhau nhƣng do các ca sĩ

khác nhau hát thì kết quả tìm kiếm có thể là khác nhau. Tìm kiếm bài hát theo nội dung khắc phục

đƣợc những nhƣợc điểm này. Trong các cơ sở dữ liệu đa phƣơng tiện lớn thì vấn đề tìm kiếm âm

nhạc theo nội dung trở nên rất quan trọng. Bài báo này trình bày phƣơng pháp tìm kiếm âm nhạc

theo nội dung dùng đặc trƣng dùng tần số cơ bản F0 và giải thuật thời gian động DTW.

Từ khóa: Giải thuật thời gian động, Cao độ Pitch.

ĐẶT VẤN ĐỀ

Tìm kiếm âm nhạc theo nội dung là một lĩnh

vực nghiên cứu mới và đƣợc nhiều nhà

nghiên cứu quan tâm. Hiện có một số phƣơng

thức đã đƣợc áp dụng tìm kiếm âm nhạc theo

nội dung. Một số nhà nghiên cứu nhƣ

S.Blackburn, D.DeRoure [4] đã sử dụng kỹ

thuật ƣớc lƣợng cao độ Pitch để xác định giai

điệu của đoạn nhạc và sử dụng Pitch làm tham

số đặc trƣng cho hệ thống tìm kiếm âm nhạc

theo nội dung. Tƣơng tự, Mc Nab và các cộng

sự [5] đã sử dụng phƣơng thức tính toán giai

điệu bằng cách ƣớc tần số cơ bản F0 để so

sánh giữa các bản phiên âm của mỗi bài hát.

Ghias và các cộng sự [6] đã giới thiệu các

phƣơng pháp so khớp độ tƣơng tự sử dụng để

đƣa ra kết quả truy vấn cơ sở dữ liệu âm nhạc.

Tuy nhiên, theo kết quả nghiên cứu của Beth

Logan [8] thì các phƣơng pháp tìm kiếm âm

nhạc theo nội dung hiện nay vẫn chƣa đảm

bảo đƣợc cả độ chính xác và thời gian tính

toán, đặc biệt khi tìm kiếm giai điệu của các

bản nhạc hoàn chỉnh trong hệ cơ sở dữ liệu

lớn. Bài báo này trình bày phƣơng pháp

dùng tham số tần số cơ bản F0 để trích chọn

đặc trƣng âm thanh, sau đó dùng giải thuật

thời gian động DTW (Dynamic Time

Tel: 0986060545, Email: [email protected]

Wraping) để phân lớp dữ liệu và đƣa ra các

kết quả thực nghiệm.

CƠ SỞ LÝ THUYẾT

Trích chọn đặc trƣng âm thanh sử dụng

tần số cơ bản F0 (Pitch)

Cao độ (Pitch) là thuộc tính cơ bản của tiếng

nói và âm thanh nói chung. Chu kỳ Pitch là

đại lƣợng đƣợc xác định trên miền thời gian

và tỉ lệ nghịch với tần số cơ bản F0 là đại

lƣợng xác định trên miền tần số. Có rất nhiều

thuật toán và phƣơng pháp ƣớc lƣợng Pitch.

Các thuật toán ƣớc lƣợng Pitch cố gắng để

định vị trực tiếp chu kỳ Pitch trong miền thời

gian hoặc thông qua ƣớc lƣợng tần số cơ bản

F0 trên miền tần số của tín hiệu âm thanh.

Phƣơng pháp ƣớc lƣợng Pitch phổ biến nhất

là sử dụng hàm tự tƣơng quan ACF

(AutoCorrelation Function). Ý nghĩa tƣơng

quan giữa hai tín hiệu là đo độ tƣơng tự giữa

chúng và tự tƣơng quan là đo độ tƣơng tự của

một tín hiệu và biến đổi theo thời gian của

chính nó. Hàm tự tƣơng quan trong một

khoảng thời gian hữu hạn, của một tín hiệu

rời rạc theo thời gian s(n) có thể đƣợc biểu

diễn là:

 

 

N k

m

r k s m s m k

1

0

( ) ( ) ( ) (1)

k là độ trễ và N là độ dài đoạn, s(m) = 0 ngoài miền.

Tải ngay đi em, còn do dự, trời tối mất!