Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng đường bao phổ và phương pháp phân cụm K-MEANS
Nội dung xem thử
Mô tả chi tiết
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn | 80
TÌM KIẾM ÂM NHẠC THEO NỘI DUNG SỬ DỤNG ĐẶC TRƢNG ĐƢỜNG BAO PHỔ
VÀ PHƢƠNG PHÁP PHÂN CỤM K-MEANS
Phùng Thị Thu Hiền1
, Vũ Tất Thắng2
,
Thái Quang Vinh2
, Nguyễn Văn Huy1
1
Trường Đại học Kỹ thuật Công nghiệp – ĐH Thái Nguyên,
2Viện Công nghệ thông tin - Viện KHCN Việt nam
TÓM TẮT
Trong các cơ sở dữ liệu đa phương tiện lớn vấn đề tìm kiếm âm nhạc theo nội dung rất quan trọng.
Tìm kiếm âm nhạc trong các cơ sở dữ liệu hiện tại thường dựa trên cơ sở tìm kiếm chỉ mục. Tuy
nhiên, việc tìm kiếm âm nhạc theo chỉ mục có nhiều nhược điểm. Nhiều khi người dùng có thể
không nhớ được các từ khóa text của bài hát như tên bài hát, tác giả, ca sĩ hoặc lời bài hát. Tìm kiếm
âm nhạc theo nội dung khắc phục được những nhược điểm này. Trong cách tiếp cận truyền thống,
các vector đặc trưng của tín hiệu âm thanh được xây dựng từ các đặc trưng vật lý của âm thanh
như độ to, độ cao, năng lượng, phổ tần số,… Gần đây, một số nghiên cứu trên thế giới tập trung
vào một cách tiếp cận khác, trong đó áp dụng các kiến thức về xử lý tín hiệu âm thanh, về phân
tích mô hình tạo âm thanh, mô hình cảm thụ âm thanh của con người có thể giúp việc tính toán
vector đặc trưng âm thanh được chính xác và hạn chế tối đa thông tin dư thừa. Bài báo này trình
bày phương pháp tìm kiếm âm nhạc theo nội dung dùng đặc trưng đường bao phổ Mel Cepstral, được
xây dựng dựa trên mô hình cảm thụ âm thanh của con ngườ, và thuật toán phân cụm K-means.
Từ khóa: Vector đặc trưng, Mel Cepstral, K-mean, MFCC.
ĐẶT VẤN ĐỀ
Tìm kiếm âm nhạc theo nội dung là một lĩnh
vực nghiên cứu mới và được nhiều nhà
nghiên cứu quan tâm. Hiện có một số phương
thức đã được áp dụng tìm kiếm âm nhạc theo
nội dung.
Theo Bel Logan [3] cấu trúc âm thanh của âm
nhạc là quan trọng. Vì vậy cần phải có một hệ
thống nhận biết độ tương tự âm thanh theo
cách gần giống như hệ thống nghe của con
người, và hệ thống thính giác của con người
dễ dàng thu và nhận dạng các nhóm âm thanh
hơn là từng nốt nhạc hay âm riêng lẻ. David
Pye [7] áp dụng phương pháp nhận dạng sự
thay đổi phổ của tiếng nói với hai kỹ thuật
chính, Gaussian Mixture Modelling (GMM) –
mô hình phân loại độ vang âm thanh và
phương thức Tree-Based Vector Quantization
(TreeQ) (Lượng tử hoá vector dựa trên cấu
trúc cây). Các kỹ thuật này yêu cầu biểu hiện
các tham số của mẫu âm thanh thành các
vector đặc trưng. Mel Frequency Cepstral
Coefficients (MFCC) - hệ số Mel được sử
Tel:0986060545, Email: [email protected]
dụng như là một hệ số cơ sở trong xử lý tiếng
nói. Những giá trị khác thể hiện một hệ thống
chỉ số dựa trên việc kết nối các đặc trưng như
là độ cao, độ to hoặc hệ số tần số Mel [9].
Foote [9] đã thiết kế một hệ thống chỉ mục âm
nhạc dựa trên biểu đồ các đặc trưng MFCC
xuất phát từ vector lượng tử hóa. Beth Logan
[3] đã thực hiện theo cách của Foote sử dụng
các biểu đồ của các đặc trưng MFCC nhưng
sử dụng thêm giải thuật phân cụm K-means.
Phương thức của ông thực hiện sau kỹ thuật
phục hồi âm thanh thực hiện bởi Liu và
Huang [11].
Trong các nghiên cứu về giác quan của con
người, phương thức sử dụng hệ số tần Mel để
biểu hiện âm thanh bằng tham số cũng đã
được chứng minh là rất thành công. MFCC
tạo ra chữ ký hay dấu riêng cho mỗi bài hát.
Việc so sánh giữa chữ ký với nội dung âm
thanh là hiệu quả, bởi vì nó không liên quan
tới dữ liệu đã được bỏ đi trong quá trình tính
toán chữ ký, kết quả là cải thiện được việc tìm
kiếm dữ liệu với tỷ lệ thiết lập dữ liệu nhỏ và
yêu cầu lưu trữ bộ nhớ nhỏ.