Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

So sánh hai phương pháp trích chọn đặc trưng âm thanh: đường bao phổ (MFCC) và cao độ pitch trong việc tìm kiếm âm nhạc theo nội dung
MIỄN PHÍ
Số trang
6
Kích thước
229.6 KB
Định dạng
PDF
Lượt xem
1477

So sánh hai phương pháp trích chọn đặc trưng âm thanh: đường bao phổ (MFCC) và cao độ pitch trong việc tìm kiếm âm nhạc theo nội dung

Nội dung xem thử

Mô tả chi tiết

Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 112(12)/2: 33 - 38

33

SO SÁNH HAI PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG ÂM THANH:

ĐƯỜNG BAO PHỔ (MFCC) VÀ CAO ĐỘ PITCH TRONG VIỆC

TÌM KIẾM ÂM NHẠC THEO NỘI DUNG

Phùng Thị Thu Hiền

1*

, Đoàn Xuân Ngọc

2

, Phùng Trung Nghĩa

3

1

Trường Đại học Kỹ thuật Công nghiệp - ĐH Thái Nguyên

2Cục thuế tỉnh Thái Nguyên

3

Trường Đại học CNTT&TT - ĐH Thái Nguyên

TÓM TẮT

Trong cách tiếp cận truyền thống, các vector đặc trưng của tín hiệu âm thanh được xây dựng từ các

đặc trưng vật lý của âm thanh như độ to, độ cao, năng lượng, phổ tần số,… Có rất nhiều phương

pháp trích chọn đặc trưng âm thanh đã và đang được nghiên cứu để áp dụng vào bài toán tìm kiếm

âm nhạc theo nội dung. Tuy nhiên hai phương pháp phổ biến nhất và được đánh giá cao là phương

pháp sử dụng đường bao phổ (MFCC) và phương pháp sử dụng cao độ (F0).

Bài báo này nghiên cứu về hai phương pháp này đồng thời so sánh đánh giá hiệu quả của từng

phương pháp.

Từ khóa: Vector đặc trưng, Mel Cepstral, K-means, F0, pitch, DTW.

ĐẶT VẤN ĐỀ*

Hiện nay, có rất nhiều nghiên cứu về vấn đề

trích chọn đặc trưng âm thanh trong bài toán

tìm kiếm âm nhạc theo nội dung.

S.Blackburn và D.DeRoure [4] đã sử dụng kỹ

thuật hiệu chỉnh cao độ (F0) để xác định giai

điệu chính của đoạn nhạc. Trong nghiên cứu

của mình, S.Blackburn và D.DeRoure đã so

sánh tính toán độ tương tự của bài hát bằng

kỹ thuật so khớp xâu. Trong khi đó, Mc Nab,

Smith, Witten, Henderson và Cunningham [5]

đã sử dụng phương thức tính toán giai điệu

bằng cách ước lượng cao độ Pitch để so sánh

giữa các bản phiên âm của mỗi bài hát.

Tuy nhiên, theo một nghiên cứu của Beth

Logan [3] thì cấu trúc âm thanh của âm nhạc

là quan trọng. Vì vậy cần phải có một hệ

thống nhận biết độ tương tự âm thanh theo

cách gần giống như hệ thống nghe của con

người, và hệ thống thính giác của con người

dễ dàng thu và nhận dạng các nhóm âm thanh

hơn là từng nốt nhạc hay âm riêng lẻ.

Bài báo này trình bày phương pháp tìm kiếm

âm nhạc theo nội dung sử dụng theo hai đặc

trưng, thứ nhất là sử dụng đặc trưng cao độ

(Pitch) và thứ hai là sử dụng đặc trưng đường

*

Tel: 0986060545; Email: [email protected]

bao phổ (MFCC), cuối cùng là đưa ra một số

kết quả thực nghiệm để so sánh hiệu quả của

hai phương pháp.

CƠ SỞ LÝ THUYẾT

Sử dụng đặc trưng cao độ

Cao độ Pitch

Không khí đi qua thanh quản làm thanh quản

rung lên. Sự rung động này với một tỷ lệ nào

đó cũng được gọi là tần số cơ bản – f0 . Tần

số cơ bản phụ thuộc vào kích cỡ và áp lực của

thanh quản. Tần số cơ bản liên quan đến âm

thanh về cao độ và nó có thể được ước lượng

chính xác từ tín hiệu âm thanh.

Độ cao hay độ trầm bổng của âm thanh chính

là tần số sóng cơ học của âm thanh. Âm thanh

nào cũng phát ra ở một độ cao nhất định. Độ

cao của âm thanh phụ thuộc vào tần số dao

động. Đối với tiếng nói, tần số dao động của

dây thanh quy định độ cao giọng nói của con

người. Mỗi người có một cao độ giọng nói

khác nhau, độ cao của nữ giới thường cao hơn

nam giới và độ cao của trẻ em thường cao

hơn của người lớn.

Cao độ Pitch do đó là đại lượng tỷ lệ nghịch

với tần số cơ bản F0.

Pitch là thuộc tính cơ bản của tiếng nói. Tai

người nhạy cảm với sự thay đổi tần số cơ bản

Tải ngay đi em, còn do dự, trời tối mất!