Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nhúng văn bản tiếng Việt trong dữ liệu audio dựa vào đặc điểm của chữ viết tiếng Việt
Nội dung xem thử
Mô tả chi tiết
Vũ Văn Tâm và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 122(08): 53 - 58
53
NHÚNG VĂN BẢN TIẾNG VIỆT TRONG DỮ LIỆU AUDIO
DỰA VÀO ĐẶC ĐIỂM CỦA CHỮ VIẾT TIẾNG VIỆT
Vũ Văn Tâm1*, Phan Trọng Hanh2
1Đại học Kỹ thuật – Hậu cần CAND (Bộ Công an), 2Học viện Kỹ thuật Quân sự (Bộ Quốc phòng)
TÓM TẮT
Các bài toán nhúng văn bản tiếng Việt trong dữ liệu audio đều phải giải quyết hai vấn đề liên quan,
đó là tăng hiệu quả nhúng và bảo mật nội dung tin nhúng. Chúng tôi giải quyết bài toán này bằng
cách phân tích đặc điểm của chữ viết tiếng Việt; từ đó xây dựng khóa mã, dùng để mã hóa và nén
văn bản tiếng Việt trước khi thực hiện nhúng. Kết quả thử nghiệm với các văn bản tiếng Việt
thông dụng, cho thấy số bit tin cần nhúng giảm đáng kể so với phương pháp nhúng thông thường;
đồng thời nội dung văn bản nhúng được bảo mật.
Từ khóa: Nhúng văn bản; nhúng dữ liệu; mã hóa văn bản; nén văn bản; nhúng audio
ĐẶT VẤN ĐỀ*
Nhúng văn bản tiếng Việt trong dữ liệu audio
là một trong những bài toán cơ bản nhất của
kỹ thuật giấu tín hiệu trong dữ liệu số. Hiện
nay, đã có nhiều phương pháp tiếp cận khác
nhau như: Phương pháp nhúng LSB (Least
Significant Bit) [2], [4], [5]; Mã hóa Parity
(Parity Coding) [2], [4]; Mã hóa Phase (Phase
Coding) [2], [5]; Ứng dụng kỹ thuật trải phổ
[1], [2]; Kỹ thuật mã hóa echo [2], [6]. Các
phương pháp nêu trên tập trung chủ yếu vào
xây dựng thuật toán nhúng tin nhằm bảo đảm
tin nhúng được ổn định.
Việc kết hợp giữa nhúng tin với nén và mã
hóa tin có thể sẽ tăng được hiệu quả nhúng và
bảo mật được tin cần nhúng. Trên cơ sở
nghiên cứu về đặc điểm của chữ viết tiếng
Việt, từ đó xây dựng các khóa mã dùng để
nén và mã hóa chữ viết tiếng Việt trước khi
thực hiện nhúng vào dữ liệu audio.
Với cách tiếp cận như trên, bài báo được trình
bày theo thứ tự sau: Đặc điểm chữ viết tiếng
Việt; Xây dựng mô hình; Xây dựng các thuật
toán; Thử nghiệm và đánh giá và cuối cùng là
phần kết luận.
ĐẶC ĐIỂM CHỮ VIẾT TIẾNG VIỆT
Bộ chữ viết tiếng Việt được chia làm 2 loại:
Chữ số (từ 0 đến 9), là loại không có dấu,
* Tel: 0168975888;, Email: [email protected]
chúng có thể kết hợp với nhau để tạo thành các
giá trị số lớn hơn; Chữ cái bao gồm 3 thành
phần chính, đó là: Thành phần phụ âm (b c t v
d s w x đ g r f z y j h q p n m l k tr qu ch th kh
nh gi ng ngh gh ph); Thành phần nguyên âm (a
ă â an ăn ân am ăm âm au âu ai ao ac ăc âc at
ăt ât ach anh ang ăng âng ap ăp âp ay ây o ô ơ
on ôn ơn om ôm ơm oc ôc owc ot ôt ơt op ôp
ơp oat oăt oen oam oan oăn oanh oap oăc oa
oet oac oai oi ôi ơi oe oach ông ôc oang ong
ông oay u ư ut ưt uc ưc ươn uây ua ưa uyêt
uêch uênh ương uông um ưm un ưn ưng uya
ươm uôm uen uôn uyên uyt ươn ui ưi ươu e ê
en ên em êm et êt ep êp ec êc êu eo eng êng
ênh êch i it in im ip iu ia inh ing iêng iêp iêc iêt
iên iêm iêu ich yêt yêu yên ; / . = ? % ~ ! @ # $
^ & * ( ) - + “ | \ [ ] { }) và thành phần dấu
(không dấu, nặng, huyền, sắc, hỏi và ngã).
Nếu coi chữ số là phụ âm thì tổng số phụ âm
là 10 + 33 = 43, tổng số nguyên âm là 185 và
tổng số dấu là 6. Do vậy, số phụ âm, nguyên
âm và dấu là hữu hạn và chúng ta hoàn toàn
có thể biết trước.
Với phương pháp nhúng văn bản tiếng Việt
thông thường, mỗi ký tự sẽ được mã hóa
thành 8 bit, ví dụ chữ “Nguyễn” gồm 6 ký tự
sẽ được mã hóa thành
6 8 48
[bit]. Nếu
chúng ta thực hiện tách riêng phụ âm, nguyên
âm và dấu; sau đó mã hóa thì số bit sẽ là: Phụ
âm “Ng” =
a
[bit], nguyên âm “uyên” =
b
[bit] và dấu “ ” =
c
[bit], khi đó tổng số