Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nhúng văn bản tiếng Việt trong dữ liệu audio dựa vào đặc điểm của chữ viết tiếng Việt
MIỄN PHÍ
Số trang
6
Kích thước
440.0 KB
Định dạng
PDF
Lượt xem
1802

Nhúng văn bản tiếng Việt trong dữ liệu audio dựa vào đặc điểm của chữ viết tiếng Việt

Nội dung xem thử

Mô tả chi tiết

Vũ Văn Tâm và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 122(08): 53 - 58

53

NHÚNG VĂN BẢN TIẾNG VIỆT TRONG DỮ LIỆU AUDIO

DỰA VÀO ĐẶC ĐIỂM CỦA CHỮ VIẾT TIẾNG VIỆT

Vũ Văn Tâm1*, Phan Trọng Hanh2

1Đại học Kỹ thuật – Hậu cần CAND (Bộ Công an), 2Học viện Kỹ thuật Quân sự (Bộ Quốc phòng)

TÓM TẮT

Các bài toán nhúng văn bản tiếng Việt trong dữ liệu audio đều phải giải quyết hai vấn đề liên quan,

đó là tăng hiệu quả nhúng và bảo mật nội dung tin nhúng. Chúng tôi giải quyết bài toán này bằng

cách phân tích đặc điểm của chữ viết tiếng Việt; từ đó xây dựng khóa mã, dùng để mã hóa và nén

văn bản tiếng Việt trước khi thực hiện nhúng. Kết quả thử nghiệm với các văn bản tiếng Việt

thông dụng, cho thấy số bit tin cần nhúng giảm đáng kể so với phương pháp nhúng thông thường;

đồng thời nội dung văn bản nhúng được bảo mật.

Từ khóa: Nhúng văn bản; nhúng dữ liệu; mã hóa văn bản; nén văn bản; nhúng audio

ĐẶT VẤN ĐỀ*

Nhúng văn bản tiếng Việt trong dữ liệu audio

là một trong những bài toán cơ bản nhất của

kỹ thuật giấu tín hiệu trong dữ liệu số. Hiện

nay, đã có nhiều phương pháp tiếp cận khác

nhau như: Phương pháp nhúng LSB (Least

Significant Bit) [2], [4], [5]; Mã hóa Parity

(Parity Coding) [2], [4]; Mã hóa Phase (Phase

Coding) [2], [5]; Ứng dụng kỹ thuật trải phổ

[1], [2]; Kỹ thuật mã hóa echo [2], [6]. Các

phương pháp nêu trên tập trung chủ yếu vào

xây dựng thuật toán nhúng tin nhằm bảo đảm

tin nhúng được ổn định.

Việc kết hợp giữa nhúng tin với nén và mã

hóa tin có thể sẽ tăng được hiệu quả nhúng và

bảo mật được tin cần nhúng. Trên cơ sở

nghiên cứu về đặc điểm của chữ viết tiếng

Việt, từ đó xây dựng các khóa mã dùng để

nén và mã hóa chữ viết tiếng Việt trước khi

thực hiện nhúng vào dữ liệu audio.

Với cách tiếp cận như trên, bài báo được trình

bày theo thứ tự sau: Đặc điểm chữ viết tiếng

Việt; Xây dựng mô hình; Xây dựng các thuật

toán; Thử nghiệm và đánh giá và cuối cùng là

phần kết luận.

ĐẶC ĐIỂM CHỮ VIẾT TIẾNG VIỆT

Bộ chữ viết tiếng Việt được chia làm 2 loại:

Chữ số (từ 0 đến 9), là loại không có dấu,

* Tel: 0168975888;, Email: [email protected]

chúng có thể kết hợp với nhau để tạo thành các

giá trị số lớn hơn; Chữ cái bao gồm 3 thành

phần chính, đó là: Thành phần phụ âm (b c t v

d s w x đ g r f z y j h q p n m l k tr qu ch th kh

nh gi ng ngh gh ph); Thành phần nguyên âm (a

ă â an ăn ân am ăm âm au âu ai ao ac ăc âc at

ăt ât ach anh ang ăng âng ap ăp âp ay ây o ô ơ

on ôn ơn om ôm ơm oc ôc owc ot ôt ơt op ôp

ơp oat oăt oen oam oan oăn oanh oap oăc oa

oet oac oai oi ôi ơi oe oach ông ôc oang ong

ông oay u ư ut ưt uc ưc ươn uây ua ưa uyêt

uêch uênh ương uông um ưm un ưn ưng uya

ươm uôm uen uôn uyên uyt ươn ui ưi ươu e ê

en ên em êm et êt ep êp ec êc êu eo eng êng

ênh êch i it in im ip iu ia inh ing iêng iêp iêc iêt

iên iêm iêu ich yêt yêu yên ; / . = ? % ~ ! @ # $

^ & * ( ) - + “ | \ [ ] { }) và thành phần dấu

(không dấu, nặng, huyền, sắc, hỏi và ngã).

Nếu coi chữ số là phụ âm thì tổng số phụ âm

là 10 + 33 = 43, tổng số nguyên âm là 185 và

tổng số dấu là 6. Do vậy, số phụ âm, nguyên

âm và dấu là hữu hạn và chúng ta hoàn toàn

có thể biết trước.

Với phương pháp nhúng văn bản tiếng Việt

thông thường, mỗi ký tự sẽ được mã hóa

thành 8 bit, ví dụ chữ “Nguyễn” gồm 6 ký tự

sẽ được mã hóa thành

6 8 48

[bit]. Nếu

chúng ta thực hiện tách riêng phụ âm, nguyên

âm và dấu; sau đó mã hóa thì số bit sẽ là: Phụ

âm “Ng” =

a

[bit], nguyên âm “uyên” =

b

[bit] và dấu “ ” =

c

[bit], khi đó tổng số

Tải ngay đi em, còn do dự, trời tối mất!