Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

Trang chủ

Đăng nhập

Đăng ký

Mới

Đăng ký tài khoản mới

AI Tư vấn

Mới

Trợ lý thông minh tìm tài liệu

Liên hệ fanpage

Hỗ trợ tìm tài liệu

Lưu trang

Liên hệ fanpage

Nhúng văn bản tiếng Việt trong dữ liệu audio dựa vào đặc điểm của chữ viết tiếng Việt

MIỄN PHÍ

Số trang

Kích thước

440.0 KB

Định dạng

PDF

Lượt xem

906

Tài liệu đang bị lỗi

File tài liệu này hiện đang bị hỏng, chúng tôi đang cố gắng khắc phục.

Nhúng văn bản tiếng Việt trong dữ liệu audio dựa vào đặc điểm của chữ viết tiếng Việt

Nội dung xem thử

Mô tả chi tiết

Vũ Văn Tâm và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 122(08): 53 - 58

NHÚNG VĂN BẢN TIẾNG VIỆT TRONG DỮ LIỆU AUDIO

DỰA VÀO ĐẶC ĐIỂM CỦA CHỮ VIẾT TIẾNG VIỆT

Vũ Văn Tâm1*, Phan Trọng Hanh2

1Đại học Kỹ thuật – Hậu cần CAND (Bộ Công an), 2Học viện Kỹ thuật Quân sự (Bộ Quốc phòng)

TÓM TẮT

Các bài toán nhúng văn bản tiếng Việt trong dữ liệu audio đều phải giải quyết hai vấn đề liên quan,

đó là tăng hiệu quả nhúng và bảo mật nội dung tin nhúng. Chúng tôi giải quyết bài toán này bằng

cách phân tích đặc điểm của chữ viết tiếng Việt; từ đó xây dựng khóa mã, dùng để mã hóa và nén

văn bản tiếng Việt trước khi thực hiện nhúng. Kết quả thử nghiệm với các văn bản tiếng Việt

thông dụng, cho thấy số bit tin cần nhúng giảm đáng kể so với phương pháp nhúng thông thường;

đồng thời nội dung văn bản nhúng được bảo mật.

Từ khóa: Nhúng văn bản; nhúng dữ liệu; mã hóa văn bản; nén văn bản; nhúng audio

ĐẶT VẤN ĐỀ*

Nhúng văn bản tiếng Việt trong dữ liệu audio

là một trong những bài toán cơ bản nhất của

kỹ thuật giấu tín hiệu trong dữ liệu số. Hiện

nay, đã có nhiều phương pháp tiếp cận khác

nhau như: Phương pháp nhúng LSB (Least

Significant Bit) [2], [4], [5]; Mã hóa Parity

(Parity Coding) [2], [4]; Mã hóa Phase (Phase

Coding) [2], [5]; Ứng dụng kỹ thuật trải phổ

[1], [2]; Kỹ thuật mã hóa echo [2], [6]. Các

phương pháp nêu trên tập trung chủ yếu vào

xây dựng thuật toán nhúng tin nhằm bảo đảm

tin nhúng được ổn định.

Việc kết hợp giữa nhúng tin với nén và mã

hóa tin có thể sẽ tăng được hiệu quả nhúng và

bảo mật được tin cần nhúng. Trên cơ sở

nghiên cứu về đặc điểm của chữ viết tiếng

Việt, từ đó xây dựng các khóa mã dùng để

nén và mã hóa chữ viết tiếng Việt trước khi

thực hiện nhúng vào dữ liệu audio.

Với cách tiếp cận như trên, bài báo được trình

bày theo thứ tự sau: Đặc điểm chữ viết tiếng

Việt; Xây dựng mô hình; Xây dựng các thuật

toán; Thử nghiệm và đánh giá và cuối cùng là

phần kết luận.

ĐẶC ĐIỂM CHỮ VIẾT TIẾNG VIỆT

Bộ chữ viết tiếng Việt được chia làm 2 loại:

Chữ số (từ 0 đến 9), là loại không có dấu,

* Tel: 0168975888;, Email: [email protected]

chúng có thể kết hợp với nhau để tạo thành các

giá trị số lớn hơn; Chữ cái bao gồm 3 thành

phần chính, đó là: Thành phần phụ âm (b c t v

d s w x đ g r f z y j h q p n m l k tr qu ch th kh

nh gi ng ngh gh ph); Thành phần nguyên âm (a

ă â an ăn ân am ăm âm au âu ai ao ac ăc âc at

ăt ât ach anh ang ăng âng ap ăp âp ay ây o ô ơ

on ôn ơn om ôm ơm oc ôc owc ot ôt ơt op ôp

ơp oat oăt oen oam oan oăn oanh oap oăc oa

oet oac oai oi ôi ơi oe oach ông ôc oang ong

ông oay u ư ut ưt uc ưc ươn uây ua ưa uyêt

uêch uênh ương uông um ưm un ưn ưng uya

ươm uôm uen uôn uyên uyt ươn ui ưi ươu e ê

en ên em êm et êt ep êp ec êc êu eo eng êng

ênh êch i it in im ip iu ia inh ing iêng iêp iêc iêt

iên iêm iêu ich yêt yêu yên ; / . = ? % ~ ! @ # $

^ & * ( ) - + “ | \ [ ] { }) và thành phần dấu

(không dấu, nặng, huyền, sắc, hỏi và ngã).

Nếu coi chữ số là phụ âm thì tổng số phụ âm

là 10 + 33 = 43, tổng số nguyên âm là 185 và

tổng số dấu là 6. Do vậy, số phụ âm, nguyên

âm và dấu là hữu hạn và chúng ta hoàn toàn

có thể biết trước.

Với phương pháp nhúng văn bản tiếng Việt

thông thường, mỗi ký tự sẽ được mã hóa

thành 8 bit, ví dụ chữ “Nguyễn” gồm 6 ký tự

sẽ được mã hóa thành

6 8 48

[bit]. Nếu

chúng ta thực hiện tách riêng phụ âm, nguyên

âm và dấu; sau đó mã hóa thì số bit sẽ là: Phụ

âm “Ng” =

[bit], nguyên âm “uyên” =

[bit] và dấu “ ” =

[bit], khi đó tổng số

Tài liệu tương tự (6)

Xem tất cả

PREMIUM

11655 lượt xem

Những văn bản pháp quy của việt nam liên quan đến chương trình xoá đói giảm nghèo ở nước ta và xoá

Xem chi tiết

MIỄN PHÍ

1554 lượt xem

Những văn bản nổi bật về kế toán, thuế tháng 9 năm 2016

Xem chi tiết

MIỄN PHÍ

0 lượt xem

NHỮNG VĂN BẢN ÁP DỤNG TRONG BÀI VIẾT LIÊN QUAN ĐẾN VIỆC CHUYỂN ĐỔI CÔNG TY NHÀ NƯỚC THÀNH CÔNG TY

Xem chi tiết

Tải ngay đi em, còn do dự, trời tối mất!

Thư viện tri thức trực tuyến

Tài liệu đang bị lỗi

Nhúng văn bản tiếng Việt trong dữ liệu audio dựa vào đặc điểm của chữ viết tiếng Việt

Nội dung xem thử

Mô tả chi tiết

Tài liệu tương tự (6)

Những văn bản mới hướng dẫn thi hành bộ luật lao động

Những văn bản về Thuế và kế toán cập nhật đến tháng 10-2018.

Những văn bản nổi bật về Lương, Bảo hiểm, Phí - Lệ phí

Những văn bản pháp quy của việt nam liên quan đến chương trình xoá đói giảm nghèo ở nước ta và xoá

Những văn bản nổi bật về kế toán, thuế tháng 9 năm 2016

NHỮNG VĂN BẢN ÁP DỤNG TRONG BÀI VIẾT LIÊN QUAN ĐẾN VIỆC CHUYỂN ĐỔI CÔNG TY NHÀ NƯỚC THÀNH CÔNG TY