Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu
Nội dung xem thử
Mô tả chi tiết
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LÊ XUÂN LONG
NGHIÊN CỨU TRÍCH CHỌN ĐẶC TRƯNG
ỨNG DỤNG CHO TÌM KIẾM TỪ TRONG ẢNH TÀI LIỆU
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN - 2017
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LÊ XUÂN LONG
NGHIÊN CỨU TRÍCH CHỌN ĐẶC TRƯNG
ỨNG DỤNG CHO TÌM KIẾM TỪ TRONG ẢNH TÀI LIỆU
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: PGS.TS Ngô Quốc Tạo
THÁI NGUYÊN - 2017
i
LỜI CẢM ƠN
Trước hết, em xin bày tỏ lòng biết ơn sâu sắc đến thầy hướng dẫn PGS.TS
Ngô Quốc Tạo, là người trực tiếp hướng dẫn, tận tình chỉ bảo, giúp đỡ em trong quá
trình hình thành đề tài của luận văn.
Em xin trân thành cảm ơn tới tất cả các thầygiáo, cô giáo và Ban lãnh đạo trường
Đại học Công nghệ Thông tin và Truyền thông Thái Nguyên đã đem tri thức và tâm
huyết của mình để truyền đạt vốn kiến thức quý báu cho chúng em và luôn luôn tạo
mọi điều kiện tốt nhất cho chúng em trong suốt quá trình theo học tại trường.
Cám ơn đề tài Phòng thí nghiệm trọng điểm: " Nghiên cứu phương pháp
tra cứu ảnh dựa vào đa truy vấn" mã số PTNTĐ17.04 đã hỗ trợ trong thực
hiện luận văn.
Luận văn hoàn thành, ngoài sự cố gắng của bản thân còn có sự động viên, giúp
đỡ và kích lệ về tinh thần của bạn bè đồng nghiệp và gia đình giúp cho em vượt qua
những khó khăn trong thời gian thực hiện luận văn. Em xin trân thành cảm ơn tới tất cả
mọi người.
Học viên
Lê Xuân Long
ii
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, với sự hỗ trợ từ
người hướng dẫn khoa học PGS.TS NGÔ QUỐC TẠO.
Các số liệu, kết quả nêu trong luận văn là trung thực. Việc sử dụng những dữ
liệu có trong luận văn được thu thập từ các nguồn thông tin khác nhau có ghi trong
phần tài liệu tham khảo.
Thái Nguyên, tháng 12 năm 2017
Người cam đoan
Lê Xuân Long
iii
MỤC LỤC
LỜI CẢM ƠN............................................................................................................ i
LỜI CAM ĐOAN ..................................................................................................... ii
MỤC LỤC................................................................................................................ iii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT........................................ vi
DANH MỤC HÌNH VẼ ......................................................................................... vii
MỞ ĐẦU ....................................................................................................................1
1. Lý do chọn đề tài.....................................................................................................1
2. Đối tượng và phạm vi nghiên cứu...........................................................................1
3. Hướng nghiên cứu của đề tài ..................................................................................2
4. Ý nghĩa khoa học và thực tiễn của đề tài ................................................................2
5. Phương pháp nghiên cứu.........................................................................................2
CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH TÀI LIỆU..............................4
1.1. Tổng quan về tra cứu ảnh tài liệu.........................................................................4
1.1.1. Truy vấn người sử dụng ............................................................................6
1.1.2. Trích chọn đặc trưng ảnh ..........................................................................6
1.1.3. Đánh chỉ số nhiều chiều ............................................................................8
1.2. Một số khái niệm cơ bản trong xử lý ảnh ............................................................9
1.2.1. Ảnh đen trắng và ảnh màu ......................................................................13
1.2.2. Không gian màu ......................................................................................14
1.2.3. Phân tích ảnh...........................................................................................16
1.2.4.Tra cứu ảnh ..............................................................................................17
1.2.5. Nhận dạng ảnh.........................................................................................18
1.3. Tra cứu thông tin................................................................................................18
1.4. Những thách thức trong thiết kế và thực thi hệ thống tìm kiếm ảnh tài liệu .....19
1.4.1.Tốc độ tính toán .......................................................................................19
1.4.2.Các tài liệu kém chất lượng......................................................................19
1.4.3.Ngôn ngữ trong tài liệu ............................................................................19
iv
1.5. Hệ thống đề xuất ................................................................................................19
CHƯƠNG 2: MỘT SỐ VẤN ĐỀ VỀ TÌM KIẾM TỪ TRONG ẢNH TÀI LIỆU
VÀ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG..........................................22
2.1.Tiền xử lý ảnh .....................................................................................................22
2.1.1.Nhiễu ảnh và lọc nhiễu.............................................................................22
2.1.2.Chuẩn hóa kích thước ảnh........................................................................23
2.1.3.Làm trơn biên chữ....................................................................................24
2.1.4.Làm đầy chữ.............................................................................................24
2.1.5.Làm mảnh chữ..........................................................................................24
2.1.6.Điều chỉnh độ nghiêng của văn bản .........................................................25
2.2.Các phương pháp trích chọn đặc trưng cơ bản cho ảnh tài liệu..........................25
2.3.Trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu ....................29
2.3.1.Chuyển ảnh xám.......................................................................................29
2.3.2. Ảnh nhị phân, nhị phân hóa với ngưỡng động........................................30
2.3.3.Một số thao tác trên ảnh nhị phân ............................................................34
2.3.3.1. Các lân cận của điểm ảnh( Image Neighbors) .....................................34
2.3.3.2.Gán nhãn các thành phần liên thông (CCL-Connected Components
Labeling ) ..........................................................................................................35
2.3.3.3.Phân đoạn từ trong ảnh tài liệu .............................................................41
2.3.3.4. Đặc trưng về vùng của đối tượng.........................................................43
2.3.3.5. Hình chữ nhật bao và các điểm cực trị.................................................47
2.3.3.6. Moment không gian .............................................................................48
2.3.3.7. Phép chiếu ............................................................................................50
2.4. Đối sánh những đặc trưng trong hệ thống đề xuất.............................................51
2.4.1. Tỉ lệ về chiều cao và chiều rộng (Width to Height Ratio)......................51
2.4.2. Mật độ vùng của từ (Word Area Density) ..............................................51
2.4.3. Điểm trọng tâm của từ ( Center of Gravity )...........................................51
2.4.4. Phép chiếu dọc (Vertical Projection) ......................................................52
2.4.5. Phép chiếu hình dạng trên và dưới (Top – Bottom Shape Projections)..55
v
2.4.6. Những đặc trưng phần bên trên và bên dưới của từ (Upper - Down Grid
Features )...........................................................................................................56
2.5. Thực hiện công việc đối sánh trong hệ thống đề xuất ...............................58
CHƯƠNG 3: ............................................................................................................61
CHƯƠNG TRÌNH THỬ NGHIỆM TÌM KIẾM TỪ TRONG ẢNH TÀI LIỆU
TRÊN CƠ SỞ LÝ THUYẾT ĐÃ XÂY DỰNG ....................................................61
3.1.Môi trường cài đặt...............................................................................................61
3.2. Hệ thống mô tả chương trình thử nghiệm..........................................................61
3.3. Giao diện chính của chương trình tìm kiếm từ trong ảnh tài liệu ......................63
3.4. Một số kết quả....................................................................................................66
3.5. Đánh giá .............................................................................................................67
DANH MỤC TÀI LIỆU THAM KHẢO...............................................................70
vi
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
RGB Red, Green, Blue
CMY Cyan-Magenta-Yellow
CBIR Content Baased Image Retrieval
CSDL Cơ Sở Dữ Liệu