Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

So sánh đánh giá các thuật toán phân tách ảnh tài liệu
Nội dung xem thử
Mô tả chi tiết
Hà Đại Tôn và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 120(06): 3 - 8
3
SO SÁNH ĐÁNH GIÁ CÁC THUẬT TOÁN PHÂN TÁCH ẢNH TÀI LIỆU
Hà Đại Tôn1*
, Lê Đức Hiếu2
, Nguyễn Đức Dũng2
1
Trường THPT Chuyên Hạ Long - Quảng Ninh,
2 Viện Công nghệ thông tin -Viện Hàn lâm Khoa học và Công nghệ Việt Nam
TÓM TẮT
Hiện nay, đã có nhiều kết quả đánh giá các thuật toán phân tách trang ảnh tài liệu trên các tập dữ
liệu tiếng Anh, tuy nhiên chƣa có một đánh giá nào đƣợc thực hiện trên tập dữ liệu tiếng Việt.
Trong bài báo này, chúng tôi tiến hành đánh giá ba thuật toán phân tách trang ảnh tài liệu tiêu biểu:
RAST, Docstrum và Tab-Stop trên tập dữ liệu chuẩn PRImA và tập dữ liệu tiếng Việt. Kết quả
đánh giá cho thấy: thuật toán Tab-Stop có độ chính xác cao nhất trên tập dữ liệu PRImA; thuật
toán Docstrum có độ chính xác cao nhất trên tập dữ liệu tiếng Việt; thuật toán RAST có độ chính
xác thấp nhất trên cả hai tập dữ liệu.
Từ khóa: Đánh giá, phân tách, thước đo độ chính xác, tách khối, gộp khối, Mahattan, nonMahattan
GIỚI THIỆU*
Phân tích cấu trúc trang ảnh tài liệu
(document layout analysis) là một trong
những thành phần chính của các hệ thống
nhận dạng chữ (optical character recognition -
OCR), số hóa tài liệu, nhập liệu tự động… và
nhiều ứng dụng khác thị giác máy tính
(computer vision), nhiệm vụ của phân tích
cấu trúc trang bao gồm việc tự động phát hiện
những vùng ảnh có trên một trang ảnh tài liệu
(cấu trúc vật lý) và phân loại chúng thành
những vùng dữ liệu khác nhau nhƣ: vùng chữ,
ảnh, bảng biểu, header, footer…(cấu trúc
logic)[12]. Kết quả phân tích trên đƣợc sử
dụng nhƣ một thông tin đầu vào cho quá trình
nhận dạng và nhập liệu tự động của các hệ
thống xử lý ảnh tài liệu (document imaging)
nói chung.
So với phân tích cấu trúc logic thì phân tích
cấu trúc vật lý (hay phân tách - page
segmentation) trang ảnh tài liệu thu hút đƣợc
nhiều sự quan tâm của các nhà nghiên cứu
hơn do tính chất đa dạng và phức tạp của cấu
trúc các loại văn bản khác nhau. Không chỉ
các đặc trƣng văn bản nhƣ sách, báo, tạp chí,
báo cáo… mà còn có các yếu tố biên tập nhƣ
cỡ và kiểu chữ, cách trình bày, các ràng buộc
về căn chỉnh trang… có thể ảnh hƣởng đến
khả năng phát hiện và phân tích chính xác của
*
Tel: 01234 981188, Email: [email protected]
các thuật toán, hơn thế nữa việc đánh giá các
thuật toán phân tách trang cũng là quá trình
phức tạp, khó khăn và tốn nhiều công sức.
Theo sự hiểu biết của chúng tôi đã có nhiều
đề xuất sử dụng các độ đo khác nhau và có
nhiều bộ dữ liệu đƣợc chuẩn bị sẵn (groundtruth data sets) dùng trong việc đánh giá và
phân tích các thuật toán [3]. Tuy nhiên, do
các thuật toán và bộ dữ liệu đƣợc nghiên cứu
và chuẩn bị trong các thời điểm khác nhau,
đồng thời những phân tích đánh giá đƣợc đƣa
ra dƣới quan điểm của các tác giả khác nhau
nên các nghiên cứu trƣớc đây, ví dụ nhƣ [8],
hoặc là không thống nhất (dựa trên các độ đo
khác nhau), hoặc là khó có thể so sánh trực
tiếp đƣợc với nhau do đƣợc đánh giá trên các
bộ dữ liệu khác nhau.
Trong nghiên cứu này chúng tôi tiến hành
phân tích và so sánh các độ đo và các bộ dữ
liệu phổ biến đƣợc sử dụng trong việc đánh
giá các thuật toán phân tách trang ảnh tài liệu.
Dựa trên những phân tích và kết quả thực
nghiệm, chúng tôi đề xuất và sử dụng một
cách thống nhất phƣơng pháp đánh giá dựa
trên vùng văn bản có hình dạng bất kỳ (nonmahatan) trong quá trình chuẩn bị dữ liệu và
đánh giá so sánh các thuật toán phân tách
trang. Nội dung nghiên cứu thứ hai của chúng
tôi là tiến hành đánh giá và phân tích ba thuật
toán phân tích trang tiêu biểu (state-of-the-art)
là Docstrum [13], RAST [4] và Tab-Stop [16]