Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

So sánh đánh giá các thuật toán phân tách ảnh tài liệu
MIỄN PHÍ
Số trang
6
Kích thước
593.0 KB
Định dạng
PDF
Lượt xem
1835

So sánh đánh giá các thuật toán phân tách ảnh tài liệu

Nội dung xem thử

Mô tả chi tiết

Hà Đại Tôn và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 120(06): 3 - 8

3

SO SÁNH ĐÁNH GIÁ CÁC THUẬT TOÁN PHÂN TÁCH ẢNH TÀI LIỆU

Hà Đại Tôn1*

, Lê Đức Hiếu2

, Nguyễn Đức Dũng2

1

Trường THPT Chuyên Hạ Long - Quảng Ninh,

2 Viện Công nghệ thông tin -Viện Hàn lâm Khoa học và Công nghệ Việt Nam

TÓM TẮT

Hiện nay, đã có nhiều kết quả đánh giá các thuật toán phân tách trang ảnh tài liệu trên các tập dữ

liệu tiếng Anh, tuy nhiên chƣa có một đánh giá nào đƣợc thực hiện trên tập dữ liệu tiếng Việt.

Trong bài báo này, chúng tôi tiến hành đánh giá ba thuật toán phân tách trang ảnh tài liệu tiêu biểu:

RAST, Docstrum và Tab-Stop trên tập dữ liệu chuẩn PRImA và tập dữ liệu tiếng Việt. Kết quả

đánh giá cho thấy: thuật toán Tab-Stop có độ chính xác cao nhất trên tập dữ liệu PRImA; thuật

toán Docstrum có độ chính xác cao nhất trên tập dữ liệu tiếng Việt; thuật toán RAST có độ chính

xác thấp nhất trên cả hai tập dữ liệu.

Từ khóa: Đánh giá, phân tách, thước đo độ chính xác, tách khối, gộp khối, Mahattan, non￾Mahattan

GIỚI THIỆU*

Phân tích cấu trúc trang ảnh tài liệu

(document layout analysis) là một trong

những thành phần chính của các hệ thống

nhận dạng chữ (optical character recognition -

OCR), số hóa tài liệu, nhập liệu tự động… và

nhiều ứng dụng khác thị giác máy tính

(computer vision), nhiệm vụ của phân tích

cấu trúc trang bao gồm việc tự động phát hiện

những vùng ảnh có trên một trang ảnh tài liệu

(cấu trúc vật lý) và phân loại chúng thành

những vùng dữ liệu khác nhau nhƣ: vùng chữ,

ảnh, bảng biểu, header, footer…(cấu trúc

logic)[12]. Kết quả phân tích trên đƣợc sử

dụng nhƣ một thông tin đầu vào cho quá trình

nhận dạng và nhập liệu tự động của các hệ

thống xử lý ảnh tài liệu (document imaging)

nói chung.

So với phân tích cấu trúc logic thì phân tích

cấu trúc vật lý (hay phân tách - page

segmentation) trang ảnh tài liệu thu hút đƣợc

nhiều sự quan tâm của các nhà nghiên cứu

hơn do tính chất đa dạng và phức tạp của cấu

trúc các loại văn bản khác nhau. Không chỉ

các đặc trƣng văn bản nhƣ sách, báo, tạp chí,

báo cáo… mà còn có các yếu tố biên tập nhƣ

cỡ và kiểu chữ, cách trình bày, các ràng buộc

về căn chỉnh trang… có thể ảnh hƣởng đến

khả năng phát hiện và phân tích chính xác của

*

Tel: 01234 981188, Email: [email protected]

các thuật toán, hơn thế nữa việc đánh giá các

thuật toán phân tách trang cũng là quá trình

phức tạp, khó khăn và tốn nhiều công sức.

Theo sự hiểu biết của chúng tôi đã có nhiều

đề xuất sử dụng các độ đo khác nhau và có

nhiều bộ dữ liệu đƣợc chuẩn bị sẵn (ground￾truth data sets) dùng trong việc đánh giá và

phân tích các thuật toán [3]. Tuy nhiên, do

các thuật toán và bộ dữ liệu đƣợc nghiên cứu

và chuẩn bị trong các thời điểm khác nhau,

đồng thời những phân tích đánh giá đƣợc đƣa

ra dƣới quan điểm của các tác giả khác nhau

nên các nghiên cứu trƣớc đây, ví dụ nhƣ [8],

hoặc là không thống nhất (dựa trên các độ đo

khác nhau), hoặc là khó có thể so sánh trực

tiếp đƣợc với nhau do đƣợc đánh giá trên các

bộ dữ liệu khác nhau.

Trong nghiên cứu này chúng tôi tiến hành

phân tích và so sánh các độ đo và các bộ dữ

liệu phổ biến đƣợc sử dụng trong việc đánh

giá các thuật toán phân tách trang ảnh tài liệu.

Dựa trên những phân tích và kết quả thực

nghiệm, chúng tôi đề xuất và sử dụng một

cách thống nhất phƣơng pháp đánh giá dựa

trên vùng văn bản có hình dạng bất kỳ (non￾mahatan) trong quá trình chuẩn bị dữ liệu và

đánh giá so sánh các thuật toán phân tách

trang. Nội dung nghiên cứu thứ hai của chúng

tôi là tiến hành đánh giá và phân tích ba thuật

toán phân tích trang tiêu biểu (state-of-the-art)

là Docstrum [13], RAST [4] và Tab-Stop [16]

Tải ngay đi em, còn do dự, trời tối mất!