Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Tài liệu Xây dựng một ứng dụng từ điển đơn giản pptx
MIỄN PHÍ
Số trang
10
Kích thước
299.3 KB
Định dạng
PDF
Lượt xem
1307

Tài liệu Xây dựng một ứng dụng từ điển đơn giản pptx

Nội dung xem thử

Mô tả chi tiết

Xây dựng một ứng dụng từ điển đơn giản

Công cụ cần thiết nhất khi học ngoại ngữ chính là từ điển. Chắc hẳn các bạn cũng

như tôi luôn cảm thấy vất vả khi phải tra từ trên cuốn từ điển dày cộp. Giải pháp

đáng giá là sử dụng ứng dụng từ điển trên máy vi tính. Mặc dù hiện nay các ứng

dụng từ điển đã có nhiều nhưng vốn là dân tin học, tôi đã quyết định tự xây dựng

cho mình một ứng dụng từ điển riêng.

Cơ sở dữ liệu

Phần quan trọng nhất đối với một ứng dụng từ điển chính là cơ sở dữ liệu (CSDL). Việc

xây dựng CSDL cho từ điển phải đảm bảo được khả năng truy cập nhanh bởi dữ liệu của

từ điển thường khá lớn, lên tới hàng chục nghìn từ. Thật may, DICT.ORG

(www.dict.org) đã xây dựng một format (định dạng) từ điển rất dễ sử dụng, format này đã

được dùng để xây dựng những bộ từ điển khá lớn. Dict format được mô tả như sau: toàn

bộ CSDL được chứa trong 2 file, một file chứa nghĩa của từ và một file index. File index

bao gồm tên từ, vị trí nghĩa của từ bắt đầu trong file chứa nghĩa và độ dài của nghĩa. Vị

trí bắt đầu và độ dài của nghĩa được mã hoá theo cách như sau: Sử dụng 64 chữ cái:

ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/

chữ cái A tương đương số 0, chữ cái B tương đương số 1 v.v... Giữa từ, vị trí bắt đầu và

độ dài nghĩa phân cách nhau bởi ký tự tab (ASCII 9). Mỗi dòng trong file index chứa dữ

liệu của một từ. Các dòng phân cách nhau bởi ký tự xuống dòng (ASCII 10).

Ví dụ trong file index của từ điển Đức-Việt có một dòng như sau:

Abdeckung kbpP D3

Như vậy nghĩa của từ Abdeckung trong file chứa nghĩa sẽ bắt đầu tại offset kbpP (theo

mã 64 ký tự) và có độ dài là D3.

Việc chuyển từ mã cơ số 64 về cơ số 10 được thực hiện như sau:

Đối với vị trí bắt đầu: kbpP. Ta có k (ở cơ số 64) = 36 (ở cơ số 10), b = 27, p = 41, P =

15. Như vậy chuyển sang cơ số 10, mã kbpP có giá trị là: 36*643 + 27*642 + 41*641 +

15*640 = 9550415

Đối với độ dài nghĩa: D3. Ta có D = 3, 3 = 55. Như vậy chuyển sang cơ số 10, mã D3 ở

cơ số 64 có giá trị là: 247.

File index được sắp xếp để giảm bớt thời gian tìm kiếm. Việc mã hoá theo cơ số 64 như

trên giúp cho kích thước file index giảm xuống rất nhiều so với không mã hóa.

Tải ngay đi em, còn do dự, trời tối mất!