Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Tài liệu Xây dựng một ứng dụng từ điển đơn giản pptx
Nội dung xem thử
Mô tả chi tiết
Xây dựng một ứng dụng từ điển đơn giản
Công cụ cần thiết nhất khi học ngoại ngữ chính là từ điển. Chắc hẳn các bạn cũng
như tôi luôn cảm thấy vất vả khi phải tra từ trên cuốn từ điển dày cộp. Giải pháp
đáng giá là sử dụng ứng dụng từ điển trên máy vi tính. Mặc dù hiện nay các ứng
dụng từ điển đã có nhiều nhưng vốn là dân tin học, tôi đã quyết định tự xây dựng
cho mình một ứng dụng từ điển riêng.
Cơ sở dữ liệu
Phần quan trọng nhất đối với một ứng dụng từ điển chính là cơ sở dữ liệu (CSDL). Việc
xây dựng CSDL cho từ điển phải đảm bảo được khả năng truy cập nhanh bởi dữ liệu của
từ điển thường khá lớn, lên tới hàng chục nghìn từ. Thật may, DICT.ORG
(www.dict.org) đã xây dựng một format (định dạng) từ điển rất dễ sử dụng, format này đã
được dùng để xây dựng những bộ từ điển khá lớn. Dict format được mô tả như sau: toàn
bộ CSDL được chứa trong 2 file, một file chứa nghĩa của từ và một file index. File index
bao gồm tên từ, vị trí nghĩa của từ bắt đầu trong file chứa nghĩa và độ dài của nghĩa. Vị
trí bắt đầu và độ dài của nghĩa được mã hoá theo cách như sau: Sử dụng 64 chữ cái:
ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/
chữ cái A tương đương số 0, chữ cái B tương đương số 1 v.v... Giữa từ, vị trí bắt đầu và
độ dài nghĩa phân cách nhau bởi ký tự tab (ASCII 9). Mỗi dòng trong file index chứa dữ
liệu của một từ. Các dòng phân cách nhau bởi ký tự xuống dòng (ASCII 10).
Ví dụ trong file index của từ điển Đức-Việt có một dòng như sau:
Abdeckung kbpP D3
Như vậy nghĩa của từ Abdeckung trong file chứa nghĩa sẽ bắt đầu tại offset kbpP (theo
mã 64 ký tự) và có độ dài là D3.
Việc chuyển từ mã cơ số 64 về cơ số 10 được thực hiện như sau:
Đối với vị trí bắt đầu: kbpP. Ta có k (ở cơ số 64) = 36 (ở cơ số 10), b = 27, p = 41, P =
15. Như vậy chuyển sang cơ số 10, mã kbpP có giá trị là: 36*643 + 27*642 + 41*641 +
15*640 = 9550415
Đối với độ dài nghĩa: D3. Ta có D = 3, 3 = 55. Như vậy chuyển sang cơ số 10, mã D3 ở
cơ số 64 có giá trị là: 247.
File index được sắp xếp để giảm bớt thời gian tìm kiếm. Việc mã hoá theo cơ số 64 như
trên giúp cho kích thước file index giảm xuống rất nhiều so với không mã hóa.