Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Đối sánh tự động lược đồ xml
PREMIUM
Số trang
114
Kích thước
1.1 MB
Định dạng
PDF
Lượt xem
1470

Đối sánh tự động lược đồ xml

Nội dung xem thử

Mô tả chi tiết

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

--------------------------

LUẬN VĂN THẠC SỸ KHOA HỌC

®èi s¸nh tù ®éng l−îc ®å XML

NGÀNH: CÔNG NGHỆ THÔNG TIN

MS: ……………………….

VÕ SỸ NAM

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS. HUỲNH QUYẾT THẮNG

HÀ NỘI - 2006

Mục lục

Danh mục từ viết tắt, thuật ngữ.............................. Error! Bookmark not defined.

Danh mục bảng biểu ................................................ Error! Bookmark not defined.

Danh mục hình vẽ..................................................... Error! Bookmark not defined.

Mở đầu ...................................................................... Error! Bookmark not defined.

1. Giới thiệu chung.........................................................Error! Bookmark not defined.

2. Nội dung luận văn......................................................Error! Bookmark not defined.

Chương 1 Đối sánh lược đồ ..................................... Error! Bookmark not defined.

1.1 Tổng quan về đối sánh lược đồ ...............................Error! Bookmark not defined.

1.1.1 Các khái niệm cơ bản về đối sánh lược đồ .........Error! Bookmark not defined.

1.1.2 Các lĩnh vực ứng dụng đối sánh lược đồ ............Error! Bookmark not defined.

1.2 Các tiếp cận đối sánh lược đồ .................................Error! Bookmark not defined.

1.2.1 Phân loại các tiếp cận đối sánh lược đồ.............Error! Bookmark not defined.

1.2.2 Các tiếp cận đối sánh lược đồ ............................Error! Bookmark not defined.

1.2.3 Các phương pháp đối sánh lược đồ....................Error! Bookmark not defined.

1.3 Các hệ thống đối sánh lược đồ XML......................Error! Bookmark not defined.

1.3.1 Cupid (trung tâm nghiên cứu Microsoft)............Error! Bookmark not defined.

1.3.2 Similarity Flooding (Đại học Stanford và đại học Leipzig) ... Error! Bookmark

not defined.

1.3.3 LSD (Đại học Washington).................................Error! Bookmark not defined.

1.3.4 Clio (IBM Almaden và đại học Toronto)............Error! Bookmark not defined.

1.3.5 Một số hệ thống đối sánh lược đồ khác ..............Error! Bookmark not defined.

1.4 Kết chương ...............................................................Error! Bookmark not defined.

Chương 2 Các định nghĩa hình thức ...................... Error! Bookmark not defined.

2.1 Vấn đề đối sánh lược đồ XML................................Error! Bookmark not defined.

2.1.1 Đối sánh ngữ nghĩa và đối sánh cú pháp ...........Error! Bookmark not defined.

2.1.2 Thông tin đầu vào của tiến trình đối sánh..........Error! Bookmark not defined.

2.1.3 Thông tin đầu ra của tiến trình đối sánh ............Error! Bookmark not defined.

2.1.4 Các định nghĩa hình thức....................................Error! Bookmark not defined.

2.2 Mô hình hóa lược đồ XML......................................Error! Bookmark not defined.

2.2.1 Các nút đồ thị lược đồ ........................................Error! Bookmark not defined.

2.2.2 Các cạnh đồ thị lược đồ......................................Error! Bookmark not defined.

2.2.3 Các ràng buộc đồ thị lược đồ .............................Error! Bookmark not defined.

2.2.4 Các định nghĩa hình thức....................................Error! Bookmark not defined.

2.3 Ánh xạ nguồn–đích ..................................................Error! Bookmark not defined.

2.4 Kết chương ...............................................................Error! Bookmark not defined.

Chương 3 Đối sánh tự động lược đồ XML ............ Error! Bookmark not defined.

3.1 Tổng quan về đối sánh tự động lược đồ XML.......Error! Bookmark not defined.

3.2 Đo độ tương đồng ngôn ngữ....................................Error! Bookmark not defined.

3.2.1 WordNet và quan hệ ngữ nghĩa giữa các từ.......Error! Bookmark not defined.

3.2.2 Thuật toán của Hirst và St-Onge ........................Error! Bookmark not defined.

3.2.3 Giải pháp của hệ thống Cupid............................Error! Bookmark not defined.

3.3 Xét tính tương thích kiểu dữ liệu lược đồ XML và phân tích phân cấp kiểu

người thiết kế..................................................................Error! Bookmark not defined.

3.3.1 Xét tính tương thích kiểu dữ liệu lược đồ XML ..Error! Bookmark not defined.

3.3.2 Phân tích phân cấp kiểu người thiết kế ..............Error! Bookmark not defined.

3.4 Đo độ tương đồng cấu trúc......................................Error! Bookmark not defined.

3.4.1 Định nghĩa ngữ cảnh nút ....................................Error! Bookmark not defined.

3.4.2 Đo độ tương tự đường dẫn..................................Error! Bookmark not defined.

3.4.3 Đo độ tương đồng ngữ cảnh nút.........................Error! Bookmark not defined.

3.5 Đo độ tương đồng nút và tạo ánh xạ giữa các phần tử........Error! Bookmark not

defined.

3.5.1 Đo độ tương đồng nút.........................................Error! Bookmark not defined.

3.5.2 Tạo ánh xạ giữa các nút và cạnh đối sánh .........Error! Bookmark not defined.

3.6 Đánh giá tiến trình đối sánh lược đồ XML............Error! Bookmark not defined.

3.6.1 Các phương pháp đánh giá.................................Error! Bookmark not defined.

3.6.2 Đánh giá giải pháp .............................................Error! Bookmark not defined.

3.7 Áp dụng đối sánh lược đồ trong bài toán chuyển đổi tài liệu có cấu trúc ...Error!

Bookmark not defined.

3.7.1 Tổng quan về tài liệu có cấu trúc .......................Error! Bookmark not defined.

3.7.2 Chuyển đổi tự động tài liệu có cấu trúc..............Error! Bookmark not defined.

3.7.3 Mô hình cho hệ thống chuyển đổi tự động tài liệu XML ...Error! Bookmark not

defined.

3.8 Kết chương ...............................................................Error! Bookmark not defined.

Kết luận và hướng phát triển.................................. Error! Bookmark not defined.

1. Đóng góp chính của luận văn....................................Error! Bookmark not defined.

2. Hướng phát triển........................................................Error! Bookmark not defined.

Danh mục tài liệu tham khảo .................................. Error! Bookmark not defined.

Phụ lục....................................................................... Error! Bookmark not defined.

Phụ lục A: Ngôn ngữ đánh dấu mở rộng - XML ........Error! Bookmark not defined.

Phụ lục B: Lược đồ XML..............................................Error! Bookmark not defined.

Phụ lục C: Thuật toán của Hirst và St-Onge ..............Error! Bookmark not defined.

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

--------------------------

LUẬN VĂN THẠC SỸ KHOA HỌC

®èi s¸nh tù ®éng l−îc ®å XML

NGÀNH: CÔNG NGHỆ THÔNG TIN

MS: ……………………….

VÕ SỸ NAM

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS. HUỲNH QUYẾT THẮNG

HÀ NỘI - 2006

Đối sánh tự động lược đồ XML

Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin

i

Lời cảm ơn

Luận văn này đánh dấu kết thúc hai năm cao học tại trường đại học Bách

Khoa Hà Nội. Trong quãng thời gian tuy chưa dài nhưng cũng không phải là ngắn

đó, tôi đã trưởng thành rất nhiều về kiến thức cũng như khả năng nghiên cứu.

Tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo – TS. Huỳnh Quyết Thắng,

người đã hướng dẫn, giúp đỡ tôi hết sức tận tình trong quá trình thực hiện luận văn

tốt nghiệp. Thầy là người đã cung cấp ý tưởng, tài liệu ban đầu về đề tài, các hướng

dẫn quan trọng trong suốt quá trình thực hiện luận văn, dành thời gian đọc và sửa

chữa báo cáo cũng như có những góp ý rất quan trọng cho tôi trong suốt quá trình

hoàn thiện luận văn này.

Tôi xin cám ơn thư viện trường EPFL, Thụy Sỹ đã cung cấp cho tôi một số tài

liệu tham khảo bổ ích, xin cảm ơn các nhóm sinh viên K48 khoa Công nghệ thông

tin, trường đại học Bách Khoa Hà Nội đã tận tình làm việc cùng tôi và góp nhiều

công sức trong quá trình cài đặt thử nghiệm chương trình.

Tôi xin gửi lời cám ơn sâu sắc tới các thầy giáo, cô giáo của trường đại học

Bách Khoa Hà Nội, khoa Công nghệ thông tin đã tận tình giảng dạy, trang bị kiến

thức cho chúng tôi, xin gửi lời cám ơn bộ môn Kỹ thuật hệ thống, khoa Công nghệ

thông tin, trường đại học Xây dựng Hà Nội đã hết sức tạo điều kiện về thời gian cho

tôi hoàn thành luận văn này.

Tôi cũng xin gửi lời cám ơn tới các bạn của tôi, những người đã chia sẻ với tôi

nhiệt huyết và niềm say mê học tập & nghiên cứu khoa học, chia sẻ với tôi kiến thức

và phương pháp tìm hiểu vấn đề, cung cấp cho tôi các tài liệu thiết thực cũng như

những ý tưởng bổ sung cho luận văn, góp phần giúp tôi thực hiện luận văn này

trong sự cố gắng và nỗ lực cao nhất.

Cuối cùng nhưng cũng là điều quan trọng nhất, cho tôi gửi lời cảm ơn sâu sắc

tới bố, mẹ, em trai và những người thân của tôi, những người đã giúp đỡ tôi rất

nhiều cả về vật chất lẫn tinh thần trong suốt quá trình học tập và công tác, động

viên tôi trong những lúc khó khăn cũng như chia sẻ niềm vui với tôi những lúc

thành công. Một lần nữa tôi xin chân thành cám ơn tất cả./.

Hà Nội, tháng 11 năm 2006

Võ Sỹ Nam

Đối sánh tự động lược đồ XML

Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin

ii

Mục lục

Danh mục từ viết tắt, thuật ngữ........................................................................... iv

Danh mục bảng biểu .............................................................................................. v

Danh mục hình vẽ................................................................................................... v

Mở đầu .................................................................................................................... 1

1. Giới thiệu chung...........................................................................................................1

2. Nội dung luận văn........................................................................................................3

Chương 1 Đối sánh lược đồ ................................................................................... 6

1.1 Tổng quan về đối sánh lược đồ .................................................................................7

1.1.1 Các khái niệm cơ bản về đối sánh lược đồ ...........................................................7

1.1.2 Các lĩnh vực ứng dụng đối sánh lược đồ ..............................................................8

1.2 Các tiếp cận đối sánh lược đồ .................................................................................14

1.2.1 Phân loại các tiếp cận đối sánh lược đồ.............................................................14

1.2.2 Các tiếp cận đối sánh lược đồ ............................................................................15

1.2.3 Các phương pháp đối sánh lược đồ....................................................................17

1.3 Các hệ thống đối sánh lược đồ XML......................................................................20

1.3.1 Cupid (trung tâm nghiên cứu Microsoft)............................................................21

1.3.2 Similarity Flooding (đại học Stanford và đại học Leipzig) ...............................23

1.3.3 LSD (đại học Washington)..................................................................................24

1.3.4 Clio (IBM Almaden và đại học Toronto)............................................................25

1.3.5 Một số hệ thống đối sánh lược đồ khác ..............................................................26

1.4 Kết chương ...............................................................................................................28

Chương 2 Các định nghĩa hình thức .................................................................. 29

2.1 Vấn đề đối sánh lược đồ XML................................................................................30

2.1.1 Đối sánh ngữ nghĩa và đối sánh cú pháp ...........................................................30

2.1.2 Thông tin đầu vào của tiến trình đối sánh..........................................................32

2.1.3 Thông tin đầu ra của tiến trình đối sánh ............................................................34

2.1.4 Các định nghĩa hình thức....................................................................................35

2.2 Mô hình hóa lược đồ XML......................................................................................36

2.2.1 Các nút đồ thị lược đồ ........................................................................................37

2.2.2 Các cạnh đồ thị lược đồ......................................................................................37

2.2.3 Các ràng buộc đồ thị lược đồ .............................................................................38

2.2.4 Các định nghĩa hình thức....................................................................................40

2.3 Ánh xạ nguồn–đích ..................................................................................................43

2.4 Kết chương ...............................................................................................................46

Đối sánh tự động lược đồ XML

Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin

iii

Chương 3 Đối sánh tự động lược đồ XML ........................................................ 47

3.1 Tổng quan về đối sánh tự động lược đồ XML.......................................................48

3.2 Đo độ tương đồng ngôn ngữ....................................................................................49

3.2.1 WordNet và quan hệ ngữ nghĩa giữa các từ.......................................................49

3.2.2 Thuật toán của Hirst và St-Onge ........................................................................50

3.2.3 Giải pháp của hệ thống Cupid............................................................................52

3.3 Xét tính tương thích kiểu dữ liệu lược đồ XML và phân tích phân cấp kiểu

người thiết kế..................................................................................................................53

3.3.1 Xét tính tương thích kiểu dữ liệu lược đồ XML ..................................................53

3.3.2 Phân tích phân cấp kiểu người thiết kế ..............................................................55

3.4 Đo độ tương đồng cấu trúc......................................................................................56

3.4.1 Định nghĩa ngữ cảnh nút ....................................................................................56

3.4.2 Đo độ tương tự đường dẫn..................................................................................58

3.4.3 Đo độ tương đồng ngữ cảnh nút.........................................................................63

3.5 Đo độ tương đồng nút và tạo ánh xạ giữa các phần tử.........................................66

3.5.1 Đo độ tương đồng nút.........................................................................................66

3.5.2 Tạo ánh xạ giữa các nút và cạnh đối sánh .........................................................67

3.6 Đánh giá tiến trình đối sánh lược đồ XML............................................................68

3.6.1 Các phương pháp đánh giá.................................................................................68

3.6.2 Đánh giá giải pháp .............................................................................................70

3.7 Áp dụng đối sánh lược đồ trong bài toán chuyển đổi tài liệu có cấu trúc ..........72

3.7.1 Tổng quan về tài liệu có cấu trúc .......................................................................73

3.7.2 Chuyển đổi tự động tài liệu có cấu trúc..............................................................76

3.7.3 Mô hình cho hệ thống chuyển đổi tự động tài liệu XML ....................................78

3.8 Kết chương ...............................................................................................................80

Kết luận và hướng phát triển.............................................................................. 81

1. Đóng góp chính của luận văn....................................................................................81

2. Hướng phát triển........................................................................................................84

Danh mục tài liệu tham khảo .............................................................................. 86

Phụ lục................................................................................................................... 88

Phụ lục A: Ngôn ngữ đánh dấu mở rộng - XML ........................................................89

Phụ lục B: Lược đồ XML..............................................................................................97

Phụ lục C: Thuật toán của Hirst và St-Onge ............................................................100

Đối sánh tự động lược đồ XML

Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin

iv

Danh mục từ viết tắt, thuật ngữ

Từ viết tắt/ thuật ngữ Giải nghĩa Ghi chú

CSDL Cơ sở dữ liệu

TTNT Trí tuệ nhân tạo

XML eXtended Markup Language

DTD Document Type Definition

XSD XML Schema Definition

SGML Standard Generalized Markup Language

LCS Longest Common Subsequence

Đối sánh tự động lược đồ XML

Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin

v

Danh mục bảng biểu

Bảng 3. 1 Đặc điểm các lược đồ thử nghiệm...................................................... 70

Bảng 3. 2 Kết quả đo chất lượng đối sánh ......................................................... 71

Danh mục hình vẽ

Hình 2. 1 Ví dụ về đồ thị lược đồ ........................................................................ 36

Hình 3. 1 Tiến trình tính toán độ tương đồng phần tử..................................... 49

Hình 3. 2 Ngữ cảnh của một phần tử lược đồ.................................................... 57

Hình 3. 3 So sánh các đối sánh thực với các đối sánh suy diễn được .............. 70

Hình 3. 4 Biểu đồ so sánh kết quả thực thi ........................................................ 72

Hình 3. 5 Mô hình cho hệ thống chuyển đổi tự động tài liệu XML................. 79

Mở đầu

Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin

1

Mở đầu

1. Giới thiệu chung

Một vấn đề rất quan trọng trong các hệ thống xử lý thông tin là trao đổi

và sử dụng lại dữ liệu giữa các hệ thống có dữ liệu không đồng nhất. Tính

không đồng nhất của dữ liệu là do các tổ chức hoặc ứng dụng thường tạo ra

dữ liệu cho chính mình dựa trên các yêu cầu riêng biệt. Các yêu cầu này hầu

hết thường được đặc tả trong các mô hình dữ liệu trừu tượng, còn gọi là các

lược đồ (chẳng hạn như lược đồ quan hệ, lược đồ hướng đối tượng và gần đây

là lược đồ XML). Trong những năm gần đây, sự phát triển mạnh mẽ của các

nguồn dữ liệu Web với rất nhiều mô hình thông tin và cú pháp mã hóa khác

nhau đã dẫn đến nhu cầu ngày càng cấp thiết của việc phát triển các phương

pháp và công cụ hỗ trợ cho việc trao đổi và sử dụng lại dữ liệu, do vậy đã có

rất nhiều nghiên cứu quan tâm đến vấn đề này. Như ta biết, đối sánh lược đồ

là vấn đề trung tâm trong hầu hết các nghiên cứu đó. Bài toán đối sánh lược

đồ có thể được định nghĩa một cách phi hình thức như sau: [6], [11] “Cho hai

lược đồ S1 và S2 trên mô hình dữ liệu bất kỳ, có thể có thêm thông tin phụ trợ

và một ánh xạ khởi đầu, hãy tìm ánh xạ giữa các phần tử lược đồ thỏa mãn

yêu cầu người dùng”. Nói cách khác, đây là vấn đề tìm kiếm sự tương đồng

giữa các phần tử của S1 và S2 (hay là việc xác định các thành phần tương

đương nhau giữa hai lược đồ nguồn và đích đã cho) bằng cách khai thác các

thông tin tồn tại trong lược đồ, dữ liệu và các nguồn thông tin phụ trợ.

Mở đầu

Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin

2

Thực tế cho thấy, các thách thức gặp phải khi tìm kiếm giải pháp cho bài

toán đối sánh lược đồ là rất lớn. Thứ nhất, quá trình này cần đến sự phân tích

ngữ nghĩa trong các lược đồ đó, hay nói cách khác ta cần suy diễn được nhận

thức về lược đồ của người tạo ra nó. Tuy vậy, các lược đồ thường được thiết

kế bởi những con người khác nhau với những nhận thức khác nhau về thế giới

thực cho các mục đích khác nhau. Thứ hai, việc khai thác thông tin cho bài

toán đối sánh lược đồ gặp rất nhiều khó khăn vì ta phải khai thác một lượng

lớn thông tin hỗn tạp và không chắc chắn, ví dụ như tài liệu đặc tả lược đồ,

các nguồn dữ liệu của lược đồ… Từ các phân tích trên, có thể thấy rằng việc

đối sánh lược đồ bằng tay thường khá tốn kém và dễ gây lỗi. Điều đó cho thấy

việc phát triển các kỹ thuật nhằm tự động hóa một cách tối đa tiến trình đối

sánh lược đồ là rất quan trọng.

Hiện nay, XML (eXtended Markup Language - ngôn ngữ đánh dấu mở

rộng) [24] đã trở thành chuẩn ngôn ngữ hiệu quả và thích hợp cho việc biểu

diễn dữ liệu trên Web. Nhu cầu sử dụng XML như là chuẩn biểu diễn và trao

đổi dữ liệu ngày càng tăng của cộng đồng Web đã tạo nên một lượng dữ liệu

XML ngày càng lớn. Gắn liền với sự gia tăng đó, một lượng lớn các lược đồ

XML [25], [26], [27] đã được phát triển với rất nhiều đặc tả khác nhau, dẫn

đến một lượng lớn dữ liệu XML không đồng nhất. Thêm vào đó, hiện tại lại

có khá nhiều ngôn ngữ lược đồ khác nhau được đưa ra, dẫn đến sự không

đồng nhất về mặt cú pháp ở các ngôn ngữ lược đồ. Với sự phát triển nhanh

chóng và sự tăng trưởng mạnh mẽ về mặt quy mô của các ứng dụng Web, đặc

biệt là sự phổ dụng của Internet và công nghệ XML, đã có rất nhiều nghiên

cứu quan tâm đến vấn đề trao đổi và sử dụng lại dữ liệu XML. Vấn đề đối

sánh lược đồ XML do vậy ngày càng trở nên quan trọng. Nhằm góp phần tìm

hiểu và giải quyết vấn đề đó một cách hiệu quả hơn, luận văn này sẽ tổng hợp

lại cũng như đưa ra các đóng góp thêm cho bài toán đối sánh lược đồ XML.

Tải ngay đi em, còn do dự, trời tối mất!