Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Xây dựng ontology phục vụ tìm kiêm ngữ nghĩa động vật rừng trên địa bàn thành phố đà nẵng
PREMIUM
Số trang
111
Kích thước
2.9 MB
Định dạng
PDF
Lượt xem
1051

Xây dựng ontology phục vụ tìm kiêm ngữ nghĩa động vật rừng trên địa bàn thành phố đà nẵng

Nội dung xem thử

Mô tả chi tiết

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

TRẦN XUÂN TRƢỜNG

XÂY DỰNG ONTOLOGY

PHỤC VỤ TÌM KIẾM NGỮ NGHĨA ĐỘNG VẬT RỪNG

TRÊN ĐỊA BÀN THÀNH PHỐ ĐÀ NẴNG

Chuyên ngành: Hệ thống Thông tin

Mã số: 60.48.01.04

LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng – Năm 2016

Công trình được hoàn thành tại

ĐẠI HỌC ĐÀ NẴNG

Người hướng dẫn khoa học: TS. NGUYỄN TRẦN QUỐC VINH

Phản biện 1: PGS. TS. Võ Trung Hùng

Phản biện 2: PGS. TS. Lê Văn Sơn

Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt

nghiệp thạc sĩ Kỹ thuật họp tại Đại học Đà Nẵng vào ngày 31

tháng 7 năm 2016

Có thể tìm hiểu luận văn tại:

- Trung tâm Thông tin-Học liệu, Đại học Đà Nẵng

- Thư viện trường Đại học Sư phạm, Đại học Đà Nẵng

1

MỞ ĐẦU

1. Lý do chọn đề tài

Thành phố Đà Nẵng có lợi thế rất lớn về địa hình và được thiên

nhiên ban tặng cho nhiều sinh vật có giá trị, là một trong những thành

phố hiếm có trên thế giới về đa dạng sinh học, nơi hội tụ sự đa dạng

các hệ sinh thái rừng, biển và sông; với hơn 1.200km2

(kể cả huyện

đảo Hoàng Sa), diện tích rừng chiếm gần 50%, đường bờ biển 72km

và trên 1.000ha diện tích lưu vực sông, hồ và vùng trũng. Hệ động

vật rừng của thành phố Đà Nẵng đặc trưng cho khu hệ động vật Nam

Trường Sơn với các loài Voọc vá, Khỉ đuôi dài, Chồn dơi, Sóc vàng,

Trĩ sao, Gà lôi và Bắc Trường Sơn như Tê tê, Gà tiền, Khỉ vàng,…

Hiện nay, việc điều tra, thống kê hệ động vật rừng của thành

phố Đà Nẵng đã được nhiều nhà khoa học, cơ quan, tổ chức thực hiện

thông qua các chương trình, dự án, các đề tài, như: Điều tra khu động

– thực vật và nhân tố ảnh hưởng, đề xuất phương án bảo tồn hợp lý

khu bảo tồn thiên nhiên bán đảo Sơn Trà, Báo cáo tài nguyên rừng

thành phố Đà Nẵng,… Tuy nhiên, việc công bố các nội dung điều tra,

thống kê đó trên internet để cá nhân, tổ chức khác có nhu cầu tìm

hiểu, tra cứu thì còn nhiều hạn chế. Một số website cung cấp thông

tin về hệ động – thực vật của thành phố Đà Nẵng như: website Sở

Nông nghiệp và phát triển Nông thôn TP. Đà Nẵng, website Văn

phòng thuộc Ban chỉ đạo thành phố Ứng phó biến đổi khí hậu và

nước biển dâng thành phố Đà Nẵng,… đều chủ yếu cung cấp tin tức,

số liệu thống kê sơ lược, chưa có website nào cung cấp chức năng tra

cứu chuyên sâu về hệ động - thực vật nói chung và động vật rừng nói

riêng tại thành phố Đà Nẵng.

2

Hiện nay, công nghệ web 2.0 đã đạt được những thành tựu rất

đáng kể trong việc nâng cao tính tương tác cũng như đẩy nhanh tốc

độ xử lý đáp ứng yêu cầu của người dùng. Tuy nhiên trong xã hội

thông tin đương đại nhu cầu của người dùng không dừng lại ở việc

cải thiện tốc độ mà còn phải cải thiện chất lượng xử lý của trang web

theo yêu cầu ngày càng nâng cao. Web 3.0 ra đời nhằm đáp ứng

những yêu cầu về chất lượng đó. Với đặc điểm chính là nâng cao khả

năng chia sẻ tài nguyên và tăng “sự hiểu biết” trong quá trình xử lý

dữ liệu của máy tính, Web ngữ nghĩa đã đi sâu vào phân tích và định

hướng dữ liệu, đồng thời hỗ trợ phát triển ứng dụng Web ngữ nghĩa

trên nhiều lĩnh vực khác nhau. Một trong những lĩnh vực thế mạnh

của Web ngữ nghĩa là xử lý và tìm kiếm thông tin. Việc phân tích và

định hướng nội dung lưu trữ cho phép chúng ta xây dựng những cơ

sở dữ liệu phục vụ tìm kiếm chính xác hơn, tinh gọn hơn.

Do đó, xây dựng công cụ để tìm kiếm ngữ nghĩa động vật rừng

thành phố Đà Nẵng là một nhu cầu cấp thiết, phù hợp với chủ trương

của Thành phố trong việc bảo tồn đa dạng sinh học rừng với mục tiêu

Thành phố môi trường mà Thành phố đã đề ra trong đề án "Xây dựng

Đà Nẵng - Thành phố môi trường".

Vậy, với những vấn đề đã nêu trên tôi đề xuất xây dựng đề tài

“Xây dựng ontology phục vụ tìm kiếm ngữ nghĩa động vật rừng

trên địa bàn thành phố Đà Nẵng” làm đề tài tốt nghiệp luận văn cao

học. Trong đề tài này, tôi nghiên cứu ứng dụng công nghệ Web ngữ

nghĩa, đề xuất giải pháp và xây dựng ontology dựa trên thông tin, dữ

liệu về động vật rừng, từ đó xây dựng ứng dụng hỗ trợ tìm kiếm ngữ

nghĩa động vật rừng phân bố tại thành phố Đà Nẵng một cách dễ

dàng và tiện lợi, góp phần phổ biến rộng rãi thông tin về đa dạng sinh

học của Thành phố.

3

2. Mục tiêu nghiên cứu

Xây dựng ontology cho dữ liệu động vật rừng tại thành phố Đà

Nẵng;

Xây dựng ứng dụng tìm kiếm ngữ nghĩa cho dữ liệu động vật

rừng;

Phổ biến thông tin và góp phần bảo tồn đa dạng sinh học rừng

của thành phố Đà Nẵng.

3. Đối tƣợng và phạm vi nghiên cứu

Đối tượng nghiên cứu là các vấn đề liên quan đến web ngữ

nghĩa, phương pháp xây dựng và lưu trũ dữ liệu trong web ngữ nghĩa,

nghiên cứu ontology, RDF và OWL, dữ liệu động vật rừng tại thành

phố Đà Nẵng.

Phạm vi nghiên cứu là dữ liệu động vật rừng phân bố trên địa

bàn thành phố, nghiên cứu về RDF, SPARQL, các ứng dụng biên tập

ontology: (Sesame, Jena, Protégé,…).

4. Phƣơng pháp nghiên cứu

Phương pháp lý thuyết: Tìm hiểu lý thuyết: Web ngữ nghĩa,

ontology, RDF. Tìm kiếm, tổng hợp dữ liệu động vật rừng trên địa

bàn thành phố Đà Nẵng. Nghiên cứu phương pháp và phần mềm xây

dựng web ngữ nghĩa. Nghiên cứu xây dựng ontology cho dữ liệu

động vật rừng.

Phương pháp thực nghiệm: Xây dựng ontology; Triển khai

thực tế trên internet.

5. Ý nghĩa khoa học và thực tiễn

Về mặt khoa học đề tài đóng góp phương pháp xây dựng

ontology về dữ liệu động vật nói chung và dữ liệu động vật rừng trên

địa bàn thành phố Đà Nẵng nói riêng, ứng dụng semantic web về mặt

4

tìm kiếm và vấn đề đa ngữ trong ontology, một công cụ hỗ trợ khai

thác, phát triển và tìm kiếm theo công nghệ web ngữ nghĩa.

Về thực tiễn đề tài mở ra hướng nghiên cứu ứng dụng mới về

tìm kiếm dữ liệu các loài động vật.

6. Bố cục đề tài

Luận văn được trình bày bao gồm các nội dung như sau :

Chương 1: Trong chương này, tôi trình bày cơ sở lý thuyết về

web ngữ nghĩa, ngôn ngữ RDF, OWL và nêu khái niệm về ontology,

đồng thời tôi giới thiệu và trích dẫn tổng quan thông tin động vật

rừng từ các nghiên cứu động vật trên địa bàn thành phố Đà Nẵng.

Chương 2: Chương này tôi tìm hiểu phương pháp xây dựng

ontology, từ đó đưa ra phương pháp xây dựng ontology động vật

rừng. Đồng thời, tôi tìm hiểu các phần mềm ứng dụng trong việc biên

tập và khai thác ontology.

Chương 3: Dựa trên những nghiên cứu, tìm hiểu ở chương 2,

tôi tiến hành đặc tả dữ liệu động vật rừng, tiến hành xây dựng chi tiết

ontology động vật rừng và phát triển các chức năng của phần mềm hỗ

trợ khai thác, tìm kiếm động vật rừng thành phố Đà Nẵng.

Ngoài ra, để đánh giá toàn bộ quá trình nghiên cứu, phần cuối

của luận văn có nêu lên kết quả và hướng phát triển cho đề tài.

5

CHƢƠNG 1

NGHIÊN CỨU TỔNG QUAN

1.1. TỔNG QUAN VỀ WEB NGỮ NGHĨA

1.1.1. Giới thiệu

1.1.2. Khái niệm

Web ngữ nghĩa được phát triển bởi Tim- Berners Lee, cha đẻ

của WWW, URIs, HTTP và HTML. Theo Ông, “Web ngữ nghĩa là

sự mở rộng của Web hiện tại, cho phép người dùng có thể truy tìm,

phối hợp, sử dụng lại và trích lọc thông tin một cách dễ dàng và

chính xác”.

1.1.3. Nội dung xây dựng hệ thống web ngữ nghĩa

1.1.4. Kiến trúc phân tầng của web ngữ nghĩa

1.2. RDF – NỀN TẢNG CỦA WEB NGỮ NGHĨA

1.2.1. Khái niệm

1.2.2. Mô hình RDF

1.2.3. Đồ thị RDF

1.2.4. Namespace

1.2.5. Literal

1.2.6. Kiểu dữ liệu có cấu trúc

1.2.7. RDFS (RDF Schema)

1.3. ONTOLOGY VÀ NGÔN NGỮ OWL

1.3.1. Định nghĩa ontology

Nhiều định nghĩa về ontology xuất hiện trong thập kỷ trước

nhưng có lẽ định nghĩa mô tả rõ nhất bản chất của ontology là: “An

ontology is a formal, explicit specification of a shared

conceptualization.” (Một ontology là một hình thức, đặc tả rõ ràng

khái niệm chia sẻ). Trong ngữ cảnh này, conceptualization (khái

niệm hoá) đề cập đến một mô hình trừu tượng của một vài hiện tượng

6

trong thế giới thực dùng để nhận dạng các khái niệm liên quan đến

hiện tượng đó. Explicit (rõ ràng) có nghĩa là loại khái niệm được sử

dụng và các ràng buộc khi sử dụng chúng được xác định một cách rõ

ràng, và formal (hình thức) có nghĩa là máy tính có thể hiểu được

ontology.

1.3.2. Các lĩnh vực ứng dụng ontology

1.3.3. Vai trò ontology và web ngữ nghĩa

1.3.4. Các thành phần của ontology

Ontology được sử dụng như là một biểu mẫu trình bày tri thức

về thế giới hay một phần của nó. Ontology thường miêu tả:

 Cá thể: Các đối tượng cơ bản, nền tảng.

 Lớp: Các tập hợp, hay kiểu của các đối tượng.

 Thuộc tính: Thuộc tính, tính năng, đặc điểm, tính cách, hay

các thông số mà các đối tượng có và có thể đem ra chia sẻ.

 Mối liên hệ: cách mà các đối tượng có thể liên hệ tới một đối

tượng khác.

Bộ từ vựng ontology được xây dựng trên cơ sở tầng RDF và

RDFS, cung cấp khả năng biểu diễn ngữ nghĩa mềm dẻo cho tài

nguyên Web và có khả năng hỗ trợ lập luận.

1.3.5. Cá thể (Individuals) – Thể hiện

1.3.6. Lớp (Classes) - Khái niệm

1.3.7. Thuộc tính (Properties)

1.3.8. Mối quan hệ (Relation)

1.3.9. Ngôn ngữ OWL

OWL (The Web Ontology Language) là một ngôn ngữ gần

như XML dùng để mô tả các hệ cơ sở tri thức. OWL là một ngôn ngữ

đánh dấu dùng để xuất bản và chia sẻ dữ liệu trên Internet thông qua

những mô hình dữ liệu gọi là “ontology”. Ontology mô tả một lĩnh

7

vực (domain) và diễn tả những đối tượng trong lĩnh vực đó cùng

những mối quan hệ giữa các đối tượng này. OWL là phần mở rộng về

từ vựng của RDF và được kế thừa từ ngôn ngữ DAML+OIL Web

ontology – một dự án được hỗ trợ bởi W3C. OWL biểu diễn ý nghĩa

của các thuật ngữ trong các từ vựng và mối liên hệ giữa các thuật ngữ

này để đảm bảo phù hợp với quá trình xử lý bởi các phần mềm.

1.3.10. Hệ truy vấn SPARQL

1.3.11. Cú pháp của câu truy vấn

1.3.12. Tạo một câu truy vấn đơn giản

1.4. ĐỘNG VẬT RỪNG TRÊN ĐỊA BÀN THÀNH PHỐ ĐÀ

NẴNG

1.4.1. Giới thiệu

1.4.2. Cấu trúc, thành phần loài động vật

Các loài này phân bố số loài không đồng đều trong các lớp

động vật, nhưng có thành phần loài đa dạng, đặc biệt là nguồn gen

các loài quý hiếm như: Gấu, Beo lửa, Mèo rừng, Sóc bay, Chồn dơi,

Cầy mực, Cu li, Voọc vá chân nâu, khỉ vàng, Trĩ sao, Công, Gà tiền,

Gà lôi lam, Mang trường sơn, Rái cá, Dơi chó tai ngắn và một số loài

bò sát, lưỡng cư khác.

Bảng 1.1. Phân bố thành phần loài động vật

TT Đơn vị thống kê Sông Bắc-Sông

Nam

Sơn Trà Bà Nà

1 Số Bộ 23 25 26

2 Số Họ 60 64 80

3 Số Loài 205 135 256

4 Loài quý hiếm 34 15 44

Phân bố các Taxon trong 3 lớp động vật có xương sống ở cạn

cho thấy sự khác nhau và phân bố không đồng đều.

8

Bảng 1.2. Phân bố 3 lớp động vật: thú, chim, bò sát

TT Lớp

Bộ Họ Loài

Sông

Bắc￾Sông

Nam

Sơn

Trà

Sông

Bắc￾Sông

Nam

Sơn

Trà

Sông

Bắc￾Sông

Nam

Sơn

Trà

1 Thú 9 8 8 23 18 26 55 36 61

2 Chim 14 15 16 37 34 46 150 106 178

3 Bò sát 2 2 2 4 8 8 9 24 17

Tổng số 25 25 26 64 64 80 214 165 256

Danh mục động vật rừng cần được ưu tiên bảo tồn trên địa bàn

thành phố trong giai đoạn 2014-2020 bao gồm các loài động vật rừng

nguy cấp, quý, hiếm và các loài động vật rừng thông thường nhưng

có giá trị về kinh tế, môi trường điển hình: Số lượng loài động vật

rừng nguy cấp, quý, hiếm: 75 loài; Số lượng loài động vật rừng thông

thường nhưng có giá trị về kinh tế, môi trường. Tổng số: 21 loài.

1.4.3. Cấu trúc, thành phần loài con trùng

1.5. MỘT SỐ NGHIÊN CỨU WEB NGỮ NGHĨA ĐÃ TRIỂN

KHAI

1.6. KẾT CHƢƠNG

Trong chương này, tôi trình bày cơ sở lý thuyết về web ngữ

nghĩa, ngôn ngữ RDF, OWL, hệ truy vấn SPARQL và nêu khái niệm

về ontology, đồng thời tôi giới thiệu và trích dẫn tổng quan thông tin

động vật rừng tham khảo từ một số nghiên cứu động vật trên địa bàn

thành phố Đà Nẵng và tìm hiểu một số nghiên cứu về web ngữ nghĩa

đã triển khai trước đây.

Từ đó, tôi có nhưng kiến thức cơ bản về lý thuyết, những

thông tin, dữ liệu ban đầu về hệ động vật rừng của thành phố Đà

9

Nẵng và có được danh mục các nghiên cứu đã thực hiện để tiến hành

thu thập dữ liệu chi tiết, phục vụ cho việc kế thừa, áp dụng thực hiện

các chương tiếp theo của luận văn.

CHƢƠNG 2

PHƢƠNG PHÁP VÀ PHẦN MỀM

XÂY DỰNG ONTOLOGY

2.1. GIỚI THIỆU

2.2. PHƢƠNG PHÁP XÂY DỰNG ONTOLOGY

Quy trình phát triển Ontology là một quy trình gồm nhiều

bước, tuy nhiên vẫn chưa có một phương pháp chuẩn hóa nào để phát

triển các ontology. Quy trình phát triển gồm 7 bước do Stanford

Center for Biomedical Informatics Research đưa ra được đa số các

nghiên cứu trước đây chọn và tuân theo (đây là nhóm phát triển phần

mềm Protégé để trình diễn và soạn thảo Ontology).

2.2.1. Bƣớc 1: Xác định lĩnh vực và phạm vi của Ontology

2.2.2. Bƣớc 2: Xem xét việc kế thừa các ontology có sẵn

2.2.3. Bƣớc 3: Liệt kê các thuật ngữ quan trọng

2.2.4. Bƣớc 4: Xác định các lớp và phân cấp của các lớp

2.2.5. Bƣớc 5: Xác định các thuộc tính

2.2.6. Bƣớc 6: Xác định ràng buộc của các thuộc tính

2.2.7. Bƣớc 7: Tạo các thể hiện/ thực thể

2.3. QUY TRÌNH XÂY DỰNG ONTOLOGY CHO DỮ LIỆU

ĐỘNG VẬT RỪNG

Thông tin về đồng vật rừng thành phố Đà Nẵng đã được tìm

hiểu và tổng hợp ở mục Chương 1, Mục 1.4. Việc xây dựng ontology

cho dữ liệu động vật rừng tuân thủ theo quy trình phát triển

Tải ngay đi em, còn do dự, trời tối mất!
Xây dựng ontology phục vụ tìm kiêm ngữ nghĩa động vật rừng trên địa bàn thành phố đà nẵng | Siêu Thị PDF