Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Xây dựng ontology phục vụ tìm kiêm ngữ nghĩa động vật rừng trên địa bàn thành phố đà nẵng
Nội dung xem thử
Mô tả chi tiết
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
TRẦN XUÂN TRƢỜNG
XÂY DỰNG ONTOLOGY
PHỤC VỤ TÌM KIẾM NGỮ NGHĨA ĐỘNG VẬT RỪNG
TRÊN ĐỊA BÀN THÀNH PHỐ ĐÀ NẴNG
Chuyên ngành: Hệ thống Thông tin
Mã số: 60.48.01.04
LUẬN VĂN THẠC SĨ KỸ THUẬT
Đà Nẵng – Năm 2016
Công trình được hoàn thành tại
ĐẠI HỌC ĐÀ NẴNG
Người hướng dẫn khoa học: TS. NGUYỄN TRẦN QUỐC VINH
Phản biện 1: PGS. TS. Võ Trung Hùng
Phản biện 2: PGS. TS. Lê Văn Sơn
Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt
nghiệp thạc sĩ Kỹ thuật họp tại Đại học Đà Nẵng vào ngày 31
tháng 7 năm 2016
Có thể tìm hiểu luận văn tại:
- Trung tâm Thông tin-Học liệu, Đại học Đà Nẵng
- Thư viện trường Đại học Sư phạm, Đại học Đà Nẵng
1
MỞ ĐẦU
1. Lý do chọn đề tài
Thành phố Đà Nẵng có lợi thế rất lớn về địa hình và được thiên
nhiên ban tặng cho nhiều sinh vật có giá trị, là một trong những thành
phố hiếm có trên thế giới về đa dạng sinh học, nơi hội tụ sự đa dạng
các hệ sinh thái rừng, biển và sông; với hơn 1.200km2
(kể cả huyện
đảo Hoàng Sa), diện tích rừng chiếm gần 50%, đường bờ biển 72km
và trên 1.000ha diện tích lưu vực sông, hồ và vùng trũng. Hệ động
vật rừng của thành phố Đà Nẵng đặc trưng cho khu hệ động vật Nam
Trường Sơn với các loài Voọc vá, Khỉ đuôi dài, Chồn dơi, Sóc vàng,
Trĩ sao, Gà lôi và Bắc Trường Sơn như Tê tê, Gà tiền, Khỉ vàng,…
Hiện nay, việc điều tra, thống kê hệ động vật rừng của thành
phố Đà Nẵng đã được nhiều nhà khoa học, cơ quan, tổ chức thực hiện
thông qua các chương trình, dự án, các đề tài, như: Điều tra khu động
– thực vật và nhân tố ảnh hưởng, đề xuất phương án bảo tồn hợp lý
khu bảo tồn thiên nhiên bán đảo Sơn Trà, Báo cáo tài nguyên rừng
thành phố Đà Nẵng,… Tuy nhiên, việc công bố các nội dung điều tra,
thống kê đó trên internet để cá nhân, tổ chức khác có nhu cầu tìm
hiểu, tra cứu thì còn nhiều hạn chế. Một số website cung cấp thông
tin về hệ động – thực vật của thành phố Đà Nẵng như: website Sở
Nông nghiệp và phát triển Nông thôn TP. Đà Nẵng, website Văn
phòng thuộc Ban chỉ đạo thành phố Ứng phó biến đổi khí hậu và
nước biển dâng thành phố Đà Nẵng,… đều chủ yếu cung cấp tin tức,
số liệu thống kê sơ lược, chưa có website nào cung cấp chức năng tra
cứu chuyên sâu về hệ động - thực vật nói chung và động vật rừng nói
riêng tại thành phố Đà Nẵng.
2
Hiện nay, công nghệ web 2.0 đã đạt được những thành tựu rất
đáng kể trong việc nâng cao tính tương tác cũng như đẩy nhanh tốc
độ xử lý đáp ứng yêu cầu của người dùng. Tuy nhiên trong xã hội
thông tin đương đại nhu cầu của người dùng không dừng lại ở việc
cải thiện tốc độ mà còn phải cải thiện chất lượng xử lý của trang web
theo yêu cầu ngày càng nâng cao. Web 3.0 ra đời nhằm đáp ứng
những yêu cầu về chất lượng đó. Với đặc điểm chính là nâng cao khả
năng chia sẻ tài nguyên và tăng “sự hiểu biết” trong quá trình xử lý
dữ liệu của máy tính, Web ngữ nghĩa đã đi sâu vào phân tích và định
hướng dữ liệu, đồng thời hỗ trợ phát triển ứng dụng Web ngữ nghĩa
trên nhiều lĩnh vực khác nhau. Một trong những lĩnh vực thế mạnh
của Web ngữ nghĩa là xử lý và tìm kiếm thông tin. Việc phân tích và
định hướng nội dung lưu trữ cho phép chúng ta xây dựng những cơ
sở dữ liệu phục vụ tìm kiếm chính xác hơn, tinh gọn hơn.
Do đó, xây dựng công cụ để tìm kiếm ngữ nghĩa động vật rừng
thành phố Đà Nẵng là một nhu cầu cấp thiết, phù hợp với chủ trương
của Thành phố trong việc bảo tồn đa dạng sinh học rừng với mục tiêu
Thành phố môi trường mà Thành phố đã đề ra trong đề án "Xây dựng
Đà Nẵng - Thành phố môi trường".
Vậy, với những vấn đề đã nêu trên tôi đề xuất xây dựng đề tài
“Xây dựng ontology phục vụ tìm kiếm ngữ nghĩa động vật rừng
trên địa bàn thành phố Đà Nẵng” làm đề tài tốt nghiệp luận văn cao
học. Trong đề tài này, tôi nghiên cứu ứng dụng công nghệ Web ngữ
nghĩa, đề xuất giải pháp và xây dựng ontology dựa trên thông tin, dữ
liệu về động vật rừng, từ đó xây dựng ứng dụng hỗ trợ tìm kiếm ngữ
nghĩa động vật rừng phân bố tại thành phố Đà Nẵng một cách dễ
dàng và tiện lợi, góp phần phổ biến rộng rãi thông tin về đa dạng sinh
học của Thành phố.
3
2. Mục tiêu nghiên cứu
Xây dựng ontology cho dữ liệu động vật rừng tại thành phố Đà
Nẵng;
Xây dựng ứng dụng tìm kiếm ngữ nghĩa cho dữ liệu động vật
rừng;
Phổ biến thông tin và góp phần bảo tồn đa dạng sinh học rừng
của thành phố Đà Nẵng.
3. Đối tƣợng và phạm vi nghiên cứu
Đối tượng nghiên cứu là các vấn đề liên quan đến web ngữ
nghĩa, phương pháp xây dựng và lưu trũ dữ liệu trong web ngữ nghĩa,
nghiên cứu ontology, RDF và OWL, dữ liệu động vật rừng tại thành
phố Đà Nẵng.
Phạm vi nghiên cứu là dữ liệu động vật rừng phân bố trên địa
bàn thành phố, nghiên cứu về RDF, SPARQL, các ứng dụng biên tập
ontology: (Sesame, Jena, Protégé,…).
4. Phƣơng pháp nghiên cứu
Phương pháp lý thuyết: Tìm hiểu lý thuyết: Web ngữ nghĩa,
ontology, RDF. Tìm kiếm, tổng hợp dữ liệu động vật rừng trên địa
bàn thành phố Đà Nẵng. Nghiên cứu phương pháp và phần mềm xây
dựng web ngữ nghĩa. Nghiên cứu xây dựng ontology cho dữ liệu
động vật rừng.
Phương pháp thực nghiệm: Xây dựng ontology; Triển khai
thực tế trên internet.
5. Ý nghĩa khoa học và thực tiễn
Về mặt khoa học đề tài đóng góp phương pháp xây dựng
ontology về dữ liệu động vật nói chung và dữ liệu động vật rừng trên
địa bàn thành phố Đà Nẵng nói riêng, ứng dụng semantic web về mặt
4
tìm kiếm và vấn đề đa ngữ trong ontology, một công cụ hỗ trợ khai
thác, phát triển và tìm kiếm theo công nghệ web ngữ nghĩa.
Về thực tiễn đề tài mở ra hướng nghiên cứu ứng dụng mới về
tìm kiếm dữ liệu các loài động vật.
6. Bố cục đề tài
Luận văn được trình bày bao gồm các nội dung như sau :
Chương 1: Trong chương này, tôi trình bày cơ sở lý thuyết về
web ngữ nghĩa, ngôn ngữ RDF, OWL và nêu khái niệm về ontology,
đồng thời tôi giới thiệu và trích dẫn tổng quan thông tin động vật
rừng từ các nghiên cứu động vật trên địa bàn thành phố Đà Nẵng.
Chương 2: Chương này tôi tìm hiểu phương pháp xây dựng
ontology, từ đó đưa ra phương pháp xây dựng ontology động vật
rừng. Đồng thời, tôi tìm hiểu các phần mềm ứng dụng trong việc biên
tập và khai thác ontology.
Chương 3: Dựa trên những nghiên cứu, tìm hiểu ở chương 2,
tôi tiến hành đặc tả dữ liệu động vật rừng, tiến hành xây dựng chi tiết
ontology động vật rừng và phát triển các chức năng của phần mềm hỗ
trợ khai thác, tìm kiếm động vật rừng thành phố Đà Nẵng.
Ngoài ra, để đánh giá toàn bộ quá trình nghiên cứu, phần cuối
của luận văn có nêu lên kết quả và hướng phát triển cho đề tài.
5
CHƢƠNG 1
NGHIÊN CỨU TỔNG QUAN
1.1. TỔNG QUAN VỀ WEB NGỮ NGHĨA
1.1.1. Giới thiệu
1.1.2. Khái niệm
Web ngữ nghĩa được phát triển bởi Tim- Berners Lee, cha đẻ
của WWW, URIs, HTTP và HTML. Theo Ông, “Web ngữ nghĩa là
sự mở rộng của Web hiện tại, cho phép người dùng có thể truy tìm,
phối hợp, sử dụng lại và trích lọc thông tin một cách dễ dàng và
chính xác”.
1.1.3. Nội dung xây dựng hệ thống web ngữ nghĩa
1.1.4. Kiến trúc phân tầng của web ngữ nghĩa
1.2. RDF – NỀN TẢNG CỦA WEB NGỮ NGHĨA
1.2.1. Khái niệm
1.2.2. Mô hình RDF
1.2.3. Đồ thị RDF
1.2.4. Namespace
1.2.5. Literal
1.2.6. Kiểu dữ liệu có cấu trúc
1.2.7. RDFS (RDF Schema)
1.3. ONTOLOGY VÀ NGÔN NGỮ OWL
1.3.1. Định nghĩa ontology
Nhiều định nghĩa về ontology xuất hiện trong thập kỷ trước
nhưng có lẽ định nghĩa mô tả rõ nhất bản chất của ontology là: “An
ontology is a formal, explicit specification of a shared
conceptualization.” (Một ontology là một hình thức, đặc tả rõ ràng
khái niệm chia sẻ). Trong ngữ cảnh này, conceptualization (khái
niệm hoá) đề cập đến một mô hình trừu tượng của một vài hiện tượng
6
trong thế giới thực dùng để nhận dạng các khái niệm liên quan đến
hiện tượng đó. Explicit (rõ ràng) có nghĩa là loại khái niệm được sử
dụng và các ràng buộc khi sử dụng chúng được xác định một cách rõ
ràng, và formal (hình thức) có nghĩa là máy tính có thể hiểu được
ontology.
1.3.2. Các lĩnh vực ứng dụng ontology
1.3.3. Vai trò ontology và web ngữ nghĩa
1.3.4. Các thành phần của ontology
Ontology được sử dụng như là một biểu mẫu trình bày tri thức
về thế giới hay một phần của nó. Ontology thường miêu tả:
Cá thể: Các đối tượng cơ bản, nền tảng.
Lớp: Các tập hợp, hay kiểu của các đối tượng.
Thuộc tính: Thuộc tính, tính năng, đặc điểm, tính cách, hay
các thông số mà các đối tượng có và có thể đem ra chia sẻ.
Mối liên hệ: cách mà các đối tượng có thể liên hệ tới một đối
tượng khác.
Bộ từ vựng ontology được xây dựng trên cơ sở tầng RDF và
RDFS, cung cấp khả năng biểu diễn ngữ nghĩa mềm dẻo cho tài
nguyên Web và có khả năng hỗ trợ lập luận.
1.3.5. Cá thể (Individuals) – Thể hiện
1.3.6. Lớp (Classes) - Khái niệm
1.3.7. Thuộc tính (Properties)
1.3.8. Mối quan hệ (Relation)
1.3.9. Ngôn ngữ OWL
OWL (The Web Ontology Language) là một ngôn ngữ gần
như XML dùng để mô tả các hệ cơ sở tri thức. OWL là một ngôn ngữ
đánh dấu dùng để xuất bản và chia sẻ dữ liệu trên Internet thông qua
những mô hình dữ liệu gọi là “ontology”. Ontology mô tả một lĩnh
7
vực (domain) và diễn tả những đối tượng trong lĩnh vực đó cùng
những mối quan hệ giữa các đối tượng này. OWL là phần mở rộng về
từ vựng của RDF và được kế thừa từ ngôn ngữ DAML+OIL Web
ontology – một dự án được hỗ trợ bởi W3C. OWL biểu diễn ý nghĩa
của các thuật ngữ trong các từ vựng và mối liên hệ giữa các thuật ngữ
này để đảm bảo phù hợp với quá trình xử lý bởi các phần mềm.
1.3.10. Hệ truy vấn SPARQL
1.3.11. Cú pháp của câu truy vấn
1.3.12. Tạo một câu truy vấn đơn giản
1.4. ĐỘNG VẬT RỪNG TRÊN ĐỊA BÀN THÀNH PHỐ ĐÀ
NẴNG
1.4.1. Giới thiệu
1.4.2. Cấu trúc, thành phần loài động vật
Các loài này phân bố số loài không đồng đều trong các lớp
động vật, nhưng có thành phần loài đa dạng, đặc biệt là nguồn gen
các loài quý hiếm như: Gấu, Beo lửa, Mèo rừng, Sóc bay, Chồn dơi,
Cầy mực, Cu li, Voọc vá chân nâu, khỉ vàng, Trĩ sao, Công, Gà tiền,
Gà lôi lam, Mang trường sơn, Rái cá, Dơi chó tai ngắn và một số loài
bò sát, lưỡng cư khác.
Bảng 1.1. Phân bố thành phần loài động vật
TT Đơn vị thống kê Sông Bắc-Sông
Nam
Sơn Trà Bà Nà
1 Số Bộ 23 25 26
2 Số Họ 60 64 80
3 Số Loài 205 135 256
4 Loài quý hiếm 34 15 44
Phân bố các Taxon trong 3 lớp động vật có xương sống ở cạn
cho thấy sự khác nhau và phân bố không đồng đều.
8
Bảng 1.2. Phân bố 3 lớp động vật: thú, chim, bò sát
TT Lớp
Bộ Họ Loài
Sông
BắcSông
Nam
Sơn
Trà
Bà
Nà
Sông
BắcSông
Nam
Sơn
Trà
Bà
Nà
Sông
BắcSông
Nam
Sơn
Trà
Bà
Nà
1 Thú 9 8 8 23 18 26 55 36 61
2 Chim 14 15 16 37 34 46 150 106 178
3 Bò sát 2 2 2 4 8 8 9 24 17
Tổng số 25 25 26 64 64 80 214 165 256
Danh mục động vật rừng cần được ưu tiên bảo tồn trên địa bàn
thành phố trong giai đoạn 2014-2020 bao gồm các loài động vật rừng
nguy cấp, quý, hiếm và các loài động vật rừng thông thường nhưng
có giá trị về kinh tế, môi trường điển hình: Số lượng loài động vật
rừng nguy cấp, quý, hiếm: 75 loài; Số lượng loài động vật rừng thông
thường nhưng có giá trị về kinh tế, môi trường. Tổng số: 21 loài.
1.4.3. Cấu trúc, thành phần loài con trùng
1.5. MỘT SỐ NGHIÊN CỨU WEB NGỮ NGHĨA ĐÃ TRIỂN
KHAI
1.6. KẾT CHƢƠNG
Trong chương này, tôi trình bày cơ sở lý thuyết về web ngữ
nghĩa, ngôn ngữ RDF, OWL, hệ truy vấn SPARQL và nêu khái niệm
về ontology, đồng thời tôi giới thiệu và trích dẫn tổng quan thông tin
động vật rừng tham khảo từ một số nghiên cứu động vật trên địa bàn
thành phố Đà Nẵng và tìm hiểu một số nghiên cứu về web ngữ nghĩa
đã triển khai trước đây.
Từ đó, tôi có nhưng kiến thức cơ bản về lý thuyết, những
thông tin, dữ liệu ban đầu về hệ động vật rừng của thành phố Đà
9
Nẵng và có được danh mục các nghiên cứu đã thực hiện để tiến hành
thu thập dữ liệu chi tiết, phục vụ cho việc kế thừa, áp dụng thực hiện
các chương tiếp theo của luận văn.
CHƢƠNG 2
PHƢƠNG PHÁP VÀ PHẦN MỀM
XÂY DỰNG ONTOLOGY
2.1. GIỚI THIỆU
2.2. PHƢƠNG PHÁP XÂY DỰNG ONTOLOGY
Quy trình phát triển Ontology là một quy trình gồm nhiều
bước, tuy nhiên vẫn chưa có một phương pháp chuẩn hóa nào để phát
triển các ontology. Quy trình phát triển gồm 7 bước do Stanford
Center for Biomedical Informatics Research đưa ra được đa số các
nghiên cứu trước đây chọn và tuân theo (đây là nhóm phát triển phần
mềm Protégé để trình diễn và soạn thảo Ontology).
2.2.1. Bƣớc 1: Xác định lĩnh vực và phạm vi của Ontology
2.2.2. Bƣớc 2: Xem xét việc kế thừa các ontology có sẵn
2.2.3. Bƣớc 3: Liệt kê các thuật ngữ quan trọng
2.2.4. Bƣớc 4: Xác định các lớp và phân cấp của các lớp
2.2.5. Bƣớc 5: Xác định các thuộc tính
2.2.6. Bƣớc 6: Xác định ràng buộc của các thuộc tính
2.2.7. Bƣớc 7: Tạo các thể hiện/ thực thể
2.3. QUY TRÌNH XÂY DỰNG ONTOLOGY CHO DỮ LIỆU
ĐỘNG VẬT RỪNG
Thông tin về đồng vật rừng thành phố Đà Nẵng đã được tìm
hiểu và tổng hợp ở mục Chương 1, Mục 1.4. Việc xây dựng ontology
cho dữ liệu động vật rừng tuân thủ theo quy trình phát triển