Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

kỹ thuật tìm kiếm văn bản trên cơ sở nội dung trong cơ sở dữ liệu đa phương tiện
PREMIUM
Số trang
60
Kích thước
2.1 MB
Định dạng
PDF
Lượt xem
1905

kỹ thuật tìm kiếm văn bản trên cơ sở nội dung trong cơ sở dữ liệu đa phương tiện

Nội dung xem thử

Mô tả chi tiết

2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ THU TRANG

KỸ THUẬT TÌM KIẾM VĂN BẢN TRÊN CƠ SỞ NỘI DUNG

TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN

LUẬN VĂN THẠC SỸ

Hà Nội - 2010

3

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT 5

DANH MỤC CÁC BẢNG 6

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 7

MỞ ĐẦU 8

CHƯƠNG 1- TỔNG QUAN 11

1.1 Khái quát về cơ sở dữ liệu (CSDL) đa phương tiện [1] [10] [12] 11

1.1.1 Giới thiệu 11

1.1.2 Mục tiêu chính 13

1.1.3 Mô hình dữ liệu đa phương tiện 13

1.2 Trích chọn đặc trưng, chỉ mục và đo tính tương tự [1] 14

1.2.1 Trích chọn đặc trưng 15

1.2.2 Chỉ số hóa cấu trúc 16

1.2.3 Đo tính tương tự 17

1.3 Hệ thống truy tìm thông tin (IR-Information retrieval) [1] [3] [4] [9] [13] 17

1.3.1 Khái quát 17

1.3.2 Vấn đề truy tìm tài liệu văn bản (Text retrieval) 18

1.3.3 Phân biệt các hệ thống IR và DBMS (DataBase Manager System) 20

1.4 xếp hạng tài liệu (Ranking) [1] [8] 21

CHƯƠNG 2- MỘT SỐ KỸ THUẬT TÌM KIẾM 25

2.1 Các truy vấn Boolean và chỉ mục tài liệu [1] [5] [11] 25

2.1.1 Truy vấn Boolean 25

2.1.2 Cấu trúc tệp 26

2.1.3 Các từ dừng và từ gốc 27

2.1.4 Chỉ số hoá và bổ sung 28

2.1.5 Kỹ thuật nén chỉ số (index compression) 29

2.1.6 Chỉ mục tự động 31

2.2 Thước đo hiệu năng [1] [5] [8] 33

2.3 Mô hình truy tìm không gian vectơ [1] [11] 36

2.4 Mô hình truy tìm theo xác suất [1] [6] 37

2.5 Mô hình truy tìm trên cơ sở cụm [1] [6] 38

2.6 Kỹ thuật phản hồi phù hợp [1] [11] 39

2.7 Mô hình LSI (Latent semantic indexing) [1] [5] [6] [7] [8] [9] 40

2.7.1 Ý tưởng cơ bản của LSI 40

2.7.2 Một số khái niệm cơ bản 42

4

2.7.3 Kỹ thuật SVD (singular value decomposition) 43

CHƯƠNG 3- CÀI ĐẶT THỰC NGHIỆM MÔ HÌNH LSI 54

3.1 Bài toán 54

3.2 Chức năng của chương trình 55

3.3 Hoạt động cơ bản trong chương trình 56

KẾT LUẬN 60

TÀI LIỆU THAM KHẢO 61

5

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

Ký hiệu viết tắt Tiếng Anh Tiếng Việt

CSDL DataBase Cơ sở dữ liệu

DBMS DataBase Manager System Hệ quản trị Cơ sở dữ liệu

IDF Inverse Document Frequency Tần số xuất hiện tài liệu

IR Information retrieval Truy tìm thông tin

LSI Latent Semantic Indexing Chỉ số hóa ngữ nghĩa ẩn

MIRS Multimedia Information Retrieval

System

Hệ thống truy tìm thông tin đa

phương tiện

SVD Singular Value Decomposition Tách giá trị riêng

TF Term Frequency Tần số xuất hiện thuật ngữ

6

DANH MỤC CÁC BẢNG

Bảng 1.1 Ma trận tài liệu - thuật ngữ..............................................................................23

Bảng 1.2 Ma trận kết quả tài liệu - thuật ngữ TF-IDF ....................................................24

Bảng 1.3 Kết quả khoảng cách từ truy vấn Q với các tài liệu..........................................24

Bảng 2.1 Kết quả recall và precision ..............................................................................35

Bảng 2.2 Số lần xuất hiện của thuật ngữ trong mỗi tài liệu.............................................44

7

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hinh 1.1 Mô hình dữ liệu đa phương tiện .......................................................................14

Hình 1.2 Hệ thống IR tiêu biểu .......................................................................................19

Hình 1.3 Tiến trình truy vấn tài liệu................................................................................21

Hình 2.1 Sơ đồ duy trì các chỉ số trong tập hợp động .....................................................29

Hình 2.2 Mô tả recall......................................................................................................33

Hình 2.3 Mô tả Precision................................................................................................34

Hình 2.4 Đồ thị so sánh hiệu năng..................................................................................35

Hình 2.5 Sử dụng các khái niệm cho truy vấn .................................................................41

Hình 2.6 Biểu đồ 2-D của 12 thuật ngữ và 9 tài liệu từ tập mẫu......................................45

Hình 2.7 Sơ đồ SVD của một ma trận hình chữ nhật thuật ngữ- tài liệu..........................46

Hình 2.8 Sơ đồ của SVD được giảm lược của một ma trận thuật ngữ-tài liệu .................47

Hình 2.9 Đồ thị Recall – Precision của thuật toán LSI....................................................53

Hình 3.1 Sơ đồ chức năng...............................................................................................55

Hình 3.2 Chức năng thêm tài liệu ...................................................................................56

Hình 3.3 Chức năng xóa tài liệu .....................................................................................56

Hình 3.4 Chức năng phân tích và tìm kiếm tại bước 1.....................................................57

Hình 3.5 Chức năng phân tích và tìm kiếm tại bước 2.....................................................57

Hình 3.6 Chức năng phân tích và tìm kiếm tại bước 3.....................................................58

Hình 3.7 Chức năng phân tích và tìm kiếm ở những bước cuối cùng...............................59

Hình 3.8 Đồ thị biểu diễn các vecto tài liệu và vecto truy vấn.........................................59

Tải ngay đi em, còn do dự, trời tối mất!