Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Luận văn: Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai docx
PREMIUM
Số trang
44
Kích thước
1.4 MB
Định dạng
PDF
Lượt xem
1868

Luận văn: Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai docx

Nội dung xem thử

Mô tả chi tiết

Luận văn

Phân cụm tập kết quả tìm

kiếm web dựa vào tập

thô dung sai

Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai

11

Mục lục

CHƢƠNG 1 ....................................................................................................................... 4

VẤN ĐỀ TÌM KIẾM THÔNG TIN TRÊN WEB.......................................................... 4

1.1. Máy truy tìm Web............................................................................................. 4

1.1.1. Web Crawler ............................................................................................. 5

1.1.2. Document Index (lập chỉ mục tài liệu).................................................... 5

1.1.3. Document Cache(lƣu trữ tài liệu)............................................................ 6

1.1.4. Document Ranking ................................................................................... 6

1.1.5. Query Processor(bộ xử lý truy vấn)........................................................ 6

1.1.6. Presentation interface(giao diện trình bày)............................................ 6

2.1. Trình bày kết quả tìm kiếm của máy truy tìm Web Google......................... 7

CHƢƠNG II.................................................................................................................... 10

PHÂN CỤM TẬP KẾT QUẢ TÌM KIẾM WEB DỰA VÀO TẬP THÔ DUNG SAI

........................................................................................................................................... 10

2.1. Khái niệm phân cụm....................................................................................... 10

2.2. Phân cụm tập kết quả tìm kiếm Web............................................................ 10

2.2.1. Khái niệm................................................................................................. 10

2.2.2. Phép đo độ tƣơng tự ............................................................................... 11

2.2.3. Đặc điểm .................................................................................................. 12

2.2.4. Hiệu quả................................................................................................... 13

2.2.5. Yêu cầu..................................................................................................... 13

2.3. Lý thuyết tập thô............................................................................................. 14

2.3.1. Giới thiệu ................................................................................................. 14

2.3.2. Quan hệ không thể phân biệt................................................................. 15

2.3.3. Hàm thuộc thô......................................................................................... 16

2.3.4. Định nghĩa Hệ thông tin ......................................................................... 16

2.3.5. Không gian xấp xỉ tổng quát (Generalized approximation spaces) ... 19

2.4. Mô hình tập thô dung sai (TRSM) ................................................................ 21

2.4.1. Không gian tolerance của các từ............................................................ 21

2.4.2. Biểu diễn tài liệu...................................................................................... 23

3. Phƣơng pháp trọng số mở rộng đối với xấp xỉ trên......................................... 24

Chƣơng III Giải thuật phân cụm tập kết quả tìm kiếm web.................................... 26

3.1. Giải thuật......................................................................................................... 26

3.1.1. Tiền xử lý snippet........................................................................................ 27

3.1.2. Trích chọn những từ đặc trƣng của mỗi snippet ..................................... 28

3.1.3. Sinh lớp tolerance ....................................................................................... 31

3.1.4. Giải thuật phân cụm K-means................................................................... 34

3.1.5. Tạo nhãn cho mỗi nhóm............................................................................. 36

3.2. Một số thuật toán phân cụm không giám sát ............................................... 37

3.2.1. Phƣơng pháp phân hoạch ...................................................................... 37

3.2.2. Phƣơng pháp phân cấp........................................................................... 37

Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai

22

LỜI CẢM ƠN

Sau thời gian làm đồ án, lời đầu tiên em xin cảm ơn thầy giáo huớng dẫn

Th.s Nguyễn Trọng Thể đã tận tình hướng dẫn, chỉ bảo và tạo mọi điều kiện

thuận lợi để em hoàn thành tốt đồ án tốt nghiệp được giao.

Em xin chân thành cảm ơn các thầy cô giáo trong khoa công nghệ thông

tin trường Đại học dân lập Hải Phòng đã giảng dạy và cung cấp tất cả các kiến

thức chuyên môn cần thiết và quý giá nhất. Ngoài ra chúng em còn được rèn

luyện một tinh thần học tập và sáng tạo. Đây chính là tính cách hết sức cần

thiết để có thể thành công khi bắt tay vào công việc trong tương lai.

Cuối cùng em xin gửi lời cảm ơn tới tất cả người thân, bạn bè đã giúp đỡ,

động viên và đóng góp nhiều ý kiến quý báu cho em trong quá trình làm báo

cao tốt nghiệp này.

Em xin trân trọng cảm ơn!

Hải Phòng, tháng 8 năm 2007

Sinh viên

Nguyễn Thị Việt Ánh

Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai

33

LỜI MỞ ĐẦU

Ngày nay với sự bùng nổ thông tin , Word Wide Web(www) trở thành

nguồn tài nguyên khổng lồ và quý giá. Nó cung cấp cho chúng ta thông tin về mọi

lĩnh vực đời sống xã hội, khoa học v.v… Tuy nhiên đi đôi với sự thuận lợi ấy có

một vấn đề được đặt ra là chúng ta làm thế nào để truy cập và khai phá được

nguồn tài nguyên ấy hiệu quả nhất.

Từ vấn đề trên người ta đã nghiên cứu và tạo ra Máy truy tìm web(Web

search engine). Máy này có khả năng tìm kiếm thông tin linh hoạt , nhanh chóng

và rất dễ sử dụng . Người sử dụng chỉ cần đặt câu hỏi truy vấn về vấn đề cần quan

tâm là có được tập kết quả liên quan đến câu hỏi truy vấn đó.Hiện nay Google1

,

Altavista2

, HotBot3

, Lycos4

, AllTheWeb5

là những máy truy tìm hiệu quả và đang

được sử dụng rộng rãi .

Ngoài ra, người ta cũng đã tạo ra các thư mục Web , chẳng hạn như Yahoo6

,Open Directory Project7

. Theo kiểu này thì các tài liệu Web được sắp xếp thành

các thư có phân cấp, người sử dụng có thể tìm thông tin bắng cách duyệt các cây

thư mục và xác định tài liệu mình cần tìm.

Thế nhưng việc tìm kiếm thông tin theo những kiểu trên vẫn không hiệu

quả , chiếm nhiều thời gian vì:

-Khối lượng dữ liệu khổng lồ và tính động của các trang Web, nên máy truy

tìm chỉ có thể sắp xếp một phần các chỉ mục của Web.

-Người sử dụng đặt câu hỏi truy vấn quá ngắn, không thể hiện được hết ý

định của họ , do vậy mà tập kết quả tìm kiếm Web là chung chung.

Từ ảnh hưởng hai nhân tố trên tập kết quả tìm kiếm Web có thể từ hàng

nghìn đến hang triệu tài liệu, do đó tìm được đúng tài liệu mình cần là công việc

vô cùng khó khăn.

1 http://www.google.com

2 http://www.altavista.com

3 http://www.hotbot.com

4 http://www.lycos.com

5 http://www.alltheweb.com

6 http://www.yahoo.com

7 http://www.dmoz.org

Tải ngay đi em, còn do dự, trời tối mất!