Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Giải pháp tính hạng trang khai thác cấu trúc Block của web và áp dụng vào máy tìm kiếm
MIỄN PHÍ
Số trang
36
Kích thước
1.1 MB
Định dạng
PDF
Lượt xem
1304

Giải pháp tính hạng trang khai thác cấu trúc Block của web và áp dụng vào máy tìm kiếm

Nội dung xem thử

Mô tả chi tiết

Luận văn tốt nghiệp

Giải pháp tính hạng trang khai thác cấu trúc

Block của web và áp dụng vào máy tìm kiếm

1

Mở đầu

Ngày nay, với những tác động to lớn và mạnh mẽ của mạng Internet tới đời

sống kinh tế, chính trị và văn hóa của con người, lĩnh vực khai phá dữ liệu Web đã và

đang trở thành lĩnh vực nghiên cứu thời sự, thu hút được sự quan tâm của rất nhiều nhà

nghiên cứu. Khai phá dữ liệu Web là điểm hội tụ của rất nhiều lĩnh vực nghiên cứu

như: cơ sở dữ liệu, truy xuất thông tin (information retrival), trí tuệ nhân tạo, nó còn là

một lĩnh vực nhỏ trong học máy (machine learning) và xử lý ngôn ngữ tự nhiên.

Một trong những lĩnh vực nghiên cứu đang rất được quan tâm hiện nay trong

khai phá Web là việc xây dựng các công cụ tìm kiếm trên Web. Bởi trong bối cảnh xã

hội thông tin ngày nay, nhu cầu nhận được các thông tin một cách nhanh chóng, chính

xác đang ngày càng trở nên cấp thiết. Để tìm ra được các thông tin có ích đối với mỗi

người dùng, đặc biệt là với những người dùng thiếu kinh nghiệm hoàn toàn không phải

là việc đơn giản. Với một công cụ tìm kiếm, khả năng người dùng có thể duyệt Web

và định vị được các trang Web mình quan tâm đã trở nên dễ dàng hơn nhiều.

Tuy nhiên hiện nay, do sự phát triển và thay đổi với tốc độ quá nhanh của

Internet, các công cụ tìm kiếm đang phải đối mặt với những bài toán nan giải về tốc

độ. Trong đó có bài toán về tốc độ tính toán hạng cho các trang Web, thực thi nhiệm

vụ tính toán độ “quan trọng” cho các trang thông tin kết quả tìm được so với yêu cầu

tìm kiếm của người dùng. Vì kích thước của World Wide Web là vô cùng lớn, lên tới

hàng tỉ trang web, không những thế các trang Web này không ở trạng thái tĩnh mà luôn

luôn thay đổi. Do đó tính hiệu quả về thời gian càng trở nên quan trọng. Nếu phép tính

PageRank cho tập các trang web trong cơ sở dữ liệu không đủ nhanh, hệ thống tìm

kiếm sẽ không cung cấp được chất lượng tìm kiếm tốt cho người dùng.

Ý thức đây là một lĩnh vực nghiên cứu có nhiều triển vọng, chúng tôi đã chọn

hướng nghiên cứu “Giải pháp tính hạng trang khai thác cấu trúc Block của Web và

áp dụng vào máy tìm kiếm” cho đề tài khóa luận tốt nghiệp của mình. Khóa luận tập

trung nghiên cứu bài toán tính hạng trang web (PageRank) trong các máy tìm kiếm:

cấu trúc, thuật toán cũng như các tiêu chuẩn đánh giá quá trình này. Chúng tôi cũng đã

áp dụng các lý thuyết trên để đi sâu phân tích mã nguồn, tìm hiểu cơ chế thực thi quá

trình tính PageRank trong máy tìm kiếm Vinahoo, một máy tìm kiếm tiếng Việt mã

nguồn mở với nhiều tính năng ưu việt. Từ việc nghiên cứu này, chúng tôi đã đề xuất

một giải pháp áp dụng khái niệm thành phần liên thông trong ma trận liên kết Web

trong Vinahoo, đồng thời thực hiện việc cài đặt thử nghiệm trên mã nguồn của máy

tìm kiếm này.

Nội dung của khóa luận được tổ chức thành bốn chương với nội dung được

giới thiệu như dưới đây.

2

Chương 1 với tên gọi “Tổng quan về khai phá dữ liệu web và máy tìm kiếm”

trình bày về những nội dung nghiên cứu cơ bản của khai phá web, những thuận lợi và

khó khăn trong lĩnh vực này. Phần cuối của chương này trình bày các thành phần cơ

bản của một máy tìm kiếm.

“Một số thuật toán tính hạng trang điển hình” là tiêu đề của chương 2. Phần

đầu chương này giới thiệu tổng quan về bài toán xêp hạng trang Web trong máy tìm

kiếm và thuật toán tính PageRank cơ bản. Việc phân tích nhu cầu tăng tốc độ tính toán

PageRank trong máy tìm kiếm, một số thuật toán cải tiến từ phương pháp PageRank

cùng với đánh giá được trình bày trong phần cuối của chương.

Chương 3 với tên gọi “Thuật toán sử dụng cấu trúc Block theo thành phần

liên thông” tập trung nghiên cứu về giải pháp khai thác cấu trúc Web. Chương này

giới thiệu khái niệm, một số vấn đề về lý thuyết, chứng minh và đánh giá thuật toán

CCP sử dụng cấu trúc này.

Chương 4 với tiêu đề “Giải pháp tính hạng trang cải tiến cho máy tìm kiếm

Vinahoo” giới thiệu thành phần tính PageRank trong module đánh chỉ số của

Vinahoo, các cải tiến, cài đặt và đánh giá kết quả thực nghiệm.

Tải ngay đi em, còn do dự, trời tối mất!