Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

tìm hiểu về web crawler và xây dựng website tổng hợp thông tin
PREMIUM
Số trang
61
Kích thước
2.0 MB
Định dạng
PDF
Lượt xem
1876

tìm hiểu về web crawler và xây dựng website tổng hợp thông tin

Nội dung xem thử

Mô tả chi tiết

Tìm hiểu về web crawler và xây dựng website tổng hợp thông tin 2010

I

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Minh Phúc

TÌM HIỂU VỀ WEB CRAWLER VÀ XÂY DỰNG

WEBSITE TỔNG HỢP THÔNG TIN

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

HÀ NỘI - 2010

Tìm hiểu về web crawler và xây dựng website tổng hợp thông tin 2010

II

HÀ NỘI - 20< hai số cuối của năm bảo vệ KLTN>

(chữ hoa, 12pt, đậm, căn giữa)

LỜI CẢM ƠN

Tôi xin bày tỏ lòng biết ơn sâu sắc của mình đến thầy Hoàng Xuân Huấn, thuộc

bộ môn Khoa học máy tính, khoa Công nghệ thông tin, trường Đại học Công Nghệ,

ĐHQGHN. Trong quá trình thực hiện khóa luận, thầy đã nhiệt tình giúp đỡ, giải đáp

các thắc mắc tạo động lực giúp tôi hoàn thành khóa luận tốt nghiệp này.

Tôi cũng xin được bày tỏ lời cảm ơn tới các thầy cô trong bộ môn nói riêng và

trong khoa Công nghệ thông tin nói chung đã nhiệt tình giảng dạy để giúp chúng tôi có

được như ngày hôm nay.

Cuối cùng là lời cảm ơn tới gia đình, bạn bè những người luôn sát cánh bên tôi

những lúc khó khăn, luôn ủng hộ giúp đỡ để tôi hoàn thành khóa luận này.

Tìm hiểu về web crawler và xây dựng website tổng hợp thông tin 2010

III

TÓM TẮT NỘI DUNG

Do nhu cầu thu thập thông tin của con người ngày càng tăng, lượng thông tin trên

internet ngày càng phong phú nên vấn đề tổng hợp thông tin ngày càng trở nên bức

thiết. Với một lượng dữ liệu lớn việc thu thập bằng tay tốn rất nhiều công sức, và

không đạt hiệu quả cao, chính vì thế cần một công nghệ có thể tổng hợp thông tin một

cách tự động và trình thu thập web đã ra đời.

Đề tài khóa luận đặt ra vấn đề tìm hiểu về trình thu thập thông tin trên web và

bước đầu sẽ xây dựng một ứng dụng có khả năng tổng hợp thông tin tự động từ trang

báo điện tử lớn là trang Dân trí (http://dantri.com.vn). Ứng dụng được viết bằng ngôn

ngữ lập trình PHP tương tác với cơ sở dữ liệu mySQL và được xây dựng dựa trên các

tiêu chí: tốc độ thu thập nhanh, cơ sở dữ liệu gọn nhẹ, đảm bảo tính toàn vẹn của tài

liệu gốc.

Tìm hiểu về web crawler và xây dựng website tổng hợp thông tin 2010

IV

MỤC LỤC

MỞ ĐẦU ........................................................................................................1

CHƯƠNG 1. TÌM HIỂU VỀ TRÌNH THU THẬP WEB................................3

1.1. GIỚI THIỆU VỀ TRÌNH THU THẬP WEB ............................................3

1.2. CÁCH XÂY DỰNG MỘT HẠ TẦNG THU THẬP .................................4

1.2.1. Frontier..............................................................................................6

1.2.2. Lược sử và kho lưu trữ trang ..............................................................7

1.2.3. Cách lấy trang ....................................................................................8

1.2.3.1. Tiêu chuẩn loại trừ robot..............................................................9

1.2.4. Bóc tách trang ..................................................................................10

1.2.4.1. Tiêu chuẩn trích xuất URL.........................................................11

1.2.4.2. Mô hình thẻ HTML dạng cây.....................................................12

1.2.5. Trình thu thập đa luồng ....................................................................13

1.3. CÁC CHIẾN LƯỢC THU THẬP DỮ LIỆU...........................................15

1.3.1. Chiến lược thu thập dữ liệu theo chiều sâu .......................................16

1.3.2. Chiến lược thu thập dữ liệu theo chiều rộng......................................16

1.3.3. Chiến lược thu thập dữ liệu theo ngẫu nhiên.....................................17

1.3.4. Chiến lược thu thập dữ liệu theo lựa chọn tốt nhất ngây thơ. ............17

1.4. ĐÁNH GIÁ CỦA TRÌNH THU THẬP...................................................19

1.4.1. Độ quan trọng của trang web ............................................................20

1.4.2. Phân tích tổng quát...........................................................................21

1.4.2.1. Thước đo độ chính xác...............................................................22

1.4.2.2. Thước đo độ hoàn chỉnh.............................................................22

Tìm hiểu về web crawler và xây dựng website tổng hợp thông tin 2010

V

CHƯƠNG 2. XÂY DỰNG WEBSITE TỔNG HỢP THÔNG TIN...............25

2.1. CÁC KIẾN THỨC NỀN TẢNG.............................................................25

2.1.1. Mạng toàn cầu ..................................................................................25

2.1.2. Giao thức truyền tải siêu văn bản......................................................28

2.1.3. Ngôn ngữ đánh dấu siêu văn bản ......................................................28

2.2. CÁC CÔNG NGHỆ LIÊN QUAN .........................................................30

2.2.1. Ngôn ngữ lập trình PHP ...................................................................30

2.2.1.1. Biểu thức chính quy ...................................................................31

2.2.1.2. Các hàm xử lý chuỗi ..................................................................34

2.2.1.2.1. Tìm kiếm chuỗi trong chuỗi.................................................34

2.2.1.2.2. Tìm vị trí của chuỗi con.......................................................34

2.2.1.2.3. Hàm so sánh chuỗi...............................................................34

2.2.1.2.4. Kiểm tra chiều dài của chuỗi ...............................................35

2.2.2. MySQL ............................................................................................35

2.2.3. Một số công nghệ và tiện ích khác....................................................37

2.2.3.1. Add-ons firebug của firefox .......................................................37

2.2.3.2. Ajax ...........................................................................................37

2.3. PHÂN TÍCH...........................................................................................38

2.3.1. Cấu trúc bài viết trong trang báo điện tử...........................................38

2.3.2. Các cách thu thập bài viết.................................................................42

2.3.2.1. Cách làm truyền thống ...............................................................42

2.3.2.1.1. Các bước thực hiện..............................................................42

2.3.2.1.2. Nhận xét..............................................................................44

2.3.2.2. Cách làm mới.............................................................................45

2.3.2.2.1. Các bước thực hiện..............................................................45

2.3.2.2.2. Nhận xét..............................................................................46

Tìm hiểu về web crawler và xây dựng website tổng hợp thông tin 2010

VI

2.4. THIẾT KẾ ..............................................................................................47

2.4.1. Cấu trúc cơ sở dữ liệu.......................................................................47

2.4.1.1. Danh sách các bảng....................................................................47

2.4.1.2. Chi tiết các bảng ........................................................................47

2.4.2. Phần quản trị cơ sở dữ liệu ...............................................................49

2.4.3. Phần giao diện chính trang web ........................................................50

CHƯƠNG 3: KẾT LUẬN..............................................................................50

3.1. CÁC KẾT QUẢ ĐÃ ĐẠT ĐƯỢC ..........................................................51

3.2. HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI ...................................................51

TÀI LIỆU THAM KHẢO...............................................................................53

Tải ngay đi em, còn do dự, trời tối mất!