Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nghiên cứu các kỹ thuật rút trích thông tin web và phát triển hệ thống tư vấn tuyển sinh tự động
PREMIUM
Số trang
81
Kích thước
4.4 MB
Định dạng
PDF
Lượt xem
1897

Nghiên cứu các kỹ thuật rút trích thông tin web và phát triển hệ thống tư vấn tuyển sinh tự động

Nội dung xem thử

Mô tả chi tiết

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH

BÁO CÁO TỔNG KẾT

ĐỀ TÀI NGHIÊN CỨU KHOA HỌC SINH VIÊN

NGHIÊN CỨU CÁC KỸ THUẬT RÚT TRÍCH

THÔNG TIN WEB VÀ PHÁT TRIỂN HỆ THỐNG TƯ

VẤN TUYỂN SINH TỰ ĐỘNG

TP.Hồ Chí Minh, Tháng 04/2018

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH

BÁO CÁO TỔNG KẾT

ĐỀ TÀI NGHIÊN CỨU KHOA HỌC SINH VIÊN

NGHIÊN CỨU CÁC KỸ THUẬT RÚT TRÍCH

THÔNG TIN WEB VÀ PHÁT TRIỂN HỆ THỐNG TƯ

VẤN TUYỂN SINH TỰ ĐỘNG

Chủ nhiệm đề tài: Nguyễn Thị Bích Mi

Khoa: Công nghệ thông tin

Các thành viên: Phan Thị Tường Vi

Người hướng dẫn: ThS.Dương Hữu Thành

TP.Hồ Chí Minh, Tháng 04/2018

Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành

2 | T r a n g

MỤC LỤC

NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN ............................................................3

DANH MỤC CÁC THUẬT NGỮ TIẾNG ANH VÀ CHỮ VIẾT TẮT........................4

DANH MỤC HÌNH ........................................................................................................6

DANH MỤC BẢNG BIỂU.............................................................................................8

CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI.............................................................................1

1.1. Giới thiệu tổng quan .........................................................................................4

1.2. Các nghiên cứu liên quan .................................................................................4

1.3. Lý do chọn đề tài ..............................................................................................5

1.4. Mục tiêu và phương pháp nghiên cứu ..............................................................5

1.4.1. Mục tiêu nghiên cứu .......................................................................................5

1.4.2. Phương pháp nghiên cứu ................................................................................6

1.5. Đối tượng và phạm vi nghiên cứu. ...................................................................6

1.6. Đóng góp khoa học của đề tài ..........................................................................6

1.7. Bố cục báo cáo..................................................................................................7

CHƯƠNG 2: HỆ THỐNG TƯ VẤN TUYỂN SINH TỰ ĐỘNG..................................8

2.1. Giới thiệu ..........................................................................................................8

2.2. Cơ sở lý thuyết..................................................................................................9

2.2.1. Rút trích dữ liệu ..............................................................................................9

2.2.2. Xử lý ngôn ngữ tự nhiên...............................................................................24

2.3. Full text search................................................................................................42

2.3.1. Tính độ tương đồng câu sử dụng độ đo Cosine............................................46

2.4. Kiến trúc hệ thống ..........................................................................................52

2.5. Cài đặt.............................................................................................................53

2.5.1. Phần mềm: Yêu cầu phần mềm ....................................................................53

2.5.2. Cấu trúc chương trình ...................................................................................53

CHƯƠNG 3: THỰC NGHIỆM, KẾT LUẬN, HƯỚNG PHÁT TRIỂN......................55

3.1. Thực nghiệm ứng dụng...................................................................................55

3.1.1. Thiết lập môi trường (Virtual Environment)................................................55

3.1.2. Bảng các thư packages dùng trong hệ thống ................................................55

3.1.3. Rút trích dữ liệu ............................................................................................56

3.1.4. Tách từ ..........................................................................................................61

3.1.5. Đánh chỉ mục và tìm kiếm............................................................................63

Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành

3 | T r a n g

3.1.6. Tính độ tương đồng ......................................................................................66

3.2. Kết quả thực nghiệm.......................................................................................67

3.3. Kết quả đạt được.............................................................................................68

3.4. Những vấn đề còn tồn tại................................................................................69

3.5. Hướng phát triển.............................................................................................69

TÀI LIỆU THAM KHẢO...........................................................................................70

Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành

4 | T r a n g

DANH MỤC CÁC THUẬT NGỮ TIẾNG

ANH VÀ CHỮ VIẾT TẮT

STT Kí hiệu Diễn giải

1 NLP Natural Language Processing : Xử lý ngôn ngữ tự nhiên

2 NLTK Natural Language Toolkit: Bộ công cụ ngôn ngữ tự nhiên

3 XML Extensible MarkupLanguage: ngôn ngữ đánh dấu mở rộng

4 XSL Extensible Stylesheet Language: ngôn ngữ mở rộng chuyển

đổi các file XML

5 HTML HyperText Markup Language: ngôn ngữ đánh dấu siêu văn

bản

6 TF Term Frequency : Tần số văn bản

7 IDF Inverse Document Frequency: Nghịch đảo tần số văn bản

8 Regex Regular expression: Biểu thức chính quy

9 Database Cơ sở dữ liệu

10 Collection Bộ sưu tập

11 Document Tài liệu

12 Python Ngôn ngữ lập trình Python

13 Ubuntu Hệ điều hành ubuntu

14 Windows Hệ điều hành Windows

15 Project Dự án

Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành

5 | T r a n g

16 Virtual

Environment

Môi trường ảo

17 Crawl Thu thập thông tin

18 Package Gói

19 Requests Yêu cầu

20 Website Trang web/ Trang mạng

21 Url Uniform Resource Locator: Định vị Tài nguyên thống nhất

22 Response Trả về

Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành

6 | T r a n g

DANH MỤC HÌNH

Hình 2.1. Cách lấy XPath ................................................................................................9

Hình 2.2. Sao chép XPath từ trình duyệt Chrome.........................................................10

Hình 2.3. Các quy tắc xác định CSS Selector ...............................................................11

Hình 2.4: Một số ví dụ về module re trong python .......................................................16

Hình 2.5: Những thành phần chính và cách thức hoạt động của Scrapy framework....17

Hình 2.6: Cấu trúc của một scrapy project....................................................................19

Hình 2.7: Các phần của selenium..................................................................................20

Hình 2.8: Ví dụ sử dụng selenium.................................................................................23

Hình 2.9: Kết quả thực hiện ví dụ sử dụng selenium....................................................23

Hình 2.10: Mô hình Parse tree.......................................................................................26

Hình 2.11: Ví dụ Information Extraction ......................................................................27

Hình 2.12: Ví dụ về NER ..............................................................................................27

Hình 2.13: Ví dụ Sentiment Analysis............................................................................28

Hình 2.14: Ví dụ Bag of Words .....................................................................................28

Hình 2.15: Ví dụ Latent Dirichlet Allocation ................................................................29

Hình 2.16: Chính cuốn sách mà package Book trong nltk cung cấp ............................33

Hình 2.17: Tìm từ trong văn bản bằng phương thức concordance().............................34

Hình 2.18: Tìm từ xuất hiện trong ngữ cảnh tương tự ..................................................34

Hình 2.19: Hiển thị các sentence...................................................................................34

Hình 2.20: Lấy tần xuất các từ ......................................................................................35

Hình 2.21: Hiển thị biểu đồ tần xuất .............................................................................35

Hình 2.22: Biểu đồ thể hiện tần xuất của 30 từ được dùng nhiều nhất trong text1.......36

Hình 2.23: Sử dụng bigtams..........................................................................................36

Hình 2.24: Lấy collocations ..........................................................................................37

Hình 2.25: Lấy stop words tiếng Anh ...........................................................................37

Hình 2.26: Lọc stop words ............................................................................................38

Hình 2.27: Kết quả lọc stop words................................................................................38

Hình 2.28: Sentence Tokenization trong nltk................................................................38

Hình 2.29: Word Tokenization trong nltk .....................................................................39

Hình 2.30: POS tagging trong nltk ................................................................................39

Hình 2.31: NE Chunk trong nltk ...................................................................................39

Hình 2.32: Parse tree .....................................................................................................39

Hình 2.33: Phương thức word_sent trong under the sea ...............................................40

Hình 2.34: Phương thức pos_tag trong under the sea ...................................................40

Hình 2.35: Phương thức chunk trong under the sea ......................................................41

Hình 2.36: Phương thức ner trong under the sea...........................................................41

Hình 2.37: Phương thức classify trong under the sea....................................................41

Hình 2.38: Tạo Schema .................................................................................................44

Hình 2.39: Tạo đối tượng index ....................................................................................44

Hình 2.40: Lưu các document vào chỉ mục...................................................................44

Hình 2.41: tạo đối tượng Searcher.................................................................................45

Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành

7 | T r a n g

Hình 2.42: Đối tượng truy vấn trực tiếp “apple and bear” ............................................45

Hình 2.43: Bộ phân tích truy vấn QueryParser .............................................................45

Hình 2.44: Bộ phân tích truy vấn QueryParser kết nối thuật ngữ nhóm.......................45

Hình 2.45: Đối tượng Results........................................................................................46

Hình 2.46: Mô hình truy vấn vector..............................................................................47

Hình 2.47: Kiến trúc hệ thống .......................................................................................52

Hình 2.48: Mô hình chương trình tư vấn tuyển sinh tự động........................................53

Hình 3.1: Trang web hỏi đáp tuyển sinh .......................................................................57

Hình 3.2: Trang web bigschool .....................................................................................58

Hình 3.3: Mô hình rút trích dữ liệu từ trang web ..........................................................59

Hình 3.4: Dữ liệu trong quá trình tiền xử lý..................................................................60

Hình 3.5: Dữ liệu đang được rút trích ...........................................................................60

Hình 3.6: Dữ liệu rút trích trong database.....................................................................61

Hình 3.7: Mô hình thực hiện tách từ cho dữ liệu đã rút trích........................................61

Hình 3.8: Thực hiện tách từ...........................................................................................62

Hình 3.9: Dữ liệu đã được tách từ .................................................................................63

Hình 3.10: Mô hình đánh chỉ mục.................................................................................63

Hình 3.11: Thư mục lưu trữ chỉ mục.............................................................................64

Hình 3.12: Mô hình hoạt động tìm kiếm.......................................................................64

Hình 3.13: Danh sách stop word các từ vựng ...............................................................65

Hình 3.14: Kết quả thực hiện tìm kiếm.........................................................................66

Hình 3.15: Kết quả thực hiện tính độ tương đồng.........................................................67

Tải ngay đi em, còn do dự, trời tối mất!