Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nghiên cứu các kỹ thuật rút trích thông tin web và phát triển hệ thống tư vấn tuyển sinh tự động
Nội dung xem thử
Mô tả chi tiết
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
BÁO CÁO TỔNG KẾT
ĐỀ TÀI NGHIÊN CỨU KHOA HỌC SINH VIÊN
NGHIÊN CỨU CÁC KỸ THUẬT RÚT TRÍCH
THÔNG TIN WEB VÀ PHÁT TRIỂN HỆ THỐNG TƯ
VẤN TUYỂN SINH TỰ ĐỘNG
TP.Hồ Chí Minh, Tháng 04/2018
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
BÁO CÁO TỔNG KẾT
ĐỀ TÀI NGHIÊN CỨU KHOA HỌC SINH VIÊN
NGHIÊN CỨU CÁC KỸ THUẬT RÚT TRÍCH
THÔNG TIN WEB VÀ PHÁT TRIỂN HỆ THỐNG TƯ
VẤN TUYỂN SINH TỰ ĐỘNG
Chủ nhiệm đề tài: Nguyễn Thị Bích Mi
Khoa: Công nghệ thông tin
Các thành viên: Phan Thị Tường Vi
Người hướng dẫn: ThS.Dương Hữu Thành
TP.Hồ Chí Minh, Tháng 04/2018
Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành
2 | T r a n g
MỤC LỤC
NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN ............................................................3
DANH MỤC CÁC THUẬT NGỮ TIẾNG ANH VÀ CHỮ VIẾT TẮT........................4
DANH MỤC HÌNH ........................................................................................................6
DANH MỤC BẢNG BIỂU.............................................................................................8
CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI.............................................................................1
1.1. Giới thiệu tổng quan .........................................................................................4
1.2. Các nghiên cứu liên quan .................................................................................4
1.3. Lý do chọn đề tài ..............................................................................................5
1.4. Mục tiêu và phương pháp nghiên cứu ..............................................................5
1.4.1. Mục tiêu nghiên cứu .......................................................................................5
1.4.2. Phương pháp nghiên cứu ................................................................................6
1.5. Đối tượng và phạm vi nghiên cứu. ...................................................................6
1.6. Đóng góp khoa học của đề tài ..........................................................................6
1.7. Bố cục báo cáo..................................................................................................7
CHƯƠNG 2: HỆ THỐNG TƯ VẤN TUYỂN SINH TỰ ĐỘNG..................................8
2.1. Giới thiệu ..........................................................................................................8
2.2. Cơ sở lý thuyết..................................................................................................9
2.2.1. Rút trích dữ liệu ..............................................................................................9
2.2.2. Xử lý ngôn ngữ tự nhiên...............................................................................24
2.3. Full text search................................................................................................42
2.3.1. Tính độ tương đồng câu sử dụng độ đo Cosine............................................46
2.4. Kiến trúc hệ thống ..........................................................................................52
2.5. Cài đặt.............................................................................................................53
2.5.1. Phần mềm: Yêu cầu phần mềm ....................................................................53
2.5.2. Cấu trúc chương trình ...................................................................................53
CHƯƠNG 3: THỰC NGHIỆM, KẾT LUẬN, HƯỚNG PHÁT TRIỂN......................55
3.1. Thực nghiệm ứng dụng...................................................................................55
3.1.1. Thiết lập môi trường (Virtual Environment)................................................55
3.1.2. Bảng các thư packages dùng trong hệ thống ................................................55
3.1.3. Rút trích dữ liệu ............................................................................................56
3.1.4. Tách từ ..........................................................................................................61
3.1.5. Đánh chỉ mục và tìm kiếm............................................................................63
Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành
3 | T r a n g
3.1.6. Tính độ tương đồng ......................................................................................66
3.2. Kết quả thực nghiệm.......................................................................................67
3.3. Kết quả đạt được.............................................................................................68
3.4. Những vấn đề còn tồn tại................................................................................69
3.5. Hướng phát triển.............................................................................................69
TÀI LIỆU THAM KHẢO...........................................................................................70
Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành
4 | T r a n g
DANH MỤC CÁC THUẬT NGỮ TIẾNG
ANH VÀ CHỮ VIẾT TẮT
STT Kí hiệu Diễn giải
1 NLP Natural Language Processing : Xử lý ngôn ngữ tự nhiên
2 NLTK Natural Language Toolkit: Bộ công cụ ngôn ngữ tự nhiên
3 XML Extensible MarkupLanguage: ngôn ngữ đánh dấu mở rộng
4 XSL Extensible Stylesheet Language: ngôn ngữ mở rộng chuyển
đổi các file XML
5 HTML HyperText Markup Language: ngôn ngữ đánh dấu siêu văn
bản
6 TF Term Frequency : Tần số văn bản
7 IDF Inverse Document Frequency: Nghịch đảo tần số văn bản
8 Regex Regular expression: Biểu thức chính quy
9 Database Cơ sở dữ liệu
10 Collection Bộ sưu tập
11 Document Tài liệu
12 Python Ngôn ngữ lập trình Python
13 Ubuntu Hệ điều hành ubuntu
14 Windows Hệ điều hành Windows
15 Project Dự án
Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành
5 | T r a n g
16 Virtual
Environment
Môi trường ảo
17 Crawl Thu thập thông tin
18 Package Gói
19 Requests Yêu cầu
20 Website Trang web/ Trang mạng
21 Url Uniform Resource Locator: Định vị Tài nguyên thống nhất
22 Response Trả về
Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành
6 | T r a n g
DANH MỤC HÌNH
Hình 2.1. Cách lấy XPath ................................................................................................9
Hình 2.2. Sao chép XPath từ trình duyệt Chrome.........................................................10
Hình 2.3. Các quy tắc xác định CSS Selector ...............................................................11
Hình 2.4: Một số ví dụ về module re trong python .......................................................16
Hình 2.5: Những thành phần chính và cách thức hoạt động của Scrapy framework....17
Hình 2.6: Cấu trúc của một scrapy project....................................................................19
Hình 2.7: Các phần của selenium..................................................................................20
Hình 2.8: Ví dụ sử dụng selenium.................................................................................23
Hình 2.9: Kết quả thực hiện ví dụ sử dụng selenium....................................................23
Hình 2.10: Mô hình Parse tree.......................................................................................26
Hình 2.11: Ví dụ Information Extraction ......................................................................27
Hình 2.12: Ví dụ về NER ..............................................................................................27
Hình 2.13: Ví dụ Sentiment Analysis............................................................................28
Hình 2.14: Ví dụ Bag of Words .....................................................................................28
Hình 2.15: Ví dụ Latent Dirichlet Allocation ................................................................29
Hình 2.16: Chính cuốn sách mà package Book trong nltk cung cấp ............................33
Hình 2.17: Tìm từ trong văn bản bằng phương thức concordance().............................34
Hình 2.18: Tìm từ xuất hiện trong ngữ cảnh tương tự ..................................................34
Hình 2.19: Hiển thị các sentence...................................................................................34
Hình 2.20: Lấy tần xuất các từ ......................................................................................35
Hình 2.21: Hiển thị biểu đồ tần xuất .............................................................................35
Hình 2.22: Biểu đồ thể hiện tần xuất của 30 từ được dùng nhiều nhất trong text1.......36
Hình 2.23: Sử dụng bigtams..........................................................................................36
Hình 2.24: Lấy collocations ..........................................................................................37
Hình 2.25: Lấy stop words tiếng Anh ...........................................................................37
Hình 2.26: Lọc stop words ............................................................................................38
Hình 2.27: Kết quả lọc stop words................................................................................38
Hình 2.28: Sentence Tokenization trong nltk................................................................38
Hình 2.29: Word Tokenization trong nltk .....................................................................39
Hình 2.30: POS tagging trong nltk ................................................................................39
Hình 2.31: NE Chunk trong nltk ...................................................................................39
Hình 2.32: Parse tree .....................................................................................................39
Hình 2.33: Phương thức word_sent trong under the sea ...............................................40
Hình 2.34: Phương thức pos_tag trong under the sea ...................................................40
Hình 2.35: Phương thức chunk trong under the sea ......................................................41
Hình 2.36: Phương thức ner trong under the sea...........................................................41
Hình 2.37: Phương thức classify trong under the sea....................................................41
Hình 2.38: Tạo Schema .................................................................................................44
Hình 2.39: Tạo đối tượng index ....................................................................................44
Hình 2.40: Lưu các document vào chỉ mục...................................................................44
Hình 2.41: tạo đối tượng Searcher.................................................................................45
Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành
7 | T r a n g
Hình 2.42: Đối tượng truy vấn trực tiếp “apple and bear” ............................................45
Hình 2.43: Bộ phân tích truy vấn QueryParser .............................................................45
Hình 2.44: Bộ phân tích truy vấn QueryParser kết nối thuật ngữ nhóm.......................45
Hình 2.45: Đối tượng Results........................................................................................46
Hình 2.46: Mô hình truy vấn vector..............................................................................47
Hình 2.47: Kiến trúc hệ thống .......................................................................................52
Hình 2.48: Mô hình chương trình tư vấn tuyển sinh tự động........................................53
Hình 3.1: Trang web hỏi đáp tuyển sinh .......................................................................57
Hình 3.2: Trang web bigschool .....................................................................................58
Hình 3.3: Mô hình rút trích dữ liệu từ trang web ..........................................................59
Hình 3.4: Dữ liệu trong quá trình tiền xử lý..................................................................60
Hình 3.5: Dữ liệu đang được rút trích ...........................................................................60
Hình 3.6: Dữ liệu rút trích trong database.....................................................................61
Hình 3.7: Mô hình thực hiện tách từ cho dữ liệu đã rút trích........................................61
Hình 3.8: Thực hiện tách từ...........................................................................................62
Hình 3.9: Dữ liệu đã được tách từ .................................................................................63
Hình 3.10: Mô hình đánh chỉ mục.................................................................................63
Hình 3.11: Thư mục lưu trữ chỉ mục.............................................................................64
Hình 3.12: Mô hình hoạt động tìm kiếm.......................................................................64
Hình 3.13: Danh sách stop word các từ vựng ...............................................................65
Hình 3.14: Kết quả thực hiện tìm kiếm.........................................................................66
Hình 3.15: Kết quả thực hiện tính độ tương đồng.........................................................67