Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Sử dụng một số thuật toán học máy để dự đoán thành tích học tập của học sinh
Nội dung xem thử
Mô tả chi tiết
LỜI CAM ĐOAN
Tôi xin cam đoan: Luận văn thạc sỹ chuyên ngành Khoa học máy
tính, tên đề tài “Sử dụng một số thuật toán học máy để dự đoán thành
tích học tập của học sinh” là công trình nghiên cứu, tìm hiểu và trình
bày do tôi thực hiện dưới sự hướng dẫn khoa học của TS. Đàm Thanh
Phương, Trường Đại học Công nghệ Thông tin và Truyền thông - Đại
học Thái Nguyên.
Kết quả tìm hiểu, nghiên cứu trong luận văn là hoàn toàn trung thực,
không vi phạm bất cứ điều gì trong luật sở hữu trí tuệ và pháp luật Việt
Nam. Nếu sai, tôi hoàn toàn chịu trách nhiệm trước pháp luật.
Tất cả các tài liệu, bài báo, khóa luận, công cụ phần mềm của các tác
giả khác được sử dụng lại trong luận văn này đều được chỉ dẫn tường
minh về tác giả và đều có trong danh mục tài liệu tham khảo.
Thái Nguyên, ngày 18 tháng 10 năm 2020.
Tác giả luận văn
Nguyễn Bích Quỳnh
i
LỜI CẢM ƠN
Tác giả xin chân thành cảm ơn TS Đàm Thanh Phương, trường Đại
học Công nghệ thông tin và truyền thông - Đại học Thái Nguyên, là
giáo viên hướng dẫn khoa học đã hướng dẫn tác giả hoàn thành luận
văn này, xin được cảm ơn các thầy, cô giáo trường Đại học công nghệ
thông tin và truyền thông nơi tác giả theo học và hoàn thành chương
trình cao học đã nhiệt tình giảng dạy và giúp đỡ.
Xin cảm ơn trường THPT Lương Thế Vinh - Cẩm Phả - Quảng Ninh
nơi tác giả công tác đã tạo mọi điều kiện thuận lợi để tác giả thu thập
dữ liệu, hoàn thành nghiên cứu và chương trình học tập.
Và cuối cùng xin cảm ơn gia đình, bạn bè, đồng nghiệp đã động viên,
giúp đỡ tác giả trong suốt thời gian học tập, nghiên cứu và hoàn thành
luận văn này.
Xin chân thành cảm ơn.
Thái Nguyên, ngày 18 tháng 9 năm 2020
Tác giả luận văn
Nguyễn Bích Quỳnh
ii
DANH SÁCH HÌNH VẼ
2.1 Phiếu khảo sát thông tin . . . . . . . . . . . . . . . . . . . 21
2.2 Phiếu khảo sát thông tin (tiếp) . . . . . . . . . . . . . . . . 21
2.3 Một số thuộc tính (a). . . . . . . . . . . . . . . . . . . . . 23
2.4 Một số thuộc tính (b). . . . . . . . . . . . . . . . . . . . . 23
2.5 Một số thuộc tính (c). . . . . . . . . . . . . . . . . . . . . . 23
2.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.7 Thống kê thuộc tính bị thiếu dữ liệu. . . . . . . . . . . . . 25
2.8 Gom cụm các học sinh theo trung bình các môn. . . . . . . 26
2.9 Feature Selection với Lasso . . . . . . . . . . . . . . . . . . 28
3.1 Accuracy explode các model khi sử dụng all features . . . . 39
3.2 Accuracy explode các model khi sử dụng features selection . 40
3.3 Kết quả dự đoán điểm của một số học sinh khi sử dụng
all feature . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4 Kết quả dự đoán điểm của một số học sinh khi sử dụng
feature selection . . . . . . . . . . . . . . . . . . . . . . . . 44
iii
DANH SÁCH BẢNG
3.1 Độ chính xác của các mô hình khi training với dữ liệu đủ
thuộc tính. . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Độ chính xác của các mô hình khi training với dữ liệu lựa
chọn thuộc tính. . . . . . . . . . . . . . . . . . . . . . . . . 40
iv
DANH MỤC KÝ HIỆU,
TỪ VIẾT TẮT
R Tập hợp số thực.
Z Tập hợp số nguyên.
C Tập hợp số phức.
R
n Không gian Euclide n chiều.
C
k Không gian các hàm có đạo hàm cấp k liên tục.
||.|| Chuẩn Euclide.
SV M Support Vector Machine- Máy véc tơ hỗ trợ
LR Linear Regression - Hồi quy tuyến tính
NB Navie Bayes-Định Luật xác suất Navie Bayes
KNN K Nearest Neighbor- K lân cận gần nhất
TBCM Điểm trung bình các môn học của học sinh.
MLE Phương pháp ước lượng hợp lý cực đại
MAP Phương pháp ước lượng hậu nghiệm cực đại
NBC Phân loại Navie Bayes
RF Random Forest - Rừng ngẫu nhiên
AD AdBooting
GD Gradient booting
IDE
Integrated Development Environment - Môi trường viết
code.
v
MỤC LỤC
Lời cam đoan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i
Lời cảm ơn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii
Danh sách hình vẽ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii
Danh sách bảng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii
Danh mục ký hiệu, từ viết tắt . . . . . . . . . . . . . . . . . . . v
Mở đầu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Chương 1. TỔNG QUAN VỀ HỌC MÁY . . . . . . . . . . . . . . . . . . . 6
1.1. Thuật toán học máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2. Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3. Các bài toán cơ bản trong machine learning . . . . . . . . . 9
1.4. Phân nhóm các thuật toán machine learning . . . . . . . 12
1.5. Hàm mất mát và tham số mô hình . . . . . . . . . . . . . . . . . 17
Chương 2. THU THẬP VÀ XỬ LÝ DỮ LIỆU . . . . . . . . . . . . . 19
2.1. Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2. Thu thập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3. Feature Engineering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Chương 3. TRAINING MÔ HÌNH VÀ ĐÁNH GIÁ KẾT QUẢ .
30
3.1. Một số thuật toán lựa chọn training mô hình . . . . . . . 30
3.2. Training mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3. Lựa chọn và tối ưu hóa tham số mô hình . . . . . . . . . . . 40
vi