Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Ứng dụng kỹ thuật cây quyết định xây dựng hệ thống dự báo khả năng bỏ học của học sinh trường thpt vạn tường tỉnh quảng ngãi
Nội dung xem thử
Mô tả chi tiết
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM
Đ INH PH T
ỨNG DỤNG KỸ THUẬT CÂY QUYẾT ĐỊNH
XÂY DỰNG HỆ THỐNG DỰ B O KHẢ NĂNG BỎ HỌC
CỦA HỌC SINH TRƯỜNG THPT VẠN TƯỜNG
TỈNH QUẢNG NGÃI
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04
TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT
Đà Nẵng - Năm 2019
Công trình được hoàn thành tại
TRƯỜNG ĐẠI HỌC SƯ PHẠM
Người hướng dẫn khoa học: PGS.TS. V T g H g
Phản biện 1: PGS.TSKH. Trần Quốc Chiến
Phản biện 2: TS. Nguyễn Quang Thanh
Luận văn sẽ được bảo vệ trước Hội đồng chấm Luận văn tốt
nghiệp thạc sĩ ngành Hệ thống thông tin họp tại trường Đại học
Sư phạm vào ngày 6 tháng 4 năm 2019.
Có thể tìm hiểu luận văn tại:
- Thư viện Trường Đại học Sư phạm – ĐHĐN
- Khoa Công nghệ thông tin, trường Đại học Sư phạm - ĐHĐN
1
MỞ ĐẦU
1. Lý do chọn đề tài
Trong những năm gần đây ngành Giáo dục Đào tạo Quảng Ngãi
rất chú trọng đầu tư đưa ứng dụng công nghệ thông tin vào trường học
phục vụ công tác quản lí và dạy học, cơ sở hạ tầng được đầu tư nâng
cấp dần hoàn thiện, các ứng dụng và CSDL được xây dựng phục vụ
công tác quản lí. Tuy nhiên hiệu quả các ứng dụng trong công tác
quản lí mang lại chưa cao, trong đó có việc quản lí học sinh, đặc biệt
là vấn đề quản lí học sinh bỏ học.
Trước tình trạng học sinh trong Tỉnh bỏ học giữa chừng với tỉ lệ
cao, ngày 03/03/2017 Ban Thường vụ tỉnh Ủy Quảng Ngãi ra công
văn số 1568/CV-TV và ngày 10 tháng 03 năm 2017 Ủy ban nhân dân
tỉnh Quảng Ngãi ra công văn số 1241/UBND-KGVX về việc kiểm tra
chấn chỉnh tình trạng học sinh bỏ học trên địa bàn tỉnh Quảng Ngãi và
công văn số 496/SGDĐT-VP ngày 27 tháng 3 năm 2017 của Sở Giáo
dục và Đào tạo Quảng Ngãi về việc tăng cường các giải pháp khắc
phục học sinh bỏ học [6], [7].
Việc học sinh bỏ học có thể kéo theo nhiều hệ lụy cả trước mắt
lẫn lâu dài, không chỉ đối với cá nhân, gia đình học sinh mà cả với nhà
trường và xã hội. Vì vậy, việc dự đoán phát hiện sớm những học sinh
có biểu hiện bỏ học để có những biện pháp phù hợp kịp thời nhằm
giảm thiểu tình trạng học sinh bỏ học là một việc làm cần thiết và cấp
bách.
Hiện nay, trong công tác quản lý học sinh ở nhà trường thường
biết được các nguyên nhân dẫn đến học sinh có khả năng bỏ học một
cách đại khái chung chung. Việc phân tích, tổng hợp các nguyên nhân
học sinh bỏ học đã được một số tác giả đề cập tìm hiểu nhưng chưa có
các công cụ hỗ trợ để giúp nhà trường đánh giá phát hiện sớm học
sinh có khả năng bỏ học hay không.
2
Để thực hiện chủ trương của ngành về việc chấn chỉnh tình
trạng học sinh bỏ học cũng như tăng hiệu quả ứng dụng CNTT trong
quản lí để hạn chế tình trạng học sinh bỏ học, trong quá trình học tập
tôi nhận thấy khai phá dữ liệu là bộ môn rất hữu ích trong việc phân
loại các nhóm đối tượng, tôi nghĩ có thể vận dụng kiến thức của môn
học này để xây dựng hệ thống phân loại học sinh có khả năng bỏ học
hay không để từ đó giúp nhà trường tìm ra những biện pháp giáo dục
hợp lý nhằm hạn chế số lượng học sinh bỏ học cao như hiện nay.
Xuất phát từ những lý do trên, được sự đồng ý của PGS.TS. Võ
Trung Hùng, tôi chọn đề tài: “Ứng dụng kỹ thuật cây quyết định
xây dựng hệ thống dự báo khả năng bỏ học của học sinh trường
THPT Vạn Tường tỉnh Quảng Ngãi” để làm luận văn thạc sĩ.
2. Mục tiêu
Mục tiêu của đề tài là nghiên cứu và xây dựng hệ thống dự báo
khả năng bỏ học của học sinh trường THPT Vạn Tường tỉnh Quảng
Ngãi, nhằm giúp lãnh đạo nhà trường tìm ra các giải pháp phù hợp để
hạn chế tình trạng học sinh bỏ học, nâng cao hiệu quả giáo dục, giúp
cho học sinh có ý định bỏ học từng bước ổn định tinh thần và thích thú
đi học.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu
Đối tượng nghiên cứu của đề tài là học sinh tại trường THPT
Vạn Tường; cơ sở lý thuyết về khai phá dữ liệu và các thuật toán tạo
cây quyết định như CLS, ID3, C4.5; ngôn ngữ lập trình C#. Ngoài ra
trong luận văn còn nghiên cứu các biểu mẫu liên quan đến vấn đề bỏ
học của học sinh; các công văn của Sở GD-ĐT Quảng Ngãi, Ủy Ban
tỉnh Quảng Ngãi về việc hướng dẫn chấn chỉnh, khắc phục tình trạng
bỏ học của học sinh.
Phạm vi nghiên cứu
3
Phạm vi nghiên cứu là học sinh khối THPT ở trường THPT Vạn
Tường tỉnh Quảng Ngãi, các số liệu về học sinh bỏ học tại trường
THPT Vạn Tường các năm học 2015-2016, 2016-2017, 2017-2018.
Ngoài ra, trong đề tài tập trung nghiên cứu sâu vào thuật toán C4.5.
4. Phương pháp nghiên cứu
Nghiên cứu lý thuyết
Nghiên cứu các tài liệu về cơ sở lý thuyết; ngôn ngữ lập trình và
các công nghệ có liên quan; tổng hợp, thu thập các số liệu liên quan
đến việc bỏ học của học sinh.
Nghiên cứu thực nghiệm
Sử dụng các số liệu lưu trữ tại trường để tìm hiểu về nguyên
nhân học sinh bỏ học cũng như khảo sát thực tế và hỏi ý kiến chuyên
gia về nguyên nhân bỏ học của học sinh để xây dựng bảng dữ liệu
huấn luyện và xây dựng cây quyết định trên bảng dữ liệu đó.
Vận dụng các cơ sở lý thuyết để xây dựng ứng dụng, tiến hành
kiểm thử đánh giá hiệu suất của ứng dụng.
5. Ý nghĩa của đề tài
Về ý nghĩa khoa học
Đề tài được phân tích, tổng hợp từ những nguồn dữ liệu đáng
tin cậy sẽ là cơ sở khoa học để các nghiên cứu tiếp theo tham khảo.
Kết quả nghiên cứu của đề tài góp phần xây dựng cơ sở khoa học cho
việc tìm các giải pháp để hạn chế tình trạng học sinh bỏ học ở trường
THPT.
4
Về ý nghĩa thực tiễn
Xây dựng hệ hỗ trợ ra quyết định, triển khai hệ thống thử
nghiệm tại trường THPT Vạn Tường nhằm đánh giá hiệu quả trước
khi sử dụng rộng rãi. Ứng dụng có khả năng phân tích đưa ra dự báo
học sinh có ý định bỏ học để nhà trường có biện pháp giúp đỡ, duy trì
việc đến lớp cho các em.
6. Bố cục của luận văn
Chương 1: Trình bày cơ sở lý thuyết làm nền tảng để xây dựng
ứng dụng, bao gồm: Tổng quan về khai phá dữ liệu; phân lớp trong
khai phá dữ liệu; giới thiệu về cây quyết định trong phân lớp dữ liệu;
giải thuật CLS, ID3 và C4.5 xây dựng cây quyết định.
Chương 2: Tìm hiểu và phân tích thực trạng, nguyên nhân học
sinh bỏ học, nêu lên những vấn đề còn hạn chế trong công tác quản lí
ở đơn vị. Ứng dụng thuật toán C4.5 để xây dựng cây quyết định.
Chương 3: Trình bày chi tiết về mô hình kiến trúc tổng thể của
hệ thống và xây dựng ứng dụng. Tiến hành thử nghiệm trên dữ liệu
thực tế, sau đó đánh giá kết quả đạt được và khả năng triển khai ứng
dụng trên toàn hệ thống.
Cuối cùng là những đánh giá, kết luận và hướng phát triển của
đề tài.
CHƯƠNG 1
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
Chương này trình bày khái quát về khai phá dữ liệu, các bước
xây dựng hệ thống khai phá dữ liệu, phân lớp trong khai phá dữ liệu.
Giới thiệu về cây quyết định và các thuật toán xây dựng cây quyết
định CLS, ID3 và C4.5.
1.1. Khai phá dữ liệu
1.1.1. Sơ lược về khai phá dữ liệu
1.1.2. Kĩ thuật khai phá dữ liệu
5
1.1.3. Các bước xây dựng hệ thống khai phá dữ liệu
1.1.4. Ứng dụng của khai phá dữ liệu
1.1.5. Kiến trúc của một hệ thống khai phá dữ liệu
1.2. Phân lớp dữ liệu bằng cây quyết định
1.2.1. Phân lớp dữ liệu
1.2.2. Quá trình phân lớp dữ liệu
1.2.3. Cây quyết định
1.2.4. Ưu điểm của cây quyết định
1.2.5. Xây dựng cây quyết định
1.2.6. Rút ra luật từ cây quyết định
1.3. Các thuật toán xây dựng cây quyết định
1.3.1. Thuật toán CLS
Function CLS_Builder(S, A)
{
1. Tạo một nút T, gồm tất cả các mẫu của tập huấn
luyện.
2. If(mọi mẫu trong T đều nằm trong cùng một lớp
"Yes")Then
Return T là nút lá gán nhãn "yes" và dừng lại.
3. If(mọi mẫu trong T đều nằm trong cùng một lớp
"No")Then
Return T là nút lá gán nhãn "No" và dừng lại.
4. If (Các mẫu thuộc cả hai lớp "yes" và "no") Then
{
Chọn một thuộc tính X trong tập thuộc tính của tập
mẫu dữ liệu, X có các giá trị v1,v2, …vn.
Chia tập mẫu trong T thành các tập con T1, T2,….,Tn.
chia theo giá trị của X.
Tạo n nút con Ti (i=1,2…n) với nút cha là nút T.
Tạo các nhánh nối từ nút T đến các nút Ti (i=1,2…n)
là các thuộc tính của X.
}
5. Thực hiện lặp cho các nút con Ti(i =1,2..n) và quay
lại bước 2.
}
6
1.3.2. Thuật toán ID3
1.3.2.1. Giới thiệu
1.3.2.2.. Giải thuật ID3
1.3.2.3. Chọn thuộc tính phân loại tốt nhất
1.3.2.4. Độ lợi thông tin
Độ lợi thông tin (Information Gain) là độ đo được sử dụng
trong giải thuật ID3. Đầu tiên là công thức đo lượng thông tin kỳ vọng
để phân lớp một phần tử trong tập dữ liệu
S
được đo bằng công thức
sau [1], [11]:
2
1
( ) log ( )
m
i i
i
Info S p p (1.1)
Function ID3_Builder(S, A)
{
1. Tạo một nút gốc N cho cây quyết định;
2. If (Các mẫu trong S đều thuộc cùng một lớp C)
Then Return nút N là nút lá có nhãn C;
3. If (thuộc tính A rỗng) Then
Return nút N với nhãn là lớp phổ biến nhất
trong các mẫu;
4. Chọn A.Best là thuộc tính có độ lợi thông tin
cao nhất;
5. Loại A.Best ra khỏi tập thuộc tính A
6. Foreach (giá trị ai của A.best)
{
Tạo một nhánh của cây từ nút N với
A.Best=ai;
Đặt vào Si các mẫu trong S có giá trị
A.Best=ai;
If (Si rỗng) Then
Gắn nhãn cho nút lá là lớp phổ biến
trong các mẫu;
Else Gắn nút được trả về bởi
ID3_Builder(Si, A);
}
}
7
trong đó,
i
p
là xác xuất một phần tử dữ liệu trong tập
S
thuộc vào
lớp
Ci
và nó được ước lượng bằng công thức
| |
| |
i
i
S
p
S
, với
i S
là tập
các phần tử dữ liệu trong tập
S
thuộc lớp
Ci
; m là số lượng các lớp
trong
S . Hàm logarit cơ số 2 được sử dụng là do công thức trên đo
lượng thông tin theo đơn vị bit (theo lý thuyết thông tin của
C.Shannon). Hàm
Info S( )
còn được gọi là Entropy của
S
được viết
Entropy S( )
[1]. Vậy:
2
1
( ) ( ) log ( )
m
i i
i
Entropy S Info S p p (1.2)
Trong luận văn này nghiên cứu chỉ giới hạn với số lớp
m 2.
Trong trường hợp S là tập ví dụ, thì thành viên của S là một ví dụ, mỗi
ví dụ thuộc cùng một lớp hay có một giá trị phân loại.
Entropy có giá trị nằm trong khoảng [0..1].
Entropy(S)=0: Nếu tập S chỉ toàn ví dụ thuộc cùng một loại,
hay S là thuần nhất.
Entropy(S)=1: Nếu tập S có các ví dụ thuộc các loại khác nhau
với độ pha trộn cao nhất.
0<Entropy(S)<1: Nếu tập S có số lượng ví dụ thuộc các loại
khác nhau là không bằng nhau.
Giả sử ta phân chia dữ liệu trong
S
theo thuộc tính
A
nào đó,
và giả sử thuộc tính này có
v
giá trị (rời rạc) khác nhau là
1 { , 2,..., }v a a a . Thuộc tính này phân chia tập dữ liệu
S
thành
v
tập
con
1 2 { , ,..., )
v S S S
trong đó
j S
là tập các phần tử dữ liệu có giá trị của
thuộc tính
A
là
i a
. Tập con này sẽ tương ứng với một nhánh cây
được phát triển từ nút N trong giải thuật tạo cây quyết định. Trường
hợp lý tưởng thì ta muốn tập con này sẽ có khả năng phân lớp chính
xác các phần tử trong nó, hay nói một cách khác ta muốn tập con này
8
thuần nhất càng tốt. Tuy nhiên trong thực tế thì các tập này thường
không thuần nhất vì nó chứa các phần tử dữ liệu thuộc về các lớp khác
nhau, do đó chúng ta cần thêm thông tin
( ) A
Info S
để phân lớp chính
xác tập con này. Lượng thông tin
( ) A
Info S
này là thông tin kỳ vọng
để phân lớp một phần tử dữ liệu trong
S
dựa trên việc chia dữ liệu
bằng thuộc tính
A
còn gọi là Entropy của tập
S
đối với thuộc tính
A
viết là
Entropy S A ( , ). Giá trị này càng nhỏ thì độ thuần nhất của các
tập con càng cao. Thông tin này được đo bởi công thức [1], [11]:
1
| |
( ) ( , ) ( )
| |
v
j
A j
j
S
Info S Entropy S A x Info S
S
(1.3)
trong đó
| |
| |
j
S
S
được dùng làm trọng số của tập con
j S . Cuối cùng
hàm độ lợi thông tin của thuộc tính
A
trong tập
S
là
Gain S A ( , )
được tính bằng công thức [1], [11]:
( , ) ( ) ( )
( ) ( , )
Gain S A Info S Info S A
Entropy S Entropy S A
(1.4)
Giá trị
Gain S A ( , )
cho ta biết được lợi bao nhiêu nếu chia dữ
liệu theo thuộc tính A. Giá trị này càng lớn thì càng tốt, do đó thuộc
tính có giá trị
Gain()
lớn nhất sẽ được chọn để phân nhánh trong quá
trình xây dựng cây quyết định.
Thuật toán ID3 được xem là một cải tiến của thuật toán CLS.
Tuy nhiên thuật toán ID3 không có khả năng xử lý đối với những dữ
liệu có chứa thuộc tính số, thuộc tính liên tục và khó khăn trong việc
xử lý các dữ liệu thiếu và dữ liệu nhiễu. Vấn đề này sẽ được giải quyết
trong thuật toán C4.5.
9
1.3.3. Thuật toán C4.5
1.3.3.1. Giới thiệu:
1.3.3.2. Giải thuật C4.5 xây dựng cây quyết định
1.3.3.3. Tỉ suất lợi ích Gain Ratio
Độ đo độ lợi thông tin hoạt động không tốt trong trường hợp
một thuộc tính có nhiều giá trị. Ví dụ, thuộc tính Mã học sinh (Mahs)
hay ID,…Đặc biệt khi chia dữ liệu theo thuộc tính này thì mỗi tập con
Function C45_Builder(S,A)
{
1. <Tính toán tần xuất các giá trị trong các lớp
của S>;
2. If <Kiểm tra các mẫu, nếu thuộc cùng một lớp
hoặc có rất ít mẫu khác lớp> Then <Trả về 1
nút lá>
Else <Tạo một nút quyết định N>;
3. For <Với mỗi thuộc tính A> Do <Tính giá trị
GainRatio(A)>;
4. <Tại nút N, thực hiện việc kiểm tra để chọn ra
thuộc
tính có giá trị GainRatio tốt nhất(lớn nhất). Gọi
N.test là thuộc tính có GainRatio lớn nhất>;
5. If <Nếu N.test là thuộc tính liên tục> Then <Tìm
ngưỡng cho phép tách của N.test>;
6. For <Với mỗi tập con S' được tách ra từ tập S>
Do
{
// * S' được tách ra theo quy tắc:
- Nếu N.test là thuộc tính liên tục tách theo
ngưỡng ở bước 5
- Nếu N.test là thuộc tính phân loại rời rạc
tách theo các giá trị của thuộc tính này.
If <Kiểm tra, nếu S' rỗng> Then <Gán nút con này
của nút N là nút lá>;
Else
<Gán nút con này là nút được trả về bằng cách
gọi đệ qui lại đối với hàm C45_Builder(S'),
với tập S'>;
}
7. <Tính toán các lỗi của nút N>;
<Trả về nút N>;
}
10
dữ liệu sẽ tương ứng với một bản ghi, do đó các tập con này là hoàn
toàn thuần nhất. Hay nói cách khác lượng thông tin cần để phân lớp
tập dữ liệu S dựa trên cách phân chia dữ liệu trên thuộc tính này là
Entropy S A ( , ) 0
và giá trị độ lợi thông tin sẽ đạt giá trị tối đa
Gain S Mahs Entropy S Entropy S ( , ) ( ) 0 ( ). Rõ ràng việc phân lớp
dựa trên thuộc tính này là vô nghĩa.
Do dó, trong giải thuật C4.5 tác giả đã đề xuất sử dụng một độ
đo mới gọi là tỉ số độ lợi (Gain Ratio) để cố tránh nhược điểm này.
Hàm này sử dụng một phương pháp chuẩn hóa độ lợi thông tin bằng
cách sử dụng giá trị phân chia thông tin (Split information) được định
nghĩa tương tự như hàm
Info S( )
[1], [11]:
2
1
| | | |
( ) log
| | | |
v
j j
A
j
S S
SplitInfo S x
S S
(1.5)
Giá trị này biểu diễn thông tin tiềm năng được sinh ra thông
qua việc chia tập dữ liệu huấn luyện
S
thành
v
tập con tương ứng
với các giá trị của thuộc tính
A
. Đây là điểm khác so với độ lợi thông
tin, do đó công thức tính tỉ số độ lợi thông sẽ là [1], [11]:
( , ) ( , )
( , )
Gain S A GainRation S A
SplitInfo S A
(1.6)
trong đó, hàm
SplitInfo S A ( , )
là
( ) A
SplitInfo S
Dựa trên độ đo này, các thuộc tính có giá trị tỉ số độ lợi cao sẽ
được chọn làm thuộc tính phân chia dữ liệu. Có một chú ý rằng, nếu
hàm
SplitInfo S A ( , ) 0
thì công thức trên không dùng được, do đó
có thể thêm ràng buộc để tránh trường hợp này. Cụ thể giá trị độ lợi
thông tin của thuộc tính được chọn phải đủ lớn, ít nhất là lớn hơn giá
trị trung bình độ lợi thông tin của tất cả các thuộc tính.
1.3.3.4. Đánh giá độ phức tạp của thuật toán C4.5
1.3.3.5. Phương pháp đánh giá độ hiệu quả
11
1.4. Tổng kết chương 1
Thuật toán C4.5 thường được sử dụng để xây dựng cây quyết
định vì những ưu điểm của của nó như cây trực quan, dễ hiểu; ngoài ra
nó còn xử lý được kiểu dữ liệu số và rời rạc, dữ liệu thiếu.
CHƯƠNG 2
ỨNG DỤNG CÂY QUYẾT ĐỊNH DỰ BÁO KHẢ NĂNG BỎ
HỌC CỦA HỌC SINH
Chương này sẽ phân tích về thực trạng, nguyên nhân dẫn đến
học sinh bỏ học để xây dựng tập dữ liệu huấn luyện và thực hiện tính
toán chi tiết việc phân tách cây trên thuật toán C4.5 để xây dựng cây
quyết định, từ đó rút ra tập luật để xây dựng ứng dụng ở chương 3.
2.1. Tình hình bỏ học của học sinh
2.1.1. Thực trạng, nguyên nhân học sinh bỏ học
2.1.2. Hậu quả của tình trạng bỏ học
2.1.3. Khảo sát học sinh bỏ học
2.1.4. Phân tích nguyên nhân bỏ học của học sinh
2.1.5. Giải pháp xây dựng hệ thống
2.2. Ứng dụng cây quyết định
2.2.1. Lượng hóa dữ liệu để đưa vào thuật toán C4.5
Để thuật toán C4.5 xây dựng được cây quyết định hiệu quả,
đáng tin cậy, trước tiên ta phải lượng hóa dữ liệu nhằm có được tập dữ
liệu huấn luyện tốt nhất.
2.2.2. Phân tích dữ liệu để xây dựng tập huấn luyện
Qua kết quả khảo sát cũng như việc phân tích tình hình học sinh
bỏ học hiện nay, ta thấy có nhiều yếu tố ảnh hưởng dẫn đến việc bỏ
học của các em. Tuy nhiên, trong luận văn chỉ chọn lọc một số nguyên
nhân chủ yếu như sau:
Học lực (HL): Học lực được đánh giá thành 5 mức là: G (Giỏi),
K (Khá), TB (Trung bình), Y (Yếu), Ke (Kém).
12
Hạnh kiểm (HK): Là kết quả rèn luyện của học sinh. Hạnh
kiểm được xếp thành 4 mức tương ứng là Tốt (T), Khá (K), Trung
bình (Tb) và Yếu (Y).
Diện lưu ban(LB): Chia làm hai trường hợp
Co: Là những học sinh thuộc diện ở lại lớp.
Khong: Là những học sinh thuộc diện được lên lớp hoặc
học sinh mới tuyển đầu cấp.
Hoàn cảnh gia đình (HCGD): Cần xem xét đến các trường hợp:
Bình thường (BT): Là những học sinh đang có bố mẹ nuôi
dưỡng, quan tâm, có điều kiện để học tập.
Khó khăn (KTKK): Kinh tế gia đình còn khó khăn, bố mẹ
làm ăn xa.
Bố mẹ li hôn (CMLH): Là những học sinh có bố mẹ đã li
hôn, thiếu thốn tình cảm từ gia đình, không người quan tâm đến
việc học của các em.
Mồ côi cha mẹ (MCCM): Học sinh mồ côi cha mẹ hoặc ở
với ông bà già yếu hoặc đang ở với người thân.
Bạo lực gia đình (BLGD): Là những học sinh trong gia đình
thường xuyên bị bạo lực từ bố mẹ hoặc người thân.
Bỏ học (Bo_hoc): Là kết quả của việc áp dụng cây quyết định
dự báo khả năng bỏ học của học sinh. Ta chia thành 2 trường hợp:
Những học sinh có thể bỏ học (Yes) hoặc không (No).
Ta có các giá trị của các thuộc tính như sau:
HL = {G, K, TB, Y, Ke}
HK = {T, K, TB, Y}
LB = {Co, khong}
HC_GD = {BT, KTKK, CMLH, MCCM, BLGD)
Bo_hoc = {Yes, No}
13
Từ phân tích trên ta xây dựng bảng dữ liệu huấn luyện mẫu như sau:
Bảng 2.11. Bảng dữ liệu huấn luyện
TT HL HK HCGD LB Bo_hoc
1 G K BT Co No
2 G T KTKK Co No
3 G TB BT Khong No
4 K K MCCM Co No
5 K T BLGD Khong No
6 K T BT Khong No
7 K TB BLGD Co Yes
8 K Y MCCM Co Yes
9 Ke TB MCCM Khong Yes
10 Ke Y KTKK Co Yes
11 Ke Y CMLH Khong Yes
12 Ke Y KTKK Khong Yes
13 TB K KTKK Co No
14 TB K BT Khong No
15 TB K BLGD Khong Yes
16 TB K MCCM Khong Yes
17 TB T BT Co No
18 TB T KTKK Co No
19 TB TB MCCM Khong Yes
20 TB Y KTKK Co Yes
21 TB Y MCCM Co Yes
22 TB Y CMLH Khong Yes
23 Y K CMLH Co Yes
24 Y T BT Khong No
25 Y TB CMLH Khong Yes
26 Y Y BT Khong Yes