Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Ứng dụng kỹ thuật cây quyết định xây dựng hệ thống dự báo khả năng bỏ học của học sinh trường thpt vạn tường tỉnh quảng ngãi
PREMIUM
Số trang
212
Kích thước
9.1 MB
Định dạng
PDF
Lượt xem
1742

Ứng dụng kỹ thuật cây quyết định xây dựng hệ thống dự báo khả năng bỏ học của học sinh trường thpt vạn tường tỉnh quảng ngãi

Nội dung xem thử

Mô tả chi tiết

ĐẠI HỌC ĐÀ NẴNG

TRƯỜNG ĐẠI HỌC SƯ PHẠM

Đ INH PH T

ỨNG DỤNG KỸ THUẬT CÂY QUYẾT ĐỊNH

XÂY DỰNG HỆ THỐNG DỰ B O KHẢ NĂNG BỎ HỌC

CỦA HỌC SINH TRƯỜNG THPT VẠN TƯỜNG

TỈNH QUẢNG NGÃI

Chuyên ngành: Hệ thống thông tin

Mã số: 60.48.01.04

TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng - Năm 2019

Công trình được hoàn thành tại

TRƯỜNG ĐẠI HỌC SƯ PHẠM

Người hướng dẫn khoa học: PGS.TS. V T g H g

Phản biện 1: PGS.TSKH. Trần Quốc Chiến

Phản biện 2: TS. Nguyễn Quang Thanh

Luận văn sẽ được bảo vệ trước Hội đồng chấm Luận văn tốt

nghiệp thạc sĩ ngành Hệ thống thông tin họp tại trường Đại học

Sư phạm vào ngày 6 tháng 4 năm 2019.

Có thể tìm hiểu luận văn tại:

- Thư viện Trường Đại học Sư phạm – ĐHĐN

- Khoa Công nghệ thông tin, trường Đại học Sư phạm - ĐHĐN

1

MỞ ĐẦU

1. Lý do chọn đề tài

Trong những năm gần đây ngành Giáo dục Đào tạo Quảng Ngãi

rất chú trọng đầu tư đưa ứng dụng công nghệ thông tin vào trường học

phục vụ công tác quản lí và dạy học, cơ sở hạ tầng được đầu tư nâng

cấp dần hoàn thiện, các ứng dụng và CSDL được xây dựng phục vụ

công tác quản lí. Tuy nhiên hiệu quả các ứng dụng trong công tác

quản lí mang lại chưa cao, trong đó có việc quản lí học sinh, đặc biệt

là vấn đề quản lí học sinh bỏ học.

Trước tình trạng học sinh trong Tỉnh bỏ học giữa chừng với tỉ lệ

cao, ngày 03/03/2017 Ban Thường vụ tỉnh Ủy Quảng Ngãi ra công

văn số 1568/CV-TV và ngày 10 tháng 03 năm 2017 Ủy ban nhân dân

tỉnh Quảng Ngãi ra công văn số 1241/UBND-KGVX về việc kiểm tra

chấn chỉnh tình trạng học sinh bỏ học trên địa bàn tỉnh Quảng Ngãi và

công văn số 496/SGDĐT-VP ngày 27 tháng 3 năm 2017 của Sở Giáo

dục và Đào tạo Quảng Ngãi về việc tăng cường các giải pháp khắc

phục học sinh bỏ học [6], [7].

Việc học sinh bỏ học có thể kéo theo nhiều hệ lụy cả trước mắt

lẫn lâu dài, không chỉ đối với cá nhân, gia đình học sinh mà cả với nhà

trường và xã hội. Vì vậy, việc dự đoán phát hiện sớm những học sinh

có biểu hiện bỏ học để có những biện pháp phù hợp kịp thời nhằm

giảm thiểu tình trạng học sinh bỏ học là một việc làm cần thiết và cấp

bách.

Hiện nay, trong công tác quản lý học sinh ở nhà trường thường

biết được các nguyên nhân dẫn đến học sinh có khả năng bỏ học một

cách đại khái chung chung. Việc phân tích, tổng hợp các nguyên nhân

học sinh bỏ học đã được một số tác giả đề cập tìm hiểu nhưng chưa có

các công cụ hỗ trợ để giúp nhà trường đánh giá phát hiện sớm học

sinh có khả năng bỏ học hay không.

2

Để thực hiện chủ trương của ngành về việc chấn chỉnh tình

trạng học sinh bỏ học cũng như tăng hiệu quả ứng dụng CNTT trong

quản lí để hạn chế tình trạng học sinh bỏ học, trong quá trình học tập

tôi nhận thấy khai phá dữ liệu là bộ môn rất hữu ích trong việc phân

loại các nhóm đối tượng, tôi nghĩ có thể vận dụng kiến thức của môn

học này để xây dựng hệ thống phân loại học sinh có khả năng bỏ học

hay không để từ đó giúp nhà trường tìm ra những biện pháp giáo dục

hợp lý nhằm hạn chế số lượng học sinh bỏ học cao như hiện nay.

Xuất phát từ những lý do trên, được sự đồng ý của PGS.TS. Võ

Trung Hùng, tôi chọn đề tài: “Ứng dụng kỹ thuật cây quyết định

xây dựng hệ thống dự báo khả năng bỏ học của học sinh trường

THPT Vạn Tường tỉnh Quảng Ngãi” để làm luận văn thạc sĩ.

2. Mục tiêu

Mục tiêu của đề tài là nghiên cứu và xây dựng hệ thống dự báo

khả năng bỏ học của học sinh trường THPT Vạn Tường tỉnh Quảng

Ngãi, nhằm giúp lãnh đạo nhà trường tìm ra các giải pháp phù hợp để

hạn chế tình trạng học sinh bỏ học, nâng cao hiệu quả giáo dục, giúp

cho học sinh có ý định bỏ học từng bước ổn định tinh thần và thích thú

đi học.

3. Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu

Đối tượng nghiên cứu của đề tài là học sinh tại trường THPT

Vạn Tường; cơ sở lý thuyết về khai phá dữ liệu và các thuật toán tạo

cây quyết định như CLS, ID3, C4.5; ngôn ngữ lập trình C#. Ngoài ra

trong luận văn còn nghiên cứu các biểu mẫu liên quan đến vấn đề bỏ

học của học sinh; các công văn của Sở GD-ĐT Quảng Ngãi, Ủy Ban

tỉnh Quảng Ngãi về việc hướng dẫn chấn chỉnh, khắc phục tình trạng

bỏ học của học sinh.

Phạm vi nghiên cứu

3

Phạm vi nghiên cứu là học sinh khối THPT ở trường THPT Vạn

Tường tỉnh Quảng Ngãi, các số liệu về học sinh bỏ học tại trường

THPT Vạn Tường các năm học 2015-2016, 2016-2017, 2017-2018.

Ngoài ra, trong đề tài tập trung nghiên cứu sâu vào thuật toán C4.5.

4. Phương pháp nghiên cứu

Nghiên cứu lý thuyết

Nghiên cứu các tài liệu về cơ sở lý thuyết; ngôn ngữ lập trình và

các công nghệ có liên quan; tổng hợp, thu thập các số liệu liên quan

đến việc bỏ học của học sinh.

Nghiên cứu thực nghiệm

Sử dụng các số liệu lưu trữ tại trường để tìm hiểu về nguyên

nhân học sinh bỏ học cũng như khảo sát thực tế và hỏi ý kiến chuyên

gia về nguyên nhân bỏ học của học sinh để xây dựng bảng dữ liệu

huấn luyện và xây dựng cây quyết định trên bảng dữ liệu đó.

Vận dụng các cơ sở lý thuyết để xây dựng ứng dụng, tiến hành

kiểm thử đánh giá hiệu suất của ứng dụng.

5. Ý nghĩa của đề tài

Về ý nghĩa khoa học

Đề tài được phân tích, tổng hợp từ những nguồn dữ liệu đáng

tin cậy sẽ là cơ sở khoa học để các nghiên cứu tiếp theo tham khảo.

Kết quả nghiên cứu của đề tài góp phần xây dựng cơ sở khoa học cho

việc tìm các giải pháp để hạn chế tình trạng học sinh bỏ học ở trường

THPT.

4

Về ý nghĩa thực tiễn

Xây dựng hệ hỗ trợ ra quyết định, triển khai hệ thống thử

nghiệm tại trường THPT Vạn Tường nhằm đánh giá hiệu quả trước

khi sử dụng rộng rãi. Ứng dụng có khả năng phân tích đưa ra dự báo

học sinh có ý định bỏ học để nhà trường có biện pháp giúp đỡ, duy trì

việc đến lớp cho các em.

6. Bố cục của luận văn

Chương 1: Trình bày cơ sở lý thuyết làm nền tảng để xây dựng

ứng dụng, bao gồm: Tổng quan về khai phá dữ liệu; phân lớp trong

khai phá dữ liệu; giới thiệu về cây quyết định trong phân lớp dữ liệu;

giải thuật CLS, ID3 và C4.5 xây dựng cây quyết định.

Chương 2: Tìm hiểu và phân tích thực trạng, nguyên nhân học

sinh bỏ học, nêu lên những vấn đề còn hạn chế trong công tác quản lí

ở đơn vị. Ứng dụng thuật toán C4.5 để xây dựng cây quyết định.

Chương 3: Trình bày chi tiết về mô hình kiến trúc tổng thể của

hệ thống và xây dựng ứng dụng. Tiến hành thử nghiệm trên dữ liệu

thực tế, sau đó đánh giá kết quả đạt được và khả năng triển khai ứng

dụng trên toàn hệ thống.

Cuối cùng là những đánh giá, kết luận và hướng phát triển của

đề tài.

CHƯƠNG 1

TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

Chương này trình bày khái quát về khai phá dữ liệu, các bước

xây dựng hệ thống khai phá dữ liệu, phân lớp trong khai phá dữ liệu.

Giới thiệu về cây quyết định và các thuật toán xây dựng cây quyết

định CLS, ID3 và C4.5.

1.1. Khai phá dữ liệu

1.1.1. Sơ lược về khai phá dữ liệu

1.1.2. Kĩ thuật khai phá dữ liệu

5

1.1.3. Các bước xây dựng hệ thống khai phá dữ liệu

1.1.4. Ứng dụng của khai phá dữ liệu

1.1.5. Kiến trúc của một hệ thống khai phá dữ liệu

1.2. Phân lớp dữ liệu bằng cây quyết định

1.2.1. Phân lớp dữ liệu

1.2.2. Quá trình phân lớp dữ liệu

1.2.3. Cây quyết định

1.2.4. Ưu điểm của cây quyết định

1.2.5. Xây dựng cây quyết định

1.2.6. Rút ra luật từ cây quyết định

1.3. Các thuật toán xây dựng cây quyết định

1.3.1. Thuật toán CLS

Function CLS_Builder(S, A)

{

1. Tạo một nút T, gồm tất cả các mẫu của tập huấn

luyện.

2. If(mọi mẫu trong T đều nằm trong cùng một lớp

"Yes")Then

Return T là nút lá gán nhãn "yes" và dừng lại.

3. If(mọi mẫu trong T đều nằm trong cùng một lớp

"No")Then

Return T là nút lá gán nhãn "No" và dừng lại.

4. If (Các mẫu thuộc cả hai lớp "yes" và "no") Then

{

 Chọn một thuộc tính X trong tập thuộc tính của tập

mẫu dữ liệu, X có các giá trị v1,v2, …vn.

 Chia tập mẫu trong T thành các tập con T1, T2,….,Tn.

chia theo giá trị của X.

 Tạo n nút con Ti (i=1,2…n) với nút cha là nút T.

 Tạo các nhánh nối từ nút T đến các nút Ti (i=1,2…n)

là các thuộc tính của X.

}

5. Thực hiện lặp cho các nút con Ti(i =1,2..n) và quay

lại bước 2.

}

6

1.3.2. Thuật toán ID3

1.3.2.1. Giới thiệu

1.3.2.2.. Giải thuật ID3

1.3.2.3. Chọn thuộc tính phân loại tốt nhất

1.3.2.4. Độ lợi thông tin

Độ lợi thông tin (Information Gain) là độ đo được sử dụng

trong giải thuật ID3. Đầu tiên là công thức đo lượng thông tin kỳ vọng

để phân lớp một phần tử trong tập dữ liệu

S

được đo bằng công thức

sau [1], [11]:

2

1

( ) log ( )

m

i i

i

Info S p p (1.1)

Function ID3_Builder(S, A)

{

1. Tạo một nút gốc N cho cây quyết định;

2. If (Các mẫu trong S đều thuộc cùng một lớp C)

Then Return nút N là nút lá có nhãn C;

3. If (thuộc tính A rỗng) Then

Return nút N với nhãn là lớp phổ biến nhất

trong các mẫu;

4. Chọn A.Best là thuộc tính có độ lợi thông tin

cao nhất;

5. Loại A.Best ra khỏi tập thuộc tính A

6. Foreach (giá trị ai của A.best)

{

Tạo một nhánh của cây từ nút N với

A.Best=ai;

Đặt vào Si các mẫu trong S có giá trị

A.Best=ai;

If (Si rỗng) Then

Gắn nhãn cho nút lá là lớp phổ biến

trong các mẫu;

Else Gắn nút được trả về bởi

ID3_Builder(Si, A);

}

}

7

trong đó,

i

p

là xác xuất một phần tử dữ liệu trong tập

S

thuộc vào

lớp

Ci

và nó được ước lượng bằng công thức

| |

| |

i

i

S

p

S

, với

i S

là tập

các phần tử dữ liệu trong tập

S

thuộc lớp

Ci

; m là số lượng các lớp

trong

S . Hàm logarit cơ số 2 được sử dụng là do công thức trên đo

lượng thông tin theo đơn vị bit (theo lý thuyết thông tin của

C.Shannon). Hàm

Info S( )

còn được gọi là Entropy của

S

được viết

Entropy S( )

[1]. Vậy:

2

1

( ) ( ) log ( )

m

i i

i

Entropy S Info S p p (1.2)

Trong luận văn này nghiên cứu chỉ giới hạn với số lớp

m 2.

Trong trường hợp S là tập ví dụ, thì thành viên của S là một ví dụ, mỗi

ví dụ thuộc cùng một lớp hay có một giá trị phân loại.

Entropy có giá trị nằm trong khoảng [0..1].

Entropy(S)=0: Nếu tập S chỉ toàn ví dụ thuộc cùng một loại,

hay S là thuần nhất.

Entropy(S)=1: Nếu tập S có các ví dụ thuộc các loại khác nhau

với độ pha trộn cao nhất.

0<Entropy(S)<1: Nếu tập S có số lượng ví dụ thuộc các loại

khác nhau là không bằng nhau.

Giả sử ta phân chia dữ liệu trong

S

theo thuộc tính

A

nào đó,

và giả sử thuộc tính này có

v

giá trị (rời rạc) khác nhau là

1 { , 2,..., }v a a a . Thuộc tính này phân chia tập dữ liệu

S

thành

v

tập

con

1 2 { , ,..., )

v S S S

trong đó

j S

là tập các phần tử dữ liệu có giá trị của

thuộc tính

A

i a

. Tập con này sẽ tương ứng với một nhánh cây

được phát triển từ nút N trong giải thuật tạo cây quyết định. Trường

hợp lý tưởng thì ta muốn tập con này sẽ có khả năng phân lớp chính

xác các phần tử trong nó, hay nói một cách khác ta muốn tập con này

8

thuần nhất càng tốt. Tuy nhiên trong thực tế thì các tập này thường

không thuần nhất vì nó chứa các phần tử dữ liệu thuộc về các lớp khác

nhau, do đó chúng ta cần thêm thông tin

( ) A

Info S

để phân lớp chính

xác tập con này. Lượng thông tin

( ) A

Info S

này là thông tin kỳ vọng

để phân lớp một phần tử dữ liệu trong

S

dựa trên việc chia dữ liệu

bằng thuộc tính

A

còn gọi là Entropy của tập

S

đối với thuộc tính

A

viết là

Entropy S A ( , ). Giá trị này càng nhỏ thì độ thuần nhất của các

tập con càng cao. Thông tin này được đo bởi công thức [1], [11]:

1

| |

( ) ( , ) ( )

| |

v

j

A j

j

S

Info S Entropy S A x Info S

S

(1.3)

trong đó

| |

| |

j

S

S

được dùng làm trọng số của tập con

j S . Cuối cùng

hàm độ lợi thông tin của thuộc tính

A

trong tập

S

Gain S A ( , )

được tính bằng công thức [1], [11]:

( , ) ( ) ( )

( ) ( , )

Gain S A Info S Info S A

Entropy S Entropy S A

(1.4)

Giá trị

Gain S A ( , )

cho ta biết được lợi bao nhiêu nếu chia dữ

liệu theo thuộc tính A. Giá trị này càng lớn thì càng tốt, do đó thuộc

tính có giá trị

Gain()

lớn nhất sẽ được chọn để phân nhánh trong quá

trình xây dựng cây quyết định.

Thuật toán ID3 được xem là một cải tiến của thuật toán CLS.

Tuy nhiên thuật toán ID3 không có khả năng xử lý đối với những dữ

liệu có chứa thuộc tính số, thuộc tính liên tục và khó khăn trong việc

xử lý các dữ liệu thiếu và dữ liệu nhiễu. Vấn đề này sẽ được giải quyết

trong thuật toán C4.5.

9

1.3.3. Thuật toán C4.5

1.3.3.1. Giới thiệu:

1.3.3.2. Giải thuật C4.5 xây dựng cây quyết định

1.3.3.3. Tỉ suất lợi ích Gain Ratio

Độ đo độ lợi thông tin hoạt động không tốt trong trường hợp

một thuộc tính có nhiều giá trị. Ví dụ, thuộc tính Mã học sinh (Mahs)

hay ID,…Đặc biệt khi chia dữ liệu theo thuộc tính này thì mỗi tập con

Function C45_Builder(S,A)

{

1. <Tính toán tần xuất các giá trị trong các lớp

của S>;

2. If <Kiểm tra các mẫu, nếu thuộc cùng một lớp

hoặc có rất ít mẫu khác lớp> Then <Trả về 1

nút lá>

Else <Tạo một nút quyết định N>;

3. For <Với mỗi thuộc tính A> Do <Tính giá trị

GainRatio(A)>;

4. <Tại nút N, thực hiện việc kiểm tra để chọn ra

thuộc

tính có giá trị GainRatio tốt nhất(lớn nhất). Gọi

N.test là thuộc tính có GainRatio lớn nhất>;

5. If <Nếu N.test là thuộc tính liên tục> Then <Tìm

ngưỡng cho phép tách của N.test>;

6. For <Với mỗi tập con S' được tách ra từ tập S>

Do

{

// * S' được tách ra theo quy tắc:

- Nếu N.test là thuộc tính liên tục tách theo

ngưỡng ở bước 5

- Nếu N.test là thuộc tính phân loại rời rạc

tách theo các giá trị của thuộc tính này.

If <Kiểm tra, nếu S' rỗng> Then <Gán nút con này

của nút N là nút lá>;

Else

<Gán nút con này là nút được trả về bằng cách

gọi đệ qui lại đối với hàm C45_Builder(S'),

với tập S'>;

}

7. <Tính toán các lỗi của nút N>;

<Trả về nút N>;

}

10

dữ liệu sẽ tương ứng với một bản ghi, do đó các tập con này là hoàn

toàn thuần nhất. Hay nói cách khác lượng thông tin cần để phân lớp

tập dữ liệu S dựa trên cách phân chia dữ liệu trên thuộc tính này là

Entropy S A ( , ) 0

và giá trị độ lợi thông tin sẽ đạt giá trị tối đa

Gain S Mahs Entropy S Entropy S ( , ) ( ) 0 ( ). Rõ ràng việc phân lớp

dựa trên thuộc tính này là vô nghĩa.

Do dó, trong giải thuật C4.5 tác giả đã đề xuất sử dụng một độ

đo mới gọi là tỉ số độ lợi (Gain Ratio) để cố tránh nhược điểm này.

Hàm này sử dụng một phương pháp chuẩn hóa độ lợi thông tin bằng

cách sử dụng giá trị phân chia thông tin (Split information) được định

nghĩa tương tự như hàm

Info S( )

[1], [11]:

2

1

| | | |

( ) log

| | | |

v

j j

A

j

S S

SplitInfo S x

S S

(1.5)

Giá trị này biểu diễn thông tin tiềm năng được sinh ra thông

qua việc chia tập dữ liệu huấn luyện

S

thành

v

tập con tương ứng

với các giá trị của thuộc tính

A

. Đây là điểm khác so với độ lợi thông

tin, do đó công thức tính tỉ số độ lợi thông sẽ là [1], [11]:

( , ) ( , )

( , )

Gain S A GainRation S A

SplitInfo S A

(1.6)

trong đó, hàm

SplitInfo S A ( , )

( ) A

SplitInfo S

Dựa trên độ đo này, các thuộc tính có giá trị tỉ số độ lợi cao sẽ

được chọn làm thuộc tính phân chia dữ liệu. Có một chú ý rằng, nếu

hàm

SplitInfo S A ( , ) 0

thì công thức trên không dùng được, do đó

có thể thêm ràng buộc để tránh trường hợp này. Cụ thể giá trị độ lợi

thông tin của thuộc tính được chọn phải đủ lớn, ít nhất là lớn hơn giá

trị trung bình độ lợi thông tin của tất cả các thuộc tính.

1.3.3.4. Đánh giá độ phức tạp của thuật toán C4.5

1.3.3.5. Phương pháp đánh giá độ hiệu quả

11

1.4. Tổng kết chương 1

Thuật toán C4.5 thường được sử dụng để xây dựng cây quyết

định vì những ưu điểm của của nó như cây trực quan, dễ hiểu; ngoài ra

nó còn xử lý được kiểu dữ liệu số và rời rạc, dữ liệu thiếu.

CHƯƠNG 2

ỨNG DỤNG CÂY QUYẾT ĐỊNH DỰ BÁO KHẢ NĂNG BỎ

HỌC CỦA HỌC SINH

Chương này sẽ phân tích về thực trạng, nguyên nhân dẫn đến

học sinh bỏ học để xây dựng tập dữ liệu huấn luyện và thực hiện tính

toán chi tiết việc phân tách cây trên thuật toán C4.5 để xây dựng cây

quyết định, từ đó rút ra tập luật để xây dựng ứng dụng ở chương 3.

2.1. Tình hình bỏ học của học sinh

2.1.1. Thực trạng, nguyên nhân học sinh bỏ học

2.1.2. Hậu quả của tình trạng bỏ học

2.1.3. Khảo sát học sinh bỏ học

2.1.4. Phân tích nguyên nhân bỏ học của học sinh

2.1.5. Giải pháp xây dựng hệ thống

2.2. Ứng dụng cây quyết định

2.2.1. Lượng hóa dữ liệu để đưa vào thuật toán C4.5

Để thuật toán C4.5 xây dựng được cây quyết định hiệu quả,

đáng tin cậy, trước tiên ta phải lượng hóa dữ liệu nhằm có được tập dữ

liệu huấn luyện tốt nhất.

2.2.2. Phân tích dữ liệu để xây dựng tập huấn luyện

Qua kết quả khảo sát cũng như việc phân tích tình hình học sinh

bỏ học hiện nay, ta thấy có nhiều yếu tố ảnh hưởng dẫn đến việc bỏ

học của các em. Tuy nhiên, trong luận văn chỉ chọn lọc một số nguyên

nhân chủ yếu như sau:

Học lực (HL): Học lực được đánh giá thành 5 mức là: G (Giỏi),

K (Khá), TB (Trung bình), Y (Yếu), Ke (Kém).

12

Hạnh kiểm (HK): Là kết quả rèn luyện của học sinh. Hạnh

kiểm được xếp thành 4 mức tương ứng là Tốt (T), Khá (K), Trung

bình (Tb) và Yếu (Y).

Diện lưu ban(LB): Chia làm hai trường hợp

 Co: Là những học sinh thuộc diện ở lại lớp.

 Khong: Là những học sinh thuộc diện được lên lớp hoặc

học sinh mới tuyển đầu cấp.

Hoàn cảnh gia đình (HCGD): Cần xem xét đến các trường hợp:

 Bình thường (BT): Là những học sinh đang có bố mẹ nuôi

dưỡng, quan tâm, có điều kiện để học tập.

 Khó khăn (KTKK): Kinh tế gia đình còn khó khăn, bố mẹ

làm ăn xa.

 Bố mẹ li hôn (CMLH): Là những học sinh có bố mẹ đã li

hôn, thiếu thốn tình cảm từ gia đình, không người quan tâm đến

việc học của các em.

 Mồ côi cha mẹ (MCCM): Học sinh mồ côi cha mẹ hoặc ở

với ông bà già yếu hoặc đang ở với người thân.

 Bạo lực gia đình (BLGD): Là những học sinh trong gia đình

thường xuyên bị bạo lực từ bố mẹ hoặc người thân.

Bỏ học (Bo_hoc): Là kết quả của việc áp dụng cây quyết định

dự báo khả năng bỏ học của học sinh. Ta chia thành 2 trường hợp:

Những học sinh có thể bỏ học (Yes) hoặc không (No).

Ta có các giá trị của các thuộc tính như sau:

HL = {G, K, TB, Y, Ke}

HK = {T, K, TB, Y}

LB = {Co, khong}

HC_GD = {BT, KTKK, CMLH, MCCM, BLGD)

Bo_hoc = {Yes, No}

13

Từ phân tích trên ta xây dựng bảng dữ liệu huấn luyện mẫu như sau:

Bảng 2.11. Bảng dữ liệu huấn luyện

TT HL HK HCGD LB Bo_hoc

1 G K BT Co No

2 G T KTKK Co No

3 G TB BT Khong No

4 K K MCCM Co No

5 K T BLGD Khong No

6 K T BT Khong No

7 K TB BLGD Co Yes

8 K Y MCCM Co Yes

9 Ke TB MCCM Khong Yes

10 Ke Y KTKK Co Yes

11 Ke Y CMLH Khong Yes

12 Ke Y KTKK Khong Yes

13 TB K KTKK Co No

14 TB K BT Khong No

15 TB K BLGD Khong Yes

16 TB K MCCM Khong Yes

17 TB T BT Co No

18 TB T KTKK Co No

19 TB TB MCCM Khong Yes

20 TB Y KTKK Co Yes

21 TB Y MCCM Co Yes

22 TB Y CMLH Khong Yes

23 Y K CMLH Co Yes

24 Y T BT Khong No

25 Y TB CMLH Khong Yes

26 Y Y BT Khong Yes

Tải ngay đi em, còn do dự, trời tối mất!