Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Ứng dụng khai phá dữ liệu để xây dựng hệ thống chẩn đoán bệnh hen phế quản và viêm phế quản cho trẻ em
PREMIUM
Số trang
122
Kích thước
5.2 MB
Định dạng
PDF
Lượt xem
1403

Ứng dụng khai phá dữ liệu để xây dựng hệ thống chẩn đoán bệnh hen phế quản và viêm phế quản cho trẻ em

Nội dung xem thử

Mô tả chi tiết

`

ĐẠI HỌC ĐÀ NẴNG

TRƯỜNG ĐẠI HỌC SƯ PHẠM

TRẦN VĂN ĐỒNG

ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ

THỐNG CHẨN ĐOÁN BỆNH HEN PHẾ QUẢN VÀ

VIÊM PHẾ QUẢN CHO TRẺ EM

Chuyên ngành: Hệ thống thông tin

Mã số: 61.49.01.04

TÓM TẮT

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

ĐÀ NẴNG - NĂM 2017

Công trình được hoàn thành tại

TRƯỜNG ĐẠI HỌC SƯ PHẠM - ĐHĐN

Người hướng dẫn khoa học: TS. NGUYỄN HOÀNG HẢI

Phản biện 1: PGS.TSKH. Trần Quốc Chiến

Phản biện 2: PGS.TS. Huỳnh Công Pháp

Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt

nghiệp thạc sĩ Hệ thống thông tin họp tại Trường Đại học Sư

phạm – ĐHĐN vào ngày 30 tháng 7 năm 2017.

Có thể tìm hiểu luận văn tại:

- Thư viện Trường Đại học Sư phạm, Đại học Đà Nẵng

- Trung tâm thông tin học liệu, Đại học Đà Nẵng

1

MỞ ĐẦU

1. Lý do chọn đề tài

Nhiễm khuẩn hô hấp cấp là bệnh lý phổ biến ở trẻ em và

gây tỉ lệ tử vong cao nhất so với các bệnh khác. Các thông báo

chính tại hội nghị quốc tế về chống nhiễm khuẩn hô hấp cấp cho

biết hàng năm trên thế giới có khoảng 4,3 triệu trẻ em dưới 5 tuổi

chết vì nhiễm khuẩn hô hấp. Mỗi năm một đứa trẻ bị 5 đến 8 lần

nhiễm khuẩn hô hấp cấp làm ảnh hưởng đến ngày công lao động

của bố mẹ, là gánh nặng đối với xã hội. Do nhiễm khuẩn hô hấp

cấp có tầm quan trọng như vậy nên tổ chức y tế thế giới và Unicef

đã đưa ra chương trình phòng chống bệnh nhiễm khuẩn hô hấp

cấp với mục tiêu cụ thể là làm giảm tỉ lệ tử vong do nhiễm khuẩn

hô hấp cấp ở trẻ dưới 5 tuổi, cùng với mục tiêu lâu dài là làm

giảm tỉ lệ mắc bệnh và giảm tỉ lệ kháng kháng sinh.

Nhìn chung, tại các nước đang phát triển, nhiễm khuẩn hô

hấp cấp là nguyên nhân mắc bệnh hàng đầu ở trẻ em dưới 5 tuổi,

là nguyên nhân đến khám bệnh cũng như vào điều trị hàng đầu tại

các tuyến y tế và cũng là nguyên nhân tử vong làm trẻ chết nhiều

nhất. Thật vậy, nguyên nhân ước tính của 12,8 triệu tử vong ở trẻ

dưới 5 tuổi, 1990: nhiễm khuẩn hô hấp cấp 33,4 % (4,3 triệu), tiêu

chảy 24,8% (3,2 triệu), nguyên nhân khác 41,8% (5,4 triệu).

Hen phế quản là một trong những bệnh mạn tính thường

gặp ở trẻ em và là một trong những nguyên nhân buộc trẻ phải

nghỉ học nhiều ngày (trung bình trẻ nghỉ học 5-7 ngày/năm do bị

hen phế quản), tỷ lệ mắc bệnh cũng như tử vong do hen phế quản

ngày càng tăng. Tỉ lệ mắc bệnh từ 0,5-6% trước đây, hiện nay tỉ lệ

2

mắc trung bình tử 5-10%. Tỉ lệ tử vong trước đây là 1-2% hiện

nay có thể cao hơn 2-3%.

Nước ta đang trên đà phát triển và hội nhập. Hệ thống Y tế

và Giáo dục vẫn còn nhiều bất cập và hạn chế, đặc biệt là các cơ

sở vùng sâu vùng xa, chưa có điều kiện tiếp cận với công nghệ

hiện đại. Đội ngũ Y Bác sĩ chưa đủ để đáp ứng với tình trạng bệnh

nhân ngày càng tăng cả về số lượng và loại bệnh. Nhận thức của

người dân về bệnh tật và cách sơ cứu cũng mơ hồ. Nếu muốn đưa

bệnh nhân đến được các bệnh viện trung tâm thì mất nhiều thời

gian…Để khắc phục những khó khăn này, chúng ta cần có công

cụ gần gũi với thực tiễn, người dùng dễ sử dụng và linh hoạt để có

thể giúp bệnh nhân và Y Bác sĩ phát hiện bệnh và điều trị kịp thời.

Việc ứng dụng Công nghệ thông tin (CNTT) vào lĩnh vực y

tế còn hạn chế, nhất là việc hỗ trợ tìm kiếm, khai thác thông tin

nhằm chẩn đoán các biểu hiện lâm sàng. Trong đó, khai phá dữ

liệu là một kỹ thuật thường được áp dụng để hỗ trợ đưa ra các

quyết định khá chính xác.

Chính vì vậy tôi đã chọn luận văn “Ứng dụng khai phá dữ

liệu để chẩn đoán bệnh hen phế quản và viêm phế quản cho trẻ

em” làm đề tài nghiên cứu luận văn của mình.

2. Mục tiêu và nhiệm vụ nghiên cứu của đề tài

 Mục tiêu

Mục tiêu của đề tài là xây dựng và áp dụng có hiệu quả việc

trợ giúp ra quyết định trong việc chẩn đoán bệnh hen phế quản và

viêm phế quản cho trẻ em từ 2 tháng tuổi đến 5 tuổi.

 Nhiệm vụ

 Nghiên cứu lý thuyết về thuật toán phân lớp và kỹ thuật cây

quyết định.

3

 Tìm hiểu về bệnh hen phế quản và viêm phế quản, tiến hành

điều tra thu thập dữ liệu về bệnh hen phế quản và viêm phế quản ở trẻ

em từ 2 tháng tuổi đến 5 tuổi.

 Đánh giá kết quả dự đoán của mô hình và lựa chọn mô hình

tốt nhất để chẩn đoán bệnh hen phế quản và viêm phế quản.

 Xây dựng ứng dụng khai phá dữ liệu để chẩn đoán bệnh hen

phế quản và viêm phế quản dựa vào kỹ thuật cây quyết định.

3. Đối tƣợng và phạm vi nghiên cứu

 Đối tƣợng nghiên cứu

 Dữ liệu nghiên cứu bao gồm các yếu tố liên quan đến biểu

hiện và các yếu tố lâm sàng của bệnh hen phế quản và viêm phế quản.

 Các kỹ thuật khai phá dữ liệu, công cụ khai phá dữ liệu và

mô-đun lập trình trong khai phá dữ liệu.

 Phạm vi nghiên cứu

 Dữ liệu thu thập gồm các hồ sơ bệnh án thuộc đối tượng

trẻ em từ 2 tháng tuổi đến 5 tuổi, được chẩn đoán bệnh hen phế quản

và viêm phế quản tại Khoa nhi - bệnh viện đa khoa tỉnh Khánh Hòa,

phòng khám đa khoa trường Cao Đẳng Y tế Khánh Hòa và một số

phòng khám tư nhân trên địa bàn tỉnh Khánh Hòa.

 Nghiên cứu ứng dụng về thuật toán phân lớp và kỹ thuật

cây quyết định.

Xây dựng ứng dụng khai phá dữ liệu để chẩn đoán bệnh hen

phế quản và viêm phế quản cho trẻ em.

4. Phƣơng pháp nghiên cứu

 Phƣơng pháp nghiên cứu lý luận.

 Tìm tòi, đọc hiểu, phân tích thông tin, dữ liệu từ các tài

liệu, giáo trình, sách liên quan đến khai phá dữ liệu.

4

 Nghiên cứu các kỹ thuật phân lớp bằng thuật toán cây

quyết định, ứng dụng các kỹ thuật đó để chuẩn đoán bệnh hen phế

quản và viêm phế quản dựa vào các thông tin đầu vào.

 Phƣơng pháp nghiên cứu thực tiễn.

 Sử dụng kiến thức khai phá dữ liệu cộng với tri thức

chuyên gia bác sĩ, y học chứng cớ và y học thực chứng trong quá

trình khai phá dữ liệu y khoa.

 Tiến hành so sánh kết quả của các kỹ thuật khai phá dữ liệu

để lựa chọn kỹ thuật cho kết quả chính xác nhất.

 Xây dựng hệ thống nhằm hỗ trợ bác sĩ trong việc chẩn đoán

và điều trị bệnh.

5. Kết quả dự kiến

 Kết quả lý thuyết

 Nắm được kỹ thuật khai phá dữ liệu bằng thuật toán phân lớp

và kỹ thuật cây quyết định.

Ứng dụng kỹ thuật khai phá dữ liệu trên kết quả lâm sàng về

bệnh hen phế quản và viêm phế quản để đưa ra chẩn đoán về khả

năng mắc hay không mắc hai chứng bệnh này.

 Kết quả thực tiễn

 Xây dựng được mô hình chẩn đoán và tư vấn bệnh hen phế

quản và viêm phế quản dựa trên kỹ thuật khai phá dữ liệu.

 Xây dựng hệ thống hỗ trợ để chẩn đoán bệnh hen phế quản

và viêm phế quản cho trẻ em.

6. Ý nghĩa khoa học và thực tiễn của luận văn.

 Ý nghĩa khoa học.

Thông qua đề tài sẽ hiểu sâu hơn về thuật toán phân lớp và

kỹ thuật cây quyết định.

5

 Góp phần chẩn đoán bệnh hen phế quản và viêm phế quản

của trẻ em dựa trên khai phá dữ liệu.

 Ý nghĩa thực tiễn.

Việc xây dựng ứng dụng chẩn đoán bệnh hen phế quản và

viêm phế quản sẽ hỗ trợ cho bác sĩ, cha mẹ các bé phát hiện được

bệnh để có giải pháp can thiệp kịp thời trong việc chăm sóc sức

khoẻ cho trẻ.

7. Bố cục của luận văn

Dự kiến luận văn được trình bày bao gồm 3 chương như sau:

Chương 1: Trong chương 1 sẽ trình bày về tổng quan về khai

phá dữ liệu, quy trình khai phá dữ liệu, các kỹ thuật khai phá bằng

cây quyết định, Trình bày chi tiết hai thuật toán là ID3 và C4.5

Chương 2: Nghiên cứu và xử lý dữ liệu về bệnh hen phế quản

và viêm phế quản ở trẻ em. Chương này trình bày nội dung sau: Đặc

điểm hệ hô hấp của trẻ em, khái niệm về bệnh hen phế quản và viêm

phế quản, bệnh nguyên, cơ chế sinh bệnh, đặc điểm lâm sàng và chẩn

đoán bệnh hen phế quản, viêm phế quản cho trẻ em, trình bày về canh

tác dữ liệu trong khai phá dữ liệu và ứng dụng vào khai phá dữ liệu

trong y khoa.

Chương 3: Xây dựng hệ thống chẩn đoán bệnh hen phế quản

và viêm phế quản cho trẻ em.

6

CHƢƠNG 1

TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1.1 Sơ lƣợc về khai phá dữ liệu

Khai phá dữ liệu (KPDL) là một khái niệm ra đời vào

những năm cuối của thập kỷ 80 của thế kỷ 20. KPDL được dùng

để mô tả quá trình phát hiện ra tri thức trong cơ sở dữ liệu

(CSDL). Quá trình này kết xuất ra các tri thức tiềm ẩn từ dữ liệu

giúp cho việc dự báo trong kinh doanh, các hoạt động sản xuất,...

KPDL làm giảm chi phí về thời gian so với phương pháp truyền

thống trước kia (ví dụ như phương pháp thống kê).

1.1.2 Quy trình khai phá dữ liệu

1.1.3 Các kỹ thuật khai phá dữ liệu

1.1.4 Ứng dụng của khai phá dữ liệu

1.1.5 Tổng quan ứng dụng khai phá dữ liệu vào hỗ trợ chẩn

đoán bệnh trong y tế.

1.2 PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU

1.2.1 Phân lớp dữ liệu

Phân lớp dữ liệu là gán các mẫu mới vào các lớp với độ

chính xác cao nhất để dự báo cho các bộ dữ liệu (mẫu) mới.

Đầu vào là một tập các mẫu dữ liệu huấn luyện, với một

nhãn phân lớp cho mỗi mẫu dữ liệu. Đầu ra là mô hình dự đoán

(bộ phân lớp) dựa trên tập huấn luyện và những nhãn phân lớp.

1.2.2 Quá trình phân lớp dữ liệu.

1.2.3 Đánh giá độ chính xác của mô hình phân lớp.

1.3 KỸ THUẬT KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT

ĐỊNH

7

1.3.1 Giới thiệu chung

1.3.2 Biểu diễn cây quyết định

1.3.3 Các bƣớc chính xây dựng cây quyết định

1.3.4 Ƣu điểm và nhƣợc điểm của cây quyết định

1.4 THUẬT TOÁN ID3

1.4.1 Giới Thiệu

1.4.2 Xây dựng giải thuật

Entropy đo tính thuần nhất của tập dữ liệu:

Dùng để đo tính thuần nhất của một tập dữ liệu. Entropy của một

tập S được tính theo công thức

Entropy(S) = - P

+ log2 (P+

) - P

-

log2 (P-

)

Trong trường hợp các mẫu dữ liệu có hai thuộc tính phân

lớp "yes" (+), "no" (-). Ký hiệu p+

là để chỉ tỷ lệ các mẫu có giá trị

của thuộc tính quyết định là "yes", và P￾là tỷ lệ các mẫu có giá trị

của thuộc tính quyết định là "no" trong tập S.

Trường hợp tổng quát, đối với tập con S có n phân lớp thì ta

có công thức sau:

2

1

( ) ( log ( ))

n

i i

i

Entropy s P P

  

Trong đó Pi là tỷ lệ các mẫu thuộc lớp i trên tập hợp S các mẫu

kiểm tra.

Information Gain (viết tắt là Gain): Gain là đại lượng dùng

để đo tính hiệu quả của một thuộc tính được lựa chọn cho việc

phân lớp. Đại lượng này được tính thông qua hai giá trị

Information và Entropy.

Cho tập dữ liệu S gồm có n thuộc tính Ai(i=1,2…n) giá trị

Gain của thuộc tính A trong tập S ký hiệu là Gain(S, A) và được tính

theo công thức sau:

(1.2)

(1.1)

8

( )

Gain(S,A)= ( ) ( ) v

v

v value A

S

Entropy S Entropy S

 s

 

Trong đó:

 S là tập hợp ban đầu với thuộc tính A. Các giá trị của V

tương ứng là các giá trị của thuộc tính A.

 Sv bằng tập hợp con của tập S mà có thuộc tính A mang giá

trị v.

 |Sv| là số phần tử của tập Sv.

 |S| là số phần tử của tập S.

Trong quá trình xây dựng cây quyết định (DT) theo thuật

toán ID3 tại mỗi bước triển khai cây, thuộc tính được chọn để triển

khai là thuộc tính có giá trị Gain lớn nhất.

 Hàm xây dựng cây quyết định trong thuật toán ID3

Function induce_tree (tập_ví_dụ, tập_thuộc_tính)

begin

if mọi ví dụ trong tập_ví_dụ đều nằm trong cùng một lớp then

return một nút lá được gán nhãn bởi lớp đó

else if tập_thuộc_tính là rỗng then

return nút lá được gán nhãn bởi tuyển của tất cả các lớp

trong tập_ví_dụ

else begin

chọn một thuộc tính P, lấy nó làm gốc cho cây hiện tại;

xóa P ra khỏi tập_thuộc_tính;

với mỗi giá trị V của P

begin

tạo một nhánh của cây gán nhãn V;

Đặt vào phân_vùng V các ví dụ trong tập_ví_dụ có

giá trị V tại thuộc tính P;

(1.3)

9

Gọi induce_tree (phân_vùng V, tập_thuộc_tính), gắn

kết quả vào nhánh V

end

end

end

1.4.3 Ví dụ thuật toán ID3

1.4.4 Nhận xét về thuật toán

1.5 THUẬT TOÁN C4.5

1.5.1 Giới thiệu về thuật toán

Thuật toán C4.5 được phát hiện và công bố bởi J. Ross

Quinlan vào năm 1996. Thuật toán C4.5 được cải tiến từ thuật

toán ID3 với việc cho phép xử lý trên tập dữ liệu có các thuộc tính

số (numeric atributes) và làm việc được với tập dữ liệu bị thiếu và

bị nhiễu. Nó thực hiện phân lớp tập mẫu dữ liệu theo chiến lược

ưu tiên theo chiều sâu (Depth – First). Thuật toán xét tất cả các

phép thử có thể để phân chia tập dữ liệu đã cho và chọn ra một

phép thử có giá trị GainRatio tốt nhất. GainRatio là một đại lượng

để đánh giá độ hiệu quả của thuộc tính dùng để thực hiện phép

tách trong thuật toán để phát triển DT.

GainRatio được xác định bởi công thức sau:

( , ) ( , )

inf ( , )

Gain S A GainRatio S A

Split omation S A

Trong đó:

Cách tính của Entropy và Gain có ở công thức 1.2 và 1.3.

Trong đó, SplitInformation(S, A) chính là thông tin do phân

tách của A trên cơ sở giá trị của thuộc tính phân loại S. Công thức

tính như sau.

(1.4)

10

 

 

2

1

, log

n

i i

i

S A

S S

SplitInfomation

 S S

 

Để ý rằng SplitInfomation thực sự chính là Entropy của S

với sự liên quan trên những giá trị của thuộc tính A. Trong thuật

toán C4.5 tất cả các thuộc tính sẽ được tính toán độ đo GainRatio,

thuộc tính nào có độ đo GainRatio lớn nhất sẽ được chọn làm

thuộc tính phân chia.

1.5.2 Xây dựng giải thuật

Thuật Toán C4.5

Dữ liệu vào: Tập dữ liệu E, tập thuộc tính F, tập nhãn lớp.

Dữ liệu ra: Mô hình DT.

Thuật toán: Tạo cây (tập dữ liệu E, tập thuộc tính F, tập

nhãn lớp)

Nếu điều kiện dừng (E,F)=Đúng

Nutla=CreaNode(); Nutla.nhanlop=phanlop(E)

Return nutla

Ngược lại

Nutgoc=CreateNode()

Nutgoc.điều kiện kiểm tra=Tìm điểm chia tốt nhất (E,F)

Đặt F=F\{nút chọn phân chia}

Đặt V={v|v thõa mãn điều kiện là phần phân chia xuất

phát từ Nutgoc}

Lặp qua từng tập phân chia v

V

Đặt Ev ={e| Nutgoc.điều kiện kiểm tra (e)=v và e

E}

Nutcon=Tạocây(Ev, F, Tập nhãn lớp)

Dừng lặp

End if

(1.5)

Tải ngay đi em, còn do dự, trời tối mất!