Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Ứng dụng khai phá dữ liệu để xây dựng hệ thống chẩn đoán bệnh hen phế quản và viêm phế quản cho trẻ em
Nội dung xem thử
Mô tả chi tiết
`
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM
TRẦN VĂN ĐỒNG
ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ
THỐNG CHẨN ĐOÁN BỆNH HEN PHẾ QUẢN VÀ
VIÊM PHẾ QUẢN CHO TRẺ EM
Chuyên ngành: Hệ thống thông tin
Mã số: 61.49.01.04
TÓM TẮT
LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN
ĐÀ NẴNG - NĂM 2017
Công trình được hoàn thành tại
TRƯỜNG ĐẠI HỌC SƯ PHẠM - ĐHĐN
Người hướng dẫn khoa học: TS. NGUYỄN HOÀNG HẢI
Phản biện 1: PGS.TSKH. Trần Quốc Chiến
Phản biện 2: PGS.TS. Huỳnh Công Pháp
Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt
nghiệp thạc sĩ Hệ thống thông tin họp tại Trường Đại học Sư
phạm – ĐHĐN vào ngày 30 tháng 7 năm 2017.
Có thể tìm hiểu luận văn tại:
- Thư viện Trường Đại học Sư phạm, Đại học Đà Nẵng
- Trung tâm thông tin học liệu, Đại học Đà Nẵng
1
MỞ ĐẦU
1. Lý do chọn đề tài
Nhiễm khuẩn hô hấp cấp là bệnh lý phổ biến ở trẻ em và
gây tỉ lệ tử vong cao nhất so với các bệnh khác. Các thông báo
chính tại hội nghị quốc tế về chống nhiễm khuẩn hô hấp cấp cho
biết hàng năm trên thế giới có khoảng 4,3 triệu trẻ em dưới 5 tuổi
chết vì nhiễm khuẩn hô hấp. Mỗi năm một đứa trẻ bị 5 đến 8 lần
nhiễm khuẩn hô hấp cấp làm ảnh hưởng đến ngày công lao động
của bố mẹ, là gánh nặng đối với xã hội. Do nhiễm khuẩn hô hấp
cấp có tầm quan trọng như vậy nên tổ chức y tế thế giới và Unicef
đã đưa ra chương trình phòng chống bệnh nhiễm khuẩn hô hấp
cấp với mục tiêu cụ thể là làm giảm tỉ lệ tử vong do nhiễm khuẩn
hô hấp cấp ở trẻ dưới 5 tuổi, cùng với mục tiêu lâu dài là làm
giảm tỉ lệ mắc bệnh và giảm tỉ lệ kháng kháng sinh.
Nhìn chung, tại các nước đang phát triển, nhiễm khuẩn hô
hấp cấp là nguyên nhân mắc bệnh hàng đầu ở trẻ em dưới 5 tuổi,
là nguyên nhân đến khám bệnh cũng như vào điều trị hàng đầu tại
các tuyến y tế và cũng là nguyên nhân tử vong làm trẻ chết nhiều
nhất. Thật vậy, nguyên nhân ước tính của 12,8 triệu tử vong ở trẻ
dưới 5 tuổi, 1990: nhiễm khuẩn hô hấp cấp 33,4 % (4,3 triệu), tiêu
chảy 24,8% (3,2 triệu), nguyên nhân khác 41,8% (5,4 triệu).
Hen phế quản là một trong những bệnh mạn tính thường
gặp ở trẻ em và là một trong những nguyên nhân buộc trẻ phải
nghỉ học nhiều ngày (trung bình trẻ nghỉ học 5-7 ngày/năm do bị
hen phế quản), tỷ lệ mắc bệnh cũng như tử vong do hen phế quản
ngày càng tăng. Tỉ lệ mắc bệnh từ 0,5-6% trước đây, hiện nay tỉ lệ
2
mắc trung bình tử 5-10%. Tỉ lệ tử vong trước đây là 1-2% hiện
nay có thể cao hơn 2-3%.
Nước ta đang trên đà phát triển và hội nhập. Hệ thống Y tế
và Giáo dục vẫn còn nhiều bất cập và hạn chế, đặc biệt là các cơ
sở vùng sâu vùng xa, chưa có điều kiện tiếp cận với công nghệ
hiện đại. Đội ngũ Y Bác sĩ chưa đủ để đáp ứng với tình trạng bệnh
nhân ngày càng tăng cả về số lượng và loại bệnh. Nhận thức của
người dân về bệnh tật và cách sơ cứu cũng mơ hồ. Nếu muốn đưa
bệnh nhân đến được các bệnh viện trung tâm thì mất nhiều thời
gian…Để khắc phục những khó khăn này, chúng ta cần có công
cụ gần gũi với thực tiễn, người dùng dễ sử dụng và linh hoạt để có
thể giúp bệnh nhân và Y Bác sĩ phát hiện bệnh và điều trị kịp thời.
Việc ứng dụng Công nghệ thông tin (CNTT) vào lĩnh vực y
tế còn hạn chế, nhất là việc hỗ trợ tìm kiếm, khai thác thông tin
nhằm chẩn đoán các biểu hiện lâm sàng. Trong đó, khai phá dữ
liệu là một kỹ thuật thường được áp dụng để hỗ trợ đưa ra các
quyết định khá chính xác.
Chính vì vậy tôi đã chọn luận văn “Ứng dụng khai phá dữ
liệu để chẩn đoán bệnh hen phế quản và viêm phế quản cho trẻ
em” làm đề tài nghiên cứu luận văn của mình.
2. Mục tiêu và nhiệm vụ nghiên cứu của đề tài
Mục tiêu
Mục tiêu của đề tài là xây dựng và áp dụng có hiệu quả việc
trợ giúp ra quyết định trong việc chẩn đoán bệnh hen phế quản và
viêm phế quản cho trẻ em từ 2 tháng tuổi đến 5 tuổi.
Nhiệm vụ
Nghiên cứu lý thuyết về thuật toán phân lớp và kỹ thuật cây
quyết định.
3
Tìm hiểu về bệnh hen phế quản và viêm phế quản, tiến hành
điều tra thu thập dữ liệu về bệnh hen phế quản và viêm phế quản ở trẻ
em từ 2 tháng tuổi đến 5 tuổi.
Đánh giá kết quả dự đoán của mô hình và lựa chọn mô hình
tốt nhất để chẩn đoán bệnh hen phế quản và viêm phế quản.
Xây dựng ứng dụng khai phá dữ liệu để chẩn đoán bệnh hen
phế quản và viêm phế quản dựa vào kỹ thuật cây quyết định.
3. Đối tƣợng và phạm vi nghiên cứu
Đối tƣợng nghiên cứu
Dữ liệu nghiên cứu bao gồm các yếu tố liên quan đến biểu
hiện và các yếu tố lâm sàng của bệnh hen phế quản và viêm phế quản.
Các kỹ thuật khai phá dữ liệu, công cụ khai phá dữ liệu và
mô-đun lập trình trong khai phá dữ liệu.
Phạm vi nghiên cứu
Dữ liệu thu thập gồm các hồ sơ bệnh án thuộc đối tượng
trẻ em từ 2 tháng tuổi đến 5 tuổi, được chẩn đoán bệnh hen phế quản
và viêm phế quản tại Khoa nhi - bệnh viện đa khoa tỉnh Khánh Hòa,
phòng khám đa khoa trường Cao Đẳng Y tế Khánh Hòa và một số
phòng khám tư nhân trên địa bàn tỉnh Khánh Hòa.
Nghiên cứu ứng dụng về thuật toán phân lớp và kỹ thuật
cây quyết định.
Xây dựng ứng dụng khai phá dữ liệu để chẩn đoán bệnh hen
phế quản và viêm phế quản cho trẻ em.
4. Phƣơng pháp nghiên cứu
Phƣơng pháp nghiên cứu lý luận.
Tìm tòi, đọc hiểu, phân tích thông tin, dữ liệu từ các tài
liệu, giáo trình, sách liên quan đến khai phá dữ liệu.
4
Nghiên cứu các kỹ thuật phân lớp bằng thuật toán cây
quyết định, ứng dụng các kỹ thuật đó để chuẩn đoán bệnh hen phế
quản và viêm phế quản dựa vào các thông tin đầu vào.
Phƣơng pháp nghiên cứu thực tiễn.
Sử dụng kiến thức khai phá dữ liệu cộng với tri thức
chuyên gia bác sĩ, y học chứng cớ và y học thực chứng trong quá
trình khai phá dữ liệu y khoa.
Tiến hành so sánh kết quả của các kỹ thuật khai phá dữ liệu
để lựa chọn kỹ thuật cho kết quả chính xác nhất.
Xây dựng hệ thống nhằm hỗ trợ bác sĩ trong việc chẩn đoán
và điều trị bệnh.
5. Kết quả dự kiến
Kết quả lý thuyết
Nắm được kỹ thuật khai phá dữ liệu bằng thuật toán phân lớp
và kỹ thuật cây quyết định.
Ứng dụng kỹ thuật khai phá dữ liệu trên kết quả lâm sàng về
bệnh hen phế quản và viêm phế quản để đưa ra chẩn đoán về khả
năng mắc hay không mắc hai chứng bệnh này.
Kết quả thực tiễn
Xây dựng được mô hình chẩn đoán và tư vấn bệnh hen phế
quản và viêm phế quản dựa trên kỹ thuật khai phá dữ liệu.
Xây dựng hệ thống hỗ trợ để chẩn đoán bệnh hen phế quản
và viêm phế quản cho trẻ em.
6. Ý nghĩa khoa học và thực tiễn của luận văn.
Ý nghĩa khoa học.
Thông qua đề tài sẽ hiểu sâu hơn về thuật toán phân lớp và
kỹ thuật cây quyết định.
5
Góp phần chẩn đoán bệnh hen phế quản và viêm phế quản
của trẻ em dựa trên khai phá dữ liệu.
Ý nghĩa thực tiễn.
Việc xây dựng ứng dụng chẩn đoán bệnh hen phế quản và
viêm phế quản sẽ hỗ trợ cho bác sĩ, cha mẹ các bé phát hiện được
bệnh để có giải pháp can thiệp kịp thời trong việc chăm sóc sức
khoẻ cho trẻ.
7. Bố cục của luận văn
Dự kiến luận văn được trình bày bao gồm 3 chương như sau:
Chương 1: Trong chương 1 sẽ trình bày về tổng quan về khai
phá dữ liệu, quy trình khai phá dữ liệu, các kỹ thuật khai phá bằng
cây quyết định, Trình bày chi tiết hai thuật toán là ID3 và C4.5
Chương 2: Nghiên cứu và xử lý dữ liệu về bệnh hen phế quản
và viêm phế quản ở trẻ em. Chương này trình bày nội dung sau: Đặc
điểm hệ hô hấp của trẻ em, khái niệm về bệnh hen phế quản và viêm
phế quản, bệnh nguyên, cơ chế sinh bệnh, đặc điểm lâm sàng và chẩn
đoán bệnh hen phế quản, viêm phế quản cho trẻ em, trình bày về canh
tác dữ liệu trong khai phá dữ liệu và ứng dụng vào khai phá dữ liệu
trong y khoa.
Chương 3: Xây dựng hệ thống chẩn đoán bệnh hen phế quản
và viêm phế quản cho trẻ em.
6
CHƢƠNG 1
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1.1 Sơ lƣợc về khai phá dữ liệu
Khai phá dữ liệu (KPDL) là một khái niệm ra đời vào
những năm cuối của thập kỷ 80 của thế kỷ 20. KPDL được dùng
để mô tả quá trình phát hiện ra tri thức trong cơ sở dữ liệu
(CSDL). Quá trình này kết xuất ra các tri thức tiềm ẩn từ dữ liệu
giúp cho việc dự báo trong kinh doanh, các hoạt động sản xuất,...
KPDL làm giảm chi phí về thời gian so với phương pháp truyền
thống trước kia (ví dụ như phương pháp thống kê).
1.1.2 Quy trình khai phá dữ liệu
1.1.3 Các kỹ thuật khai phá dữ liệu
1.1.4 Ứng dụng của khai phá dữ liệu
1.1.5 Tổng quan ứng dụng khai phá dữ liệu vào hỗ trợ chẩn
đoán bệnh trong y tế.
1.2 PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU
1.2.1 Phân lớp dữ liệu
Phân lớp dữ liệu là gán các mẫu mới vào các lớp với độ
chính xác cao nhất để dự báo cho các bộ dữ liệu (mẫu) mới.
Đầu vào là một tập các mẫu dữ liệu huấn luyện, với một
nhãn phân lớp cho mỗi mẫu dữ liệu. Đầu ra là mô hình dự đoán
(bộ phân lớp) dựa trên tập huấn luyện và những nhãn phân lớp.
1.2.2 Quá trình phân lớp dữ liệu.
1.2.3 Đánh giá độ chính xác của mô hình phân lớp.
1.3 KỸ THUẬT KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT
ĐỊNH
7
1.3.1 Giới thiệu chung
1.3.2 Biểu diễn cây quyết định
1.3.3 Các bƣớc chính xây dựng cây quyết định
1.3.4 Ƣu điểm và nhƣợc điểm của cây quyết định
1.4 THUẬT TOÁN ID3
1.4.1 Giới Thiệu
1.4.2 Xây dựng giải thuật
Entropy đo tính thuần nhất của tập dữ liệu:
Dùng để đo tính thuần nhất của một tập dữ liệu. Entropy của một
tập S được tính theo công thức
Entropy(S) = - P
+ log2 (P+
) - P
-
log2 (P-
)
Trong trường hợp các mẫu dữ liệu có hai thuộc tính phân
lớp "yes" (+), "no" (-). Ký hiệu p+
là để chỉ tỷ lệ các mẫu có giá trị
của thuộc tính quyết định là "yes", và Plà tỷ lệ các mẫu có giá trị
của thuộc tính quyết định là "no" trong tập S.
Trường hợp tổng quát, đối với tập con S có n phân lớp thì ta
có công thức sau:
2
1
( ) ( log ( ))
n
i i
i
Entropy s P P
Trong đó Pi là tỷ lệ các mẫu thuộc lớp i trên tập hợp S các mẫu
kiểm tra.
Information Gain (viết tắt là Gain): Gain là đại lượng dùng
để đo tính hiệu quả của một thuộc tính được lựa chọn cho việc
phân lớp. Đại lượng này được tính thông qua hai giá trị
Information và Entropy.
Cho tập dữ liệu S gồm có n thuộc tính Ai(i=1,2…n) giá trị
Gain của thuộc tính A trong tập S ký hiệu là Gain(S, A) và được tính
theo công thức sau:
(1.2)
(1.1)
8
( )
Gain(S,A)= ( ) ( ) v
v
v value A
S
Entropy S Entropy S
s
Trong đó:
S là tập hợp ban đầu với thuộc tính A. Các giá trị của V
tương ứng là các giá trị của thuộc tính A.
Sv bằng tập hợp con của tập S mà có thuộc tính A mang giá
trị v.
|Sv| là số phần tử của tập Sv.
|S| là số phần tử của tập S.
Trong quá trình xây dựng cây quyết định (DT) theo thuật
toán ID3 tại mỗi bước triển khai cây, thuộc tính được chọn để triển
khai là thuộc tính có giá trị Gain lớn nhất.
Hàm xây dựng cây quyết định trong thuật toán ID3
Function induce_tree (tập_ví_dụ, tập_thuộc_tính)
begin
if mọi ví dụ trong tập_ví_dụ đều nằm trong cùng một lớp then
return một nút lá được gán nhãn bởi lớp đó
else if tập_thuộc_tính là rỗng then
return nút lá được gán nhãn bởi tuyển của tất cả các lớp
trong tập_ví_dụ
else begin
chọn một thuộc tính P, lấy nó làm gốc cho cây hiện tại;
xóa P ra khỏi tập_thuộc_tính;
với mỗi giá trị V của P
begin
tạo một nhánh của cây gán nhãn V;
Đặt vào phân_vùng V các ví dụ trong tập_ví_dụ có
giá trị V tại thuộc tính P;
(1.3)
9
Gọi induce_tree (phân_vùng V, tập_thuộc_tính), gắn
kết quả vào nhánh V
end
end
end
1.4.3 Ví dụ thuật toán ID3
1.4.4 Nhận xét về thuật toán
1.5 THUẬT TOÁN C4.5
1.5.1 Giới thiệu về thuật toán
Thuật toán C4.5 được phát hiện và công bố bởi J. Ross
Quinlan vào năm 1996. Thuật toán C4.5 được cải tiến từ thuật
toán ID3 với việc cho phép xử lý trên tập dữ liệu có các thuộc tính
số (numeric atributes) và làm việc được với tập dữ liệu bị thiếu và
bị nhiễu. Nó thực hiện phân lớp tập mẫu dữ liệu theo chiến lược
ưu tiên theo chiều sâu (Depth – First). Thuật toán xét tất cả các
phép thử có thể để phân chia tập dữ liệu đã cho và chọn ra một
phép thử có giá trị GainRatio tốt nhất. GainRatio là một đại lượng
để đánh giá độ hiệu quả của thuộc tính dùng để thực hiện phép
tách trong thuật toán để phát triển DT.
GainRatio được xác định bởi công thức sau:
( , ) ( , )
inf ( , )
Gain S A GainRatio S A
Split omation S A
Trong đó:
Cách tính của Entropy và Gain có ở công thức 1.2 và 1.3.
Trong đó, SplitInformation(S, A) chính là thông tin do phân
tách của A trên cơ sở giá trị của thuộc tính phân loại S. Công thức
tính như sau.
(1.4)
10
2
1
, log
n
i i
i
S A
S S
SplitInfomation
S S
Để ý rằng SplitInfomation thực sự chính là Entropy của S
với sự liên quan trên những giá trị của thuộc tính A. Trong thuật
toán C4.5 tất cả các thuộc tính sẽ được tính toán độ đo GainRatio,
thuộc tính nào có độ đo GainRatio lớn nhất sẽ được chọn làm
thuộc tính phân chia.
1.5.2 Xây dựng giải thuật
Thuật Toán C4.5
Dữ liệu vào: Tập dữ liệu E, tập thuộc tính F, tập nhãn lớp.
Dữ liệu ra: Mô hình DT.
Thuật toán: Tạo cây (tập dữ liệu E, tập thuộc tính F, tập
nhãn lớp)
Nếu điều kiện dừng (E,F)=Đúng
Nutla=CreaNode(); Nutla.nhanlop=phanlop(E)
Return nutla
Ngược lại
Nutgoc=CreateNode()
Nutgoc.điều kiện kiểm tra=Tìm điểm chia tốt nhất (E,F)
Đặt F=F\{nút chọn phân chia}
Đặt V={v|v thõa mãn điều kiện là phần phân chia xuất
phát từ Nutgoc}
Lặp qua từng tập phân chia v
V
Đặt Ev ={e| Nutgoc.điều kiện kiểm tra (e)=v và e
E}
Nutcon=Tạocây(Ev, F, Tập nhãn lớp)
Dừng lặp
End if
(1.5)