Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Machine Learning and AI for Healthcare
Nội dung xem thử
Mô tả chi tiết
Machine
Learning and
AI for Healthcare
Big Data for Improved Health Outcomes
—
Arjun Panesar
Machine Learning and
AI for Healthcare
Big Data for Improved Health
Outcomes
Arjun Panesar
Machine Learning and AI for Healthcare
ISBN-13 (pbk): 978-1-4842-3798-4 ISBN-13 (electronic): 978-1-4842-3799-1
https://doi.org/10.1007/978-1-4842-3799-1
Library of Congress Control Number: 2018967454
Copyright © 2019 by Arjun Panesar
This work is subject to copyright. All rights are reserved by the Publisher, whether the whole or
part of the material is concerned, specifically the rights of translation, reprinting, reuse of
illustrations, recitation, broadcasting, reproduction on microfilms or in any other physical way,
and transmission or information storage and retrieval, electronic adaptation, computer software,
or by similar or dissimilar methodology now known or hereafter developed.
Trademarked names, logos, and images may appear in this book. Rather than use a trademark
symbol with every occurrence of a trademarked name, logo, or image we use the names, logos,
and images only in an editorial fashion and to the benefit of the trademark owner, with no
intention of infringement of the trademark.
The use in this publication of trade names, trademarks, service marks, and similar terms, even if
they are not identified as such, is not to be taken as an expression of opinion as to whether or not
they are subject to proprietary rights.
While the advice and information in this book are believed to be true and accurate at the date of
publication, neither the authors nor the editors nor the publisher can accept any legal
responsibility for any errors or omissions that may be made. The publisher makes no warranty,
express or implied, with respect to the material contained herein.
Managing Director, Apress Media LLC: Welmoed Spahr
Acquisitions Editor: Celestin Suresh John
Development Editor: Matthew Moodie
Coordinating Editor: Divya Modi
Cover designed by eStudioCalamar
Cover image designed by Freepik (www.freepik.com)
Book imagery designed by Krystal Sidwell
Distributed to the book trade worldwide by Springer Science+Business Media New York,
233 Spring Street, 6th Floor, New York, NY 10013. Phone 1-800-SPRINGER, fax (201) 348-4505,
e-mail [email protected], or visit www.springeronline.com. Apress Media, LLC is a
California LLC and the sole member (owner) is Springer Science + Business Media Finance Inc
(SSBM Finance Inc). SSBM Finance Inc is a Delaware corporation.
For information on translations, please e-mail [email protected], or visit http://www.apress.
com/rights-permissions.
Apress titles may be purchased in bulk for academic, corporate, or promotional use. eBook
versions and licenses are also available for most titles. For more information, reference our Print
and eBook Bulk Sales web page at http://www.apress.com/bulk-sales.
Any source code or other supplementary material referenced by the author in this book is
available to readers on GitHub via the book’s product page, located at www.apress.com/
978-1-4842-3798-4. For more detailed information, please visit http://www.apress.com/
source-code.
Printed on acid-free paper
Arjun Panesar
Coventry, UK
Dedicated to the giants on whose shoulders we stand.
They laid the foundations with hard work, determination,
blood, sweat, sacrifice, and tears. Tribute to the
foremothers and forefathers; Kirpa, Ananta.
v
About the Author �������������������������������������������������������������������������������xix
About the Technical Reviewers ���������������������������������������������������������xxi
Acknowledgments���������������������������������������������������������������������������xxiii
Introduction��������������������������������������������������������������������������������������xxv
Table of Contents
Chapter 1: What Is Artificial Intelligence?��������������������������������������������1
A Multifaceted Discipline ��������������������������������������������������������������������������������������1
Examining Artificial Intelligence����������������������������������������������������������������������������4
Reactive Machines ������������������������������������������������������������������������������������������6
Limited Memory—Systems That Think and Act Rationally �����������������������������6
Theory of Mind—Systems That Think Like Humans ���������������������������������������6
Self-Aware AI—Systems That Are Humans�����������������������������������������������������7
What Is Machine Learning?�����������������������������������������������������������������������������������8
What Is Data Science? ������������������������������������������������������������������������������������������9
Learning from Real-Time, Big Data���������������������������������������������������������������������10
Applications of AI in Healthcare ��������������������������������������������������������������������������12
Prediction ������������������������������������������������������������������������������������������������������13
Diagnosis�������������������������������������������������������������������������������������������������������13
Personalized Treatment and Behavior Modification ��������������������������������������13
Drug Discovery ����������������������������������������������������������������������������������������������14
Follow-Up Care����������������������������������������������������������������������������������������������14
vi
Realizing the Potential of AI in Healthcare ����������������������������������������������������������15
Understanding Gap����������������������������������������������������������������������������������������15
Fragmented Data�������������������������������������������������������������������������������������������15
Appropriate Security��������������������������������������������������������������������������������������16
Data Governance �������������������������������������������������������������������������������������������16
Bias����������������������������������������������������������������������������������������������������������������17
Software��������������������������������������������������������������������������������������������������������������17
Conclusion ����������������������������������������������������������������������������������������������������������18
Chapter 2: Data�����������������������������������������������������������������������������������21
What Is Data?������������������������������������������������������������������������������������������������������21
Types of Data ������������������������������������������������������������������������������������������������������23
Big Data ��������������������������������������������������������������������������������������������������������������26
Volume�����������������������������������������������������������������������������������������������������������28
Variety �����������������������������������������������������������������������������������������������������������31
Velocity ����������������������������������������������������������������������������������������������������������34
Value��������������������������������������������������������������������������������������������������������������37
Veracity����������������������������������������������������������������������������������������������������������39
Validity�����������������������������������������������������������������������������������������������������������41
Variability�������������������������������������������������������������������������������������������������������41
Visualization ��������������������������������������������������������������������������������������������������42
Small Data�����������������������������������������������������������������������������������������������������������42
Metadata�������������������������������������������������������������������������������������������������������������43
Healthcare Data—Little and Big Use Cases��������������������������������������������������������44
Predicting Waiting Times �������������������������������������������������������������������������������44
Reducing Readmissions ��������������������������������������������������������������������������������44
Predictive Analytics ���������������������������������������������������������������������������������������45
Electronic Health Records �����������������������������������������������������������������������������45
Table of Contents
vii
Value-Based Care/Engagement���������������������������������������������������������������������46
Healthcare IoT—Real-Time Notifications, Alerts, Automation�����������������������47
Movement Toward Evidence-Based Medicine�����������������������������������������������49
Public Health �������������������������������������������������������������������������������������������������50
Evolution of Data and Its Analytics����������������������������������������������������������������������51
Turning Data into Information: Using Big Data����������������������������������������������������53
Descriptive Analytics �������������������������������������������������������������������������������������54
Diagnostic Analytics ��������������������������������������������������������������������������������������55
Predictive Analytics ���������������������������������������������������������������������������������������55
Prescriptive Analytics ������������������������������������������������������������������������������������58
Reasoning �����������������������������������������������������������������������������������������������������������59
Deduction ������������������������������������������������������������������������������������������������������60
Induction��������������������������������������������������������������������������������������������������������60
Abduction ������������������������������������������������������������������������������������������������������61
How Much Data Do I Need for My Project?���������������������������������������������������������61
Challenges of Big Data����������������������������������������������������������������������������������������62
Data Growth���������������������������������������������������������������������������������������������������62
Infrastructure�������������������������������������������������������������������������������������������������62
Expertise��������������������������������������������������������������������������������������������������������63
Data Sources �������������������������������������������������������������������������������������������������63
Quality of Data�����������������������������������������������������������������������������������������������63
Security ���������������������������������������������������������������������������������������������������������63
Resistance ����������������������������������������������������������������������������������������������������������64
Policies and Governance�������������������������������������������������������������������������������������65
Fragmentation�����������������������������������������������������������������������������������������������������65
Lack of Data Strategy������������������������������������������������������������������������������������������65
Visualization��������������������������������������������������������������������������������������������������������66
Table of Contents
viii
Timeliness of Analysis�����������������������������������������������������������������������������������������66
Ethics ������������������������������������������������������������������������������������������������������������������66
Data and Information Governance ����������������������������������������������������������������������66
Data Stewardship ������������������������������������������������������������������������������������������67
Data Quality ���������������������������������������������������������������������������������������������������68
Data Security �������������������������������������������������������������������������������������������������68
Data Availability ���������������������������������������������������������������������������������������������68
Data Content��������������������������������������������������������������������������������������������������69
Master Data Management (MDM)������������������������������������������������������������������69
Use Cases������������������������������������������������������������������������������������������������������69
Deploying a Big Data Project�������������������������������������������������������������������������������71
Big Data Tools �����������������������������������������������������������������������������������������������������72
Conclusion ����������������������������������������������������������������������������������������������������������73
Chapter 3: What Is Machine Learning?�����������������������������������������������75
Basics �����������������������������������������������������������������������������������������������������������������77
Agent �������������������������������������������������������������������������������������������������������������77
Autonomy ������������������������������������������������������������������������������������������������������78
Interface ��������������������������������������������������������������������������������������������������������78
Performance��������������������������������������������������������������������������������������������������79
Goals��������������������������������������������������������������������������������������������������������������79
Utility �������������������������������������������������������������������������������������������������������������79
Knowledge�����������������������������������������������������������������������������������������������������80
Environment ��������������������������������������������������������������������������������������������������80
Training Data �������������������������������������������������������������������������������������������������81
Target Function����������������������������������������������������������������������������������������������82
Hypothesis�����������������������������������������������������������������������������������������������������82
Learner����������������������������������������������������������������������������������������������������������82
Table of Contents
ix
Hypothesis�����������������������������������������������������������������������������������������������������82
Validation�������������������������������������������������������������������������������������������������������82
Dataset ����������������������������������������������������������������������������������������������������������82
Feature ����������������������������������������������������������������������������������������������������������82
Feature Selection ������������������������������������������������������������������������������������������83
What Is Machine Learning?���������������������������������������������������������������������������������83
How Is Machine Learning Different from Traditional Software Engineering? �����84
Machine Learning Basics������������������������������������������������������������������������������������85
Supervised Learning��������������������������������������������������������������������������������������86
How Machine Learning Algorithms Work ������������������������������������������������������������95
How to Perform Machine Learning ���������������������������������������������������������������������96
Specifying the Problem ���������������������������������������������������������������������������������97
Preparing the Data�����������������������������������������������������������������������������������������99
Choosing the Learning Method��������������������������������������������������������������������102
Applying the Learning Methods�������������������������������������������������������������������103
Assessing the Method and Results �������������������������������������������������������������107
Optimization ������������������������������������������������������������������������������������������������113
Reporting the Results ����������������������������������������������������������������������������������116
Chapter 4: Machine Learning Algorithms�����������������������������������������119
Defining Your Machine Learning Project�����������������������������������������������������������120
Task (T) ��������������������������������������������������������������������������������������������������������120
Performance (P)�������������������������������������������������������������������������������������������121
Experience (E)����������������������������������������������������������������������������������������������121
Common Libraries for Machine Learning����������������������������������������������������������123
Supervised Learning Algorithms�����������������������������������������������������������������������125
Classification �����������������������������������������������������������������������������������������������127
Regression���������������������������������������������������������������������������������������������������128
Table of Contents
x
Decision trees ���������������������������������������������������������������������������������������������������129
Iterative Dichotomizer 3 (ID3)����������������������������������������������������������������������133
C4.5 �������������������������������������������������������������������������������������������������������������134
CART ������������������������������������������������������������������������������������������������������������134
Ensembles���������������������������������������������������������������������������������������������������������135
Bagging �������������������������������������������������������������������������������������������������������135
Boosting ������������������������������������������������������������������������������������������������������137
Linear Regression ���������������������������������������������������������������������������������������������139
Logistic Regression�������������������������������������������������������������������������������������������141
SVM�������������������������������������������������������������������������������������������������������������������143
Naive Bayes ������������������������������������������������������������������������������������������������������145
kNN: k-nearest neighbor�����������������������������������������������������������������������������������147
Neural Networks �����������������������������������������������������������������������������������������������148
Perceptron���������������������������������������������������������������������������������������������������149
Artificial Neural Networks ���������������������������������������������������������������������������151
Deep Learning���������������������������������������������������������������������������������������������������152
Feedforward Neural Network ����������������������������������������������������������������������154
Recurrent Neural Network (RNN)—Long Short-Term Memory��������������������154
Convolutional Neural Network���������������������������������������������������������������������155
Modular Neural Network �����������������������������������������������������������������������������155
Radial Basis Neural Network�����������������������������������������������������������������������156
Unsupervised Learning �������������������������������������������������������������������������������������157
Clustering ����������������������������������������������������������������������������������������������������158
K-Means ������������������������������������������������������������������������������������������������������158
Association ��������������������������������������������������������������������������������������������������160
Apriori����������������������������������������������������������������������������������������������������������161
Dimensionality Reduction Algorithms ���������������������������������������������������������������162
Table of Contents
xi
Dimension Reduction Techniques ���������������������������������������������������������������������165
Missing/Null Values �������������������������������������������������������������������������������������165
Low Variance �����������������������������������������������������������������������������������������������165
High Correlation�������������������������������������������������������������������������������������������165
Random Forest Decision Trees ��������������������������������������������������������������������166
Backward Feature Elimination���������������������������������������������������������������������166
Forward Feature Construction���������������������������������������������������������������������166
Principal Component Analysis (PCA)������������������������������������������������������������166
Natural Language Processing (NLP)������������������������������������������������������������������167
Getting Started with NLP�����������������������������������������������������������������������������������170
Preprocessing: Lexical Analysis ������������������������������������������������������������������������170
Noise Removal���������������������������������������������������������������������������������������������171
Lexicon Normalization���������������������������������������������������������������������������������171
Porter Stemmer�������������������������������������������������������������������������������������������171
Object Standardization ��������������������������������������������������������������������������������172
Syntactic Analysis ���������������������������������������������������������������������������������������������172
Dependency Parsing������������������������������������������������������������������������������������173
Part of Speech Tagging��������������������������������������������������������������������������������173
Semantic analysis���������������������������������������������������������������������������������������������175
Techniques Used Within NLP�����������������������������������������������������������������������������175
N-grams ������������������������������������������������������������������������������������������������������175
TF IDF Vectors����������������������������������������������������������������������������������������������176
Latent Semantic Analysis ����������������������������������������������������������������������������177
Cosine Similarity������������������������������������������������������������������������������������������177
Naïve Bayesian Classifier ����������������������������������������������������������������������������178
Genetic Algorithms��������������������������������������������������������������������������������������������179
Table of Contents
xii
Best Practices and Considerations �������������������������������������������������������������������180
Good Data Management������������������������������������������������������������������������������180
Establish a Performance Baseline���������������������������������������������������������������181
Spend Time Cleaning Your Data�������������������������������������������������������������������181
Training Time �����������������������������������������������������������������������������������������������182
Choosing an Appropriate Model ������������������������������������������������������������������182
Choosing Appropriate Variables�������������������������������������������������������������������182
Redundancy�������������������������������������������������������������������������������������������������183
Overfitting����������������������������������������������������������������������������������������������������183
Productivity��������������������������������������������������������������������������������������������������183
Understandability ����������������������������������������������������������������������������������������184
Accuracy������������������������������������������������������������������������������������������������������184
Impact of False Negatives ���������������������������������������������������������������������������184
Linearity�������������������������������������������������������������������������������������������������������185
Parameters ��������������������������������������������������������������������������������������������������185
Ensembles ���������������������������������������������������������������������������������������������������186
Use Case: Type 2 Diabetes ��������������������������������������������������������������������������������186
Chapter 5: Evaluating Learning for Intelligence �������������������������������189
Model Development and Workflow �������������������������������������������������������������������190
Why Are There Two Approaches to Evaluating a Model? �����������������������������191
Evaluation Metrics���������������������������������������������������������������������������������������192
Skewed Datasets, Anomalies, and Rare Data ���������������������������������������������������199
Parameters and Hyperparameters��������������������������������������������������������������������199
Tuning Hyperparameters�����������������������������������������������������������������������������������200
Hyperparameter Tuning Algorithms�������������������������������������������������������������������200
Grid Search��������������������������������������������������������������������������������������������������201
Random Search �������������������������������������������������������������������������������������������201
Table of Contents
xiii
Multivariate Testing�������������������������������������������������������������������������������������������202
Which Metric Should I Use for Evaluation?��������������������������������������������������202
Correlation Does Not Equal Causation���������������������������������������������������������203
What Amount of Change Counts as Real Change? ��������������������������������������203
Types of Tests, Statistical Power, and Effect Size����������������������������������������204
Checking the Distribution of Your Metric�����������������������������������������������������204
Determining the Appropriate p Value�����������������������������������������������������������204
How Many Observations Are Required? ������������������������������������������������������205
How Long to Run a Multivariate Test? ���������������������������������������������������������205
Data Variance ����������������������������������������������������������������������������������������������206
Spotting Distribution Drift����������������������������������������������������������������������������206
Keep a Note of Model Changes �������������������������������������������������������������������206
Chapter 6: Ethics of Intelligence�������������������������������������������������������207
What Is Ethics? �������������������������������������������������������������������������������������������������210
What Is Data Science Ethics?����������������������������������������������������������������������210
Data Ethics ��������������������������������������������������������������������������������������������������210
Informed Consent����������������������������������������������������������������������������������������������212
Freedom of Choice��������������������������������������������������������������������������������������������212
Should a Person’s Data Consent Ever Be Overturned? �������������������������������������213
Public Understanding����������������������������������������������������������������������������������������214
Who Owns the Data?�����������������������������������������������������������������������������������������215
What Can the Data Be Used For? ����������������������������������������������������������������������218
Privacy: Who Can See My Data?������������������������������������������������������������������������220
How Will Data Affect the Future? ����������������������������������������������������������������������221
Prioritizing Treatments���������������������������������������������������������������������������������221
Determining New Treatments and Management Pathways�������������������������222
Table of Contents
xiv
More real-world evidence ���������������������������������������������������������������������������222
Enhancements in Pharmacology �����������������������������������������������������������������222
Optimizing Pathways Through Connectivity—Is There a Limit? �����������������������223
Security�������������������������������������������������������������������������������������������������������������223
Ethics of Artificial Intelligence and Machine Learning��������������������������������������224
Machine Bias�����������������������������������������������������������������������������������������������225
Data Bias �����������������������������������������������������������������������������������������������������226
Human Bias �������������������������������������������������������������������������������������������������226
Intelligence Bias ������������������������������������������������������������������������������������������226
Bias Correction ��������������������������������������������������������������������������������������������227
Is Bias a Bad Thing? ������������������������������������������������������������������������������������228
Prediction Ethics �����������������������������������������������������������������������������������������������228
Explaining Predictions ���������������������������������������������������������������������������������229
Protecting Against Mistakes������������������������������������������������������������������������230
Validity���������������������������������������������������������������������������������������������������������231
Preventing Algorithms from Becoming Immoral������������������������������������������231
Unintended Consequences��������������������������������������������������������������������������233
How Does Humanity Stay in Control of a Complex and Intelligent System?�����234
Intelligence �������������������������������������������������������������������������������������������������������235
Health Intelligence ��������������������������������������������������������������������������������������������237
Who Is Liable?���������������������������������������������������������������������������������������������������238
First-Time Problems������������������������������������������������������������������������������������������240
Defining Fairness ����������������������������������������������������������������������������������������������241
How Do Machines Affect Our Behavior and Interaction ������������������������������������241
Humanity �����������������������������������������������������������������������������������������������������241
Behavior and Addictions������������������������������������������������������������������������������242
Economy and Employment��������������������������������������������������������������������������243
Table of Contents
xv
Affecting the future�������������������������������������������������������������������������������������������244
Playing God �������������������������������������������������������������������������������������������������������244
Overhype and Scaremongering�������������������������������������������������������������������������245
Stakeholder Buy-In and Alignment �������������������������������������������������������������������245
Policy, Law, and Regulation�������������������������������������������������������������������������������245
Data and Information Governance ��������������������������������������������������������������������246
Is There Such a Thing as Too Much Policy? ������������������������������������������������������247
Global standards and schemas�������������������������������������������������������������������������247
Do We Need to Treat AI with Humanity?������������������������������������������������������������248
Employing Data Ethics Within Your Organization ����������������������������������������������249
Ethical Code�������������������������������������������������������������������������������������������������249
Ethical Framework Considerations��������������������������������������������������������������251
A Hippocratic Oath for Data Scientists��������������������������������������������������������������253
Auditing Your Frameworks��������������������������������������������������������������������������������253
Chapter 7: Future of Healthcare��������������������������������������������������������255
Shifting from Volume to Value���������������������������������������������������������������������������256
Evidence-Based Medicine���������������������������������������������������������������������������������261
Personalized Medicine��������������������������������������������������������������������������������������264
Vision of the Future�������������������������������������������������������������������������������������������266
Connected Medicine �����������������������������������������������������������������������������������������269
Disease and Condition Management�����������������������������������������������������������274
Virtual Assistants�����������������������������������������������������������������������������������������275
Remote Monitoring��������������������������������������������������������������������������������������276
Medication Adherence ��������������������������������������������������������������������������������������277
Accessible Diagnostic Tests������������������������������������������������������������������������������277
Smart Implantables�������������������������������������������������������������������������������������������278
Table of Contents