Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Hướng dẫn sử dụng phương pháp Bayes trên Stata: Tài liệu tham khảo / Nguyễn Ngọc Thạch, Lê Hoàng Anh, Nguyễn Trần Xuân Linh
Nội dung xem thử
Mô tả chi tiết
BỘ GIÁO DỤC VÀ ĐÀO TẠO NGÂN HÀNG NHÀ NƯỚC VIỆT NAM
TRƯỜNG ĐẠI HỌC NGÂN HÀNG TP.HỒ CHÍ MINH
HƯỚNG DẪN SỬ DỤNG PHƯƠNG PHÁP
BAYES TRÊN STATA
Chủ biên: PGS. TSKH NGUYỄN NGỌC THẠCH
Thành viên biên soạn
TS. LÊ HOÀNG ANH
NCS. THS NGUYỄN TRẦN XUÂN LINH
TP.HCM, THÁNG 9 NĂM 2021
DẪN NHẬP
Phân tích Bayes được đề xuất bởi mục sư Thomas Bayes (1701 – 1761). Tuy nhiên,
phân tích này chỉ thực sự được biết đến vào năm 1763, khi Richard Price công bố
nghiên cứu “An Essay towards solving a Problem in the Doctrine of Chances” của
người bạn quá cố Thomas Bayes trên tạp chí khoa học danh tiếng “Philosophical
Transactions of the Royal Society”. Ý tưởng của phân tích Bayes là kết hợp lý thuyết
sẵn có và dữ liệu quan sát để đưa ra các kết luận. Do đó, để sử dụng phân tích Bayes
chúng ta cần có một “xác suất ban đầu” (Prior Probability) cho giả thuyết, sau đó
mới sử dụng dữ liệu quan sát để điều chỉnh và đưa ra kết luận. Đây cũng chính là
vấn đề của phân tích Bayes bởi “xác suất ban đầu” thường không có sẵn.
Khoảng thời gian sau đó, các nhà thống kê truyền thống đã phê phán sự chủ quan
và cảm tính trong việc đưa ra “xác suất ban đầu” của phân tích Bayes. Do đó, họ đã
phát triển ý tưởng “significant test”. Phương pháp này bỏ qua xác suất ban đầu và
tập trung vào xác suất khách quan của dữ liệu được quan sát. Trên thực tế, ý tưởng
“significant test” chỉ dựa vào dữ liệu được quan sát do đó các kết quả nghiên cứu
dường như không thể được tái lập lại.
Trong những năm gần đây, cùng với sự phát triển của khoa học máy tính, phân tích
Bayes đang trong thời kỳ phục hưng và được áp dụng trong nhiều lĩnh vực khoa
học xã hội, sinh học, y học và vật lý. Cuốn sách này được biên soạn với mục đích
giới thiệu về phân tích Bayes và cách thức thực hiện phân tích Bayes với sự hỗ trợ
của phần mềm STATA. Do khả năng ứng dụng rộng rãi của phân tích Bayes nên một
số ví dụ trong sách được lấy từ các nghiên cứu ở một số lĩnh vực khác nhau nhưng
trọng tâm của cuốn sách vẫn hướng đến các ví dụ trong lĩnh vực khoa học xã hội.
Cuốn sách được chúng tôi kết cấu thành 3 chương:
Trong chương 1, chúng tôi đã bàn những vấn đề cơ bản của phân tích Bayes, so
sánh phương pháp này với phương pháp kinh tế lượng tần suất truyền thống. Bên
cạnh đó các thành phần cơ bản của phân tích Bayes bao gồm phân phối hậu nghiệm,
thông tin tiên nghiệm và ước lượng điểm cũng đã được chúng tôi trình bày. Vấn đề
với phân tích Bayes là phương pháp lấy mẫu. Trong nội dung sách chuyên khảo
này, chúng tôi trình bày thuật toán lấy mẫu Metropolis-Hastings. Bên cạnh đó, cách
thức đánh giá sự hội tụ của chuỗi MCMC cũng được chúng tôi trình bày chi tiết.
Trong chương 2, chúng tôi đã trình bày cách thức tiến hành phân tích Bayes cơ bản
bằng phần mềm STATA. Các thông tin tiên nghiệm được chúng tôi phân tích bao
gồm tiên nghiệm phi thông tin, tiên nghiệm có thông tin và tiên nghiệm đa thông
tin. Bên cạnh đó, việc chuẩn đoán hội tụ của các chuỗi MCMC và tóm tắt kết quả
phân phối hậu nghiệm cũng được chúng tôi trình bày chi tiết. Cuối cùng, chúng tôi
trình bày cách thức ứng dụng phân tích Bayes trong dự báo. Một số ví dụ cụ thể để
minh họa cách thức tiến hành dự báo cũng đã được chúng tôi trình bày trong
chương 2.
Trong chương 3, chúng tôi đã ứng dụng phương pháp Bayes để ước lượng các mô
hình hồi quy phổ biến hiện nay. Đồng thời, chúng tôi cũng cố gắng đưa ra một sự
so sánh giữa phương pháp Bayes và phương pháp tần suất trong việc ước lượng
các mô hình này. Các mô hình hồi quy được chúng tôi thực hiện ước lương bằng
phương pháp Bayes bao gồm mô hình hồi quy Logistic, Probit, mô hình hồi quy với
dữ liệu bảng, mô hình đường cong tăng trưởng, mô hình hồi quy logistic đa tầng,
mô hình phi tuyến ba tầng, mô hình phân tích sống còn, mô hình phân tích điểm
gãy, mô hình tác động ngẫu nhiên trong phân tích tổng hợp.
Tập thể tác giả hi vọng cuốn sách này sẽ là một tài liệu tham khảo hữu ích cho
những người mới bắt đầu tiếp cận với phân tích Bayes.
MỤC LỤC
CHƯƠNG 1: GIỚI THIỆU VỀ PHÂN TÍCH BAYES ...............................................................1
1.1. Phân tích Bayes là gì?..............................................................................................................1
1.2. So sánh phương pháp kinh tế lượng tần suất (frequentist) và Bayesian. ......3
1.3. Các đặc tính của phân tích Bayes......................................................................................5
1.4. Những vấn đề cơ bản của thống kê Bayes .....................................................................7
1.4.1. Phân phối hậu nghiệm (Posterior distribution).................................................7
1.4.2. Thông tin tiên nghiệm (prior information) ..........................................................8
1.4.3. Ước lượng điểm và ước lượng khoảng ................................................................10
1.4.4. So sánh các mô hình Bayesian .................................................................................11
1.4.5. Dự báo hậu nghiệm.......................................................................................................13
1.4.6. Tính toán Bayes..............................................................................................................13
1.4.7. Phương pháp chuỗi Markov Monte Carlo (MCMC)........................................14
1.4.8. Thuật toán Metropolis – Hastings..........................................................................15
1.4.9. Bước tự do Metropolis–Hastings ...........................................................................17
1.4.10. Blocking tham số.........................................................................................................18
1.4.11. Metropolis–Hastings và cách lấy mẫu Gibbs ..................................................19
1.4.12. Chuẩn đoán hội tụ chuỗi MCMC ...........................................................................20
Tóm tắt chương 1: ................................................................................................................... 26
CHƯƠNG 2: ỨNG DỤNG PHÂN TÍCH BAYES CƠ BẢN ................................................... 27
2.1 Hồi quy tuyến tính Bayes với tiên nghiệm phi thông tin (noninformative
prior). ..................................................................................................................................................28
2.2. Hồi quy Bayes với tiên nghiệm có thông tin..............................................................32
2.3. Hồi quy tuyến tính Bayes đa thông tin.........................................................................33
2.4. Chuẩn đoán hội tụ .................................................................................................................34
2.5. Tóm tắt kết quả hậu nghiệm.............................................................................................39
2.6. So sánh mô hình.....................................................................................................................42
2.7. Dự báo Bayes (chỉ có thể thực hiện trên bản Stata 16 trở lên) ........................44
2.7.1. Dự báo số đối tượng bị nhiễm .................................................................................49
2.7.2. Tóm tắt kết quả dự báo...............................................................................................51
2.7.3. Biểu thức kết quả dự báo riêng lẻ ..........................................................................51
2.7.4. Đồ họa kết quả hậu nghiệm.......................................................................................52
2.7.5. Tóm tắt hậu nghiệm của các kết quả mô phỏng ..............................................53
2.7.6. Kiểm định mức độ phù hợp của mô hình bằng cách sử dụng MCMC sao
chép các kết quả mô phỏng ...................................................................................................53
2.7.7. Kiểm tra thống kê dưới dạng hàm vô hướng của các kết quả được mô
phỏng...............................................................................................................................................59
2.7.8. Dự báo ngoài mẫu (Out-of-sample prediction) ...............................................61
Tóm tắt chương 2 .................................................................................................................... 65
CHƯƠNG 3: CÁC DẠNG MÔ HÌNH HỒI QUY THEO CÁCH TIẾP CẬN BAYES CƠ
BẢN .............................................................................................................................................. 66
3.1. Hồi quy Logistic theo Bayes (Bayesian Logistic regression) .............................66
3.2 Hồi quy Probit thứ bậc .........................................................................................................74
3.3. Hồi quy dữ liệu bảng với mô hình phân tích đa tầng ............................................79
3.3.1 Mô phỏng đầu tiên — phương pháp lấy mẫu MH mặc định........................82
3.3.2 Mô phỏng thứ hai — blocking các tham số.........................................................85
3.3.3. Mô phỏng thứ ba — lấy mẫu Gibbs .......................................................................86
3.3.4 Mô phỏng thứ tư — tách các tham số hiệu ứng ngẫu nhiên........................90
3.3.5. Mô phỏng thứ năm — tham số hóa thay thế.....................................................91
3.4 Mô hình đường cong tăng trưởng — một mô hình hệ số chặn ngẫu nhiên .93
3.5. Hiệp phương sai phi cấu trúc cho các tác động ngẫu nhiên ...............................98
3.6. Hồi quy logistic đa tầng (Multilevel logistic regression).................................. 100
3.7. Mô hình phi tuyến ba tầng (Three-level nonlinear model)............................. 102
3.8. Mô hình sống sót (survival analysis)........................................................................ 107
3.9. Phân tích Bayes về điểm thay đổi (change-point)............................................... 113
3.10 Mô hình tác động ngẫu nhiên trong phân tích tổng hợp (meta-analysis)
............................................................................................................................................................. 118
3.10.1. Mô hình phân tính Normal–normal................................................................. 119
3.10.2. Mô hình phân tích Binomial-normal............................................................... 122
Tóm tắt chương 3 ..................................................................................................................128
1
CHƯƠNG 1: GIỚI THIỆU VỀ PHÂN TÍCH BAYES
1.1. Phân tích Bayes là gì?
Phân tích Bayes là một phân tích thống kê nhằm trả lời các câu hỏi về thông
số chưa biết của mô hình thống kê bằng cách sử dụng các khái niệm xác suất
(probability statements). Phân tích Bayes dựa trên giả định rằng tất cả các thông
số của mô hình là ngẫu nhiên và do vậy, nó có thể kết hợp với các thông tin tiên
nghiệm (prior knowledge). Giả định này trái ngược hoàn toàn với phương pháp
thống kê tần suất (frequentist) truyền thống, phương pháp này cho rằng các thông
số của mô hình là chưa biết nhưng là một đại lượng cố định (fixed quantities).
Phương pháp thống kê Bayes tuân theo một quy tắc xác suất đơn giản, quy tắc
Bayes, nó cung cấp một phương thức cho sự kết hợp giữa thông tin tiên nghiệm và
các dữ liệu nghiên cứu thu thập được. Quy tắc Bayes được sử dụng để định dạng
cho một phân phối gọi là phân phối hậu nghiệm (posterior distribution) cho các
thông số của mô hình. Các kiểm định thống kê về các hệ số của mô hình đều được
thể hiện dưới dạng xác suất dựa trên việc ước lượng phân phối hậu nghiệm.
Để giới thiệu nhanh về phân tích Bayes chúng ta sử dụng ví dụ được mô tả
trong nghiên cứu của Hoff (2009, 3) về việc nghiên cứu sự truyền nhiễm của một
căn bệnh hiếm. Với một mẫu nhỏ, ngẫu nhiên gồm 20 chủ thể từ một thành phố
được tiến hành kiểm tra về căn bệnh này. Gọi thông số của tỷ lệ mắc bệnh trong
thành phố là θ, θ ∈ [0, 1]. Kết quả y sẽ ghi nhận số cá thể bị mắc bệnh trong mẫu
nghiên cứu. Mô hình phù hợp cho y là mô hình nhị thức: ��|�� ~ ������������������ (20, ��).
Dựa trên các nghiên cứu từ các thành phố khác, tỷ lệ mắc bệnh sẽ nằm trong
khoảng 0,05 và 0,2, với tỷ lệ hiện hành (rate prevalence) là 0,1. Để sử dụng thông
tin này, chúng ta phải tiến hành phân tích Bayes. Thông tin này sẽ được sử dụng
làm phân phối tiên nghiệm cho ��, nó được gán vào một xác suất giữa 0,05 và 0,2,
với giá trị kỳ vọng của �� gần với 0,1. Một tiên nghiệm tiềm năng thỏa điều kiện này
là tiên nghiệm Beta (2, 20) với giá trị kỳ vọng là 2/(20 + 2) = 0,09. Như vậy, giả
định tiên nghiệm cho tỷ lệ nhiễm bệnh �� là ��~��������(2, 20). Chúng ta lấy mẫu từng
cá thể và quan sát được rằng không ai bị mắc bệnh, có nghĩa là y = 0. Kết quả này
không phải là bất thường cho một mẫu nhỏ với một căn bệnh hiếm. Ví dụ, tỷ lệ mắc
2
bệnh thật sự là �� = 0,05, xác suất theo phân phối nhị thức để mẫu quan sát với 20
cá thể và không có ai mắc bệnh là 36%. Như vậy, mô hình Bayesian được định nghĩa
như sau:
��|��~������������������ (20, ��)
��~��������(2, 20)
Với mô hình Bayesian, chúng tính được phân phối hậu nghiệm của ��|��.
��|�� ~ ��������(2 + 0, 20 + 20 − 0) = �������� (2, 40)
Phân phối hậu nghiệm là sự kết hợp thông tin tiền nghiệm của hệ số �� với
thông tin từ dữ liệu quan sát được, từ kết quả �� = 0 đã cung cấp bằng chứng một
giá trị �� thấp hơn và dịch chuyển mật độ về bên trái tạo thành dạng mật độ hậu
nghiệm.
Trên cơ sở phân phối hậu nghiệm này, ta có thể ước tính giá trị trung bình
hậu nghiệm cho �� là 2
(2+40)
= 0,048 và xác suất hậu nghiệm của �� < 10% là khoảng
93%.
Nếu chúng ta ước tính bằng phương pháp tần suất của �� như một tỷ lệ của chủ
thể nhiễm bệnh trong mẫu là ��̅ = ��⁄��, chúng ta có giá trị 0 với khoảng tin cậy
(confidence interval) 95% chúng ta sẽ thu được khoảng giá trị (��̅ − 1,96 ×
√��̅(1 − ��̅)/��, ��̅ + 1,96 × √��̅(1 − ��̅)/�� ) là 0. Điều này dường như rất khó để
3
thuyết phục được những nhà hoạch định chính sách lĩnh vực y tế rằng tỷ lệ mắc
bệnh ở thành phố này là 0 với một mẫu nhỏ và thông tin tiên nghiệm sẵn có về các
thành phố đối chứng là một tỷ lệ khác 0.
Chúng ta sử dụng phân phối tiên nghiệm Beta trong ví dụ này, nhưng chúng
ta cũng có thể lựa chọn một phân phối tiên nghiệm khác dựa trên kiến thức của
chúng ta sẵn có (prior knowledge) về vấn đề nghiên cứu. Đối với phân tích cuối
cùng, điều quan trọng là phải xem xét một chuỗi phân phối tiên nghiệm khác nhau
và điều tra độ nhạy đối với kết quả của tiên nghiệm được lựa chọn.
1.2. So sánh phương pháp kinh tế lượng tần suất (frequentist) và Bayesian.
Tại sao phải sử dụng Bayesian, hay câu hỏi tốt hơn là khi nào sử dụng phương
pháp Bayesian, khi nào sử dụng phương pháp tần suất? Để trả lời câu hỏi này chủ
yếu dựa vào vấn đề bạn nghiên cứu. Bạn nên lựa chọn phương pháp phân tích phù
hợp cho từng chủ đề cụ thể mà bạn nghiên cứu. Ví dụ, nếu bạn quan tâm đến việc
ước tính xác suất các thông số mà nó có một vài khoảng được xác định trước, bạn
nên lựa chọn khung phân tích Bayesian, bởi vì xác suất này không thể ước tính
chính xác bằng khung lý thuyết tần suất. Tuy nhiên, nếu nghiên cứu của bạn dựa
việc diễn trên một mẫu được lặp đi, lặp lại, phương pháp tần suất sẽ phù hợp với
bạn.
Bayesian và tần suất có những triết lý rất khác nhau về việc xem xét cái được
cố định, do vậy, việc diễn giải kết quả nghiên cứu cũng khác nhau. Cách tiếp cận
Bayes dựa trên giả định rằng mẫu dữ liệu quan sát được là cố định và thông số của
mô hình là ngẫu nhiên. Phân phối hậu nghiệm của các thông số sẽ được ước tính
dựa trên mẫu quan sát được và phân phối tiên nghiệm của thông số đó và sử dụng
nó để diễn giải kết quả. Phân phối tần suất thì lại giả định rằng các mẫu quan sát là
mẫu lặp lại ngẫu nhiên và thông số này là không biết nhưng nó là cố định và không
đổi thông qua việc lặp đi lặp lại các mẫu. Sự diễn giải dựa trên phân phối mẫu của
dữ liệu hoặc đặc tính thống kê của dữ liệu. Nói cách khác, phân tích Bayesian trả
lời câu hỏi dựa trên phân phối của thông số có điều kiện của mẫu quan sát được.
Trong đó, phân tích tần suất trả lời câu hỏi dựa trên phân phối thống kê đạt được
lặp lại từ các mẫu giả thuyết, nó sẽ được tạo ra bởi cùng một quy trình mà quy trình
4
này được tạo ra từ các mẫu quan sát được vì các thông số thống kê này là chưa biết
nhưng cố định. Phương pháp tần suất đòi hỏi quá trình tạo ra các mẫu quan sát
phải lặp lại liên tục. Nhưng giả định này không phải lúc nào cũng khả thi. Ví dụ,
trong phân tích tổng hợp (meta-analysis), khi các mẫu quan sát được đại diện qua
việc thu thập nghiên cứu được quan tâm, và vấn đề gây tranh cãi là sự thu thập các
nghiên cứu này là một thí nghiệm một lần (one-time experiment).
Phân tích tần suất được điều khiển dữ liệu (data-driven) hoàn toàn (có nghĩa
dữ liệu hoàn toàn khách quan) và sự chính xác của việc ước tính thông số phụ thuộc
rất nhiều vào việc các giả định đòi hỏi của mô hình có được đáp ứng hay không?
Trong khi đó, phân tích Bayes cung cấp một cách tiếp cận ước tính vững chắc hơn
bằng cách không chỉ sử dụng dữ liệu thu thập được mà còn kết hợp với thông tin
sẵn có hoặc những hiểu biết về thông số của mô hình.
Trong phân tích tần suất, sự ước tính được sử dụng để xấp xỉ giá trị thật sự
của thông số chưa biết, còn phân tích Bayes cung cấp một phân phối cho thông số.
Trong ví dụ tỷ lệ mắc bệnh được trình bày ở trên, phương pháp tần suất chỉ cho
được một điểm ước lượng cho tỷ lệ mắc bệnh, trong khi đó, phân tích Bayes ước
tính toàn bộ phân phối hậu nghiệm cho tỷ lệ mắc bệnh dựa trên mẫu nghiên cứu
và thông tin từ tỷ lệ mắc bệnh từ các thành phố đối ứng.
Diễn giải thống kê tần suất được dựa trên phân phối mẫu của sự ước tính
thông số và cung cấp ước lượng điểm, sai số chuẩn cũng như độ tin cậy (confidence
interval – khoảng tự tin về sự chính xác mô hình). Phân phối mẫu chính xác hiếm
khi biết được và được xấp xỉ bởi một phân phối chuẩn mẫu lớn. Diễn giải Bayes
dựa trên phân phối hậu nghiệm của thông số và nó cung cấp bản tóm tắt của phân
phối này bao gồm trung bình hậu nghiệm và sai số chuẩn của chuỗi MCMC (MCMC
standard errors - MCSE) của chúng cũng như khoảng mật độ xác suất hậu nghiệm.
Mặc dù phân phối hậu nghiệm chính xác chỉ được biết trong một số trường hợp,
phân phối hậu nghiệm tổng quát có thể ước tính được thông qua, ví dụ lấy mẫu
chuỗi Markov chain Monte Carlo (MCMC) mà không cần phải xấp xỉ mẫu lớn.
Khoảng tin cậy (confidence interval) của phương pháp tần suất không có sự
diễn giải thống kê rõ rằng như khoảng tin cậy (credible interval) của Bayesian. Ví
5
dụ, cách diễn giải khoảng tin cậy (confidence interval) 95% là nếu lặp lại cùng một
nghiên cứu nhiều lần và tính khoảng tin cậy riêng lẻ cho mỗi nghiên cứu thì có 95%
khoảng tin cậy của chúng sẽ bao gồm giá trị thật (true value) của thông số. Với bất
kỳ khoảng tin cậy nào, xác suất mà giá trị thật nằm trong khoảng tin cậy đó hoặc
bằng 0 hoặc bằng 1 và chúng ta không biết cụ thể là bao nhiêu. Chúng ta chỉ có thể
diễn giải rằng bất kỳ một khoảng tin cậy nào cũng sẽ cung cấp một khoảng hợp lý
cho giá trị thực của thông số. Nhưng với Bayesian, khoảng tin cậy (credible
interval) sẽ cung cấp một chuỗi cho một thông số và xác suất để thông số đó nằm
trong chuỗi này là 95%.
Kiểm định giả thuyết thống kê tần suất dựa vào việc sử dụng mức độ ý nghĩa
thống kê (significance level) được chỉ định trước để quyết định chấp nhận hay bác
bỏ giả thuyết vô hiệu (còn gọi là giả thuyết không – null hypothesis tức giả thuyết
ngược với vấn đề nghiên cứu) theo dữ liệu quan sát được, giả định rằng giả thuyết
không thật sự là đúng. Quyết định được dựa vào p-value tính toán từ dữ liệu quan
sát được. Ý nghĩa p-value là nếu chúng ta lặp lại một thí nghiệm nhiều lần và sử
dụng cùng quy trình kiểm định, nếu giả thuyết vô hiệu là đúng, p-value phản ánh
xác suất dữ liệu xảy ra hoặc dữ liệu cực đoan hơn xảy ra nếu giả thuyết vô hiệu là
đúng. P-value không phản ánh xác suất của giả thuyết vô hiệu, nó chỉ có ý nghĩa
rằng, xác suất dữ liệu xảy ra nếu giả thuyết vô hiệu là đúng.
1.3. Các đặc tính của phân tích Bayes
Phân tích Bayes được bắt đầu với sự đặc tả của một mô hình hậu nghiệm
(posterior model). Mô hình hậu nghiệm mô tả phân phối xác suất của tất cả tham
số dựa trên dữ liệu quan sát và thông tin tiên nghiệm. Phân phối hậu nghiệm gồm
hai thành phần: hàm hợp lý tối đa (likelihood), nó bao gồm thông tin về các tham
số của mô hình theo dữ liệu quan sát, và một tiên nghiệm, nó bao gồm thông tin
tiên nghiệm, những hiểu biết về vấn đề nghiên cứu (trước khi có dữ liệu quan sát)
về các tham số của mô hình. hàm khả năng và mô hình tiên nghiệm được kết hợp
với nhau bằng cách sử dụng quy tắc Bayes để tạo ra phân phối hậu nghiệm:
������������������ ∝ ������������ℎ������ × ����������
6
Nếu phân phối hậu nghiệm có thể được bắt đầu với một phân phối dạng gần
(close form) chúng ta có thể tiến hành trực tiếp bước diễn giải kết quả Bayes. Tuy
nhiên, thực tế trừ một số mô hình đặc biệt, thì rất hiếm khi có sẵn một phân phối
hậu nghiệm để phân tích do vậy nó cần được thiết lập thông qua mô phỏng. Cách
lấy mẫu MCMC có thể được sử dụng mô phỏng các phân phối hậu nghiệm phức tạp
tiềm năng với một độ chính xác tùy ý. Phương pháp MCMC cho sự mô phỏng mô
hình Bayes thường yêu cầu xác định một thuật toán lấy mẫu hiệu quả và phải xác
minh sự hội tụ của thuật toán để thỏa mãn phân phối hậu nghiệm.
Diễn giải là bước tiếp theo của phân tích Bayes. Nếu cách lấy mẫu MCMC được
sử dụng để xấp xỉ phân phối hậu nghiệm thì phân tích hội tụ chuỗi MCMC phải được
thực hiện trước khi tiến hành diễn giải kết quả. Ước lượng điểm và khoảng hoặc
được bắt nguồn từ phân phối hậu nghiệm lý thuyết (theoretical posterior
distribution) hoặc ước tính bằng mô phỏng lấy mẫu từ phân phối hậu nghiệm. Có
rất nhiều ước tính Bayes, như trung bình hậu nghiệm, độ lệch chuẩn hậu nghiệm,
và phải áp dụng tích phân tính toán. Nếu tích phân không thể phân tích để có được
một biểu thức dạng đóng thì những cách lấy mẫu phổ biến như tích phân Monte
Carlo và MCMC và tích phân số (numerical integration) thường được sử dụng.
Một bước quan trọng tiếp theo của phân tích Bayes là kiểm định, một phương
pháp điểm hình là kiểm định dự báo hậu nghiệm. Ý tưởng đằng sau kiểm định dự
báo hậu nghiệm là sự so sánh các khía cạnh khác nhau của sự phân phối các dữ liệu
quan sát với dữ liệu bản sao của nó. Dữ liệu bản sao được mô phỏng từ phân phối
dự báo hậu nghiệm của mô hình Bayes đã được xác định theo cùng điều kiện đã
tạo ra dữ liệu quan sát như cùng giá trị độ lệch chuẩn, vân vân. Sự khác biệt giữa
phân phối của dữ liệu quan sát và dữ liệu bản sao được đo lường bởi kiểm định
định lượng (hàm của dữ liệu và thông số mô hình) được gọi là p-value dự báo hậu
nghiệm.
Các giả thuyết của Bayes có thể được thực hiện dưới hai dạng: kiểm định giả
thuyết khoảng (interval-hypothesis testing) và kiểm định giả thuyết mô hình
(model-hypothesis testing). Trong kiểm định giả thuyết khoảng, xác suất mà thông
số hoặc bộ thông số của mô hình thuộc một khoảng xác định hoặc khoảng được
7
tính toán. Trong kiểm định mô hình, xác suất mô hình Bayes của vấn đề nghiên cứu
được đưa ra bởi dữ liệu quan sát được tính toán.
So sánh mô hình là bước tiếp theo của phân tích Bayes. Khung lý thuyết Bayes
cung cấp một cách tiếp cận nhất quán và có hệ thống cho việc so sánh mô hình bằng
việc sử dụng ý tưởng của odds hậu nghiệm (posterior odds) và liên quan tới Bayes
Factor.
Cuối cùng, dự báo một vài dữ liệu không quan sát được cũng là vấn đề quan
tâm trong phân tích Bayesian. Việc dự báo một điểm dữ liệu mới được thực hiện
dưới điều kiện sử dụng dữ liệu đã quan sát được gọi là phân phối dự báo hậu
nghiệm (posterior predictive distribution). Nó tích hợp tất cả các tham số trong
mô hình với các phân phối hậu nghiệm tương ứng của chúng. Tích phân Monte
Carlo một lần nữa là sự lựa chọn khả dĩ cho việc đạt được sự dự báo. Sự dự báo
cũng có thể hữu ích trong việc ước tính sự chuẩn xác mức độ thích hợp của mô
hình.
1.4. Những vấn đề cơ bản của thống kê Bayes
1.4.1. Phân phối hậu nghiệm (Posterior distribution)
Để lĩnh hội nguyên tắc thống kê Bayes, chúng ta sẽ bắt đầu với một trường
hợp đơn giản với việc phân tích sự tương tác giữa hai biến ngẫu nhiên A và B. Đặt
�� (. ) là hàm khối xác suất hoặc mật độ xác suất tùy theo các biến là rời rạc hoặc
liên tục. Nguyên tắc xác suất có điều kiện
��(��|��) =
��(��,��)
��(��)
,
có thể được sử dụng để hình thành nên định lý Bayes
��(��|��) =
��(��|��)��(��)
��(��)
(1)
Nguyên tắc này cũng được sử dụng trong trường hợp tổng quát khi A và B là
các vector ngẫu nhiên.
Trong một vấn đề thống kê điển hình, chúng ta có một dữ liệu vector y, nó
được giả định rằng là một mẫu từ một mô hình xác suất với một vector thông số
chưa biết ��. Chúng ta sẽ thể hiện mô hình này bằng việc sử dụng hàm khả năng