Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Hướng dẫn sử dụng phương pháp Bayes trên Stata: Tài liệu tham khảo / Nguyễn Ngọc Thạch, Lê Hoàng Anh, Nguyễn Trần Xuân Linh
PREMIUM
Số trang
139
Kích thước
4.3 MB
Định dạng
PDF
Lượt xem
1533

Hướng dẫn sử dụng phương pháp Bayes trên Stata: Tài liệu tham khảo / Nguyễn Ngọc Thạch, Lê Hoàng Anh, Nguyễn Trần Xuân Linh

Nội dung xem thử

Mô tả chi tiết

BỘ GIÁO DỤC VÀ ĐÀO TẠO NGÂN HÀNG NHÀ NƯỚC VIỆT NAM

TRƯỜNG ĐẠI HỌC NGÂN HÀNG TP.HỒ CHÍ MINH

HƯỚNG DẪN SỬ DỤNG PHƯƠNG PHÁP

BAYES TRÊN STATA

Chủ biên: PGS. TSKH NGUYỄN NGỌC THẠCH

Thành viên biên soạn

TS. LÊ HOÀNG ANH

NCS. THS NGUYỄN TRẦN XUÂN LINH

TP.HCM, THÁNG 9 NĂM 2021

DẪN NHẬP

Phân tích Bayes được đề xuất bởi mục sư Thomas Bayes (1701 – 1761). Tuy nhiên,

phân tích này chỉ thực sự được biết đến vào năm 1763, khi Richard Price công bố

nghiên cứu “An Essay towards solving a Problem in the Doctrine of Chances” của

người bạn quá cố Thomas Bayes trên tạp chí khoa học danh tiếng “Philosophical

Transactions of the Royal Society”. Ý tưởng của phân tích Bayes là kết hợp lý thuyết

sẵn có và dữ liệu quan sát để đưa ra các kết luận. Do đó, để sử dụng phân tích Bayes

chúng ta cần có một “xác suất ban đầu” (Prior Probability) cho giả thuyết, sau đó

mới sử dụng dữ liệu quan sát để điều chỉnh và đưa ra kết luận. Đây cũng chính là

vấn đề của phân tích Bayes bởi “xác suất ban đầu” thường không có sẵn.

Khoảng thời gian sau đó, các nhà thống kê truyền thống đã phê phán sự chủ quan

và cảm tính trong việc đưa ra “xác suất ban đầu” của phân tích Bayes. Do đó, họ đã

phát triển ý tưởng “significant test”. Phương pháp này bỏ qua xác suất ban đầu và

tập trung vào xác suất khách quan của dữ liệu được quan sát. Trên thực tế, ý tưởng

“significant test” chỉ dựa vào dữ liệu được quan sát do đó các kết quả nghiên cứu

dường như không thể được tái lập lại.

Trong những năm gần đây, cùng với sự phát triển của khoa học máy tính, phân tích

Bayes đang trong thời kỳ phục hưng và được áp dụng trong nhiều lĩnh vực khoa

học xã hội, sinh học, y học và vật lý. Cuốn sách này được biên soạn với mục đích

giới thiệu về phân tích Bayes và cách thức thực hiện phân tích Bayes với sự hỗ trợ

của phần mềm STATA. Do khả năng ứng dụng rộng rãi của phân tích Bayes nên một

số ví dụ trong sách được lấy từ các nghiên cứu ở một số lĩnh vực khác nhau nhưng

trọng tâm của cuốn sách vẫn hướng đến các ví dụ trong lĩnh vực khoa học xã hội.

Cuốn sách được chúng tôi kết cấu thành 3 chương:

Trong chương 1, chúng tôi đã bàn những vấn đề cơ bản của phân tích Bayes, so

sánh phương pháp này với phương pháp kinh tế lượng tần suất truyền thống. Bên

cạnh đó các thành phần cơ bản của phân tích Bayes bao gồm phân phối hậu nghiệm,

thông tin tiên nghiệm và ước lượng điểm cũng đã được chúng tôi trình bày. Vấn đề

với phân tích Bayes là phương pháp lấy mẫu. Trong nội dung sách chuyên khảo

này, chúng tôi trình bày thuật toán lấy mẫu Metropolis-Hastings. Bên cạnh đó, cách

thức đánh giá sự hội tụ của chuỗi MCMC cũng được chúng tôi trình bày chi tiết.

Trong chương 2, chúng tôi đã trình bày cách thức tiến hành phân tích Bayes cơ bản

bằng phần mềm STATA. Các thông tin tiên nghiệm được chúng tôi phân tích bao

gồm tiên nghiệm phi thông tin, tiên nghiệm có thông tin và tiên nghiệm đa thông

tin. Bên cạnh đó, việc chuẩn đoán hội tụ của các chuỗi MCMC và tóm tắt kết quả

phân phối hậu nghiệm cũng được chúng tôi trình bày chi tiết. Cuối cùng, chúng tôi

trình bày cách thức ứng dụng phân tích Bayes trong dự báo. Một số ví dụ cụ thể để

minh họa cách thức tiến hành dự báo cũng đã được chúng tôi trình bày trong

chương 2.

Trong chương 3, chúng tôi đã ứng dụng phương pháp Bayes để ước lượng các mô

hình hồi quy phổ biến hiện nay. Đồng thời, chúng tôi cũng cố gắng đưa ra một sự

so sánh giữa phương pháp Bayes và phương pháp tần suất trong việc ước lượng

các mô hình này. Các mô hình hồi quy được chúng tôi thực hiện ước lương bằng

phương pháp Bayes bao gồm mô hình hồi quy Logistic, Probit, mô hình hồi quy với

dữ liệu bảng, mô hình đường cong tăng trưởng, mô hình hồi quy logistic đa tầng,

mô hình phi tuyến ba tầng, mô hình phân tích sống còn, mô hình phân tích điểm

gãy, mô hình tác động ngẫu nhiên trong phân tích tổng hợp.

Tập thể tác giả hi vọng cuốn sách này sẽ là một tài liệu tham khảo hữu ích cho

những người mới bắt đầu tiếp cận với phân tích Bayes.

MỤC LỤC

CHƯƠNG 1: GIỚI THIỆU VỀ PHÂN TÍCH BAYES ...............................................................1

1.1. Phân tích Bayes là gì?..............................................................................................................1

1.2. So sánh phương pháp kinh tế lượng tần suất (frequentist) và Bayesian. ......3

1.3. Các đặc tính của phân tích Bayes......................................................................................5

1.4. Những vấn đề cơ bản của thống kê Bayes .....................................................................7

1.4.1. Phân phối hậu nghiệm (Posterior distribution).................................................7

1.4.2. Thông tin tiên nghiệm (prior information) ..........................................................8

1.4.3. Ước lượng điểm và ước lượng khoảng ................................................................10

1.4.4. So sánh các mô hình Bayesian .................................................................................11

1.4.5. Dự báo hậu nghiệm.......................................................................................................13

1.4.6. Tính toán Bayes..............................................................................................................13

1.4.7. Phương pháp chuỗi Markov Monte Carlo (MCMC)........................................14

1.4.8. Thuật toán Metropolis – Hastings..........................................................................15

1.4.9. Bước tự do Metropolis–Hastings ...........................................................................17

1.4.10. Blocking tham số.........................................................................................................18

1.4.11. Metropolis–Hastings và cách lấy mẫu Gibbs ..................................................19

1.4.12. Chuẩn đoán hội tụ chuỗi MCMC ...........................................................................20

Tóm tắt chương 1: ................................................................................................................... 26

CHƯƠNG 2: ỨNG DỤNG PHÂN TÍCH BAYES CƠ BẢN ................................................... 27

2.1 Hồi quy tuyến tính Bayes với tiên nghiệm phi thông tin (noninformative

prior). ..................................................................................................................................................28

2.2. Hồi quy Bayes với tiên nghiệm có thông tin..............................................................32

2.3. Hồi quy tuyến tính Bayes đa thông tin.........................................................................33

2.4. Chuẩn đoán hội tụ .................................................................................................................34

2.5. Tóm tắt kết quả hậu nghiệm.............................................................................................39

2.6. So sánh mô hình.....................................................................................................................42

2.7. Dự báo Bayes (chỉ có thể thực hiện trên bản Stata 16 trở lên) ........................44

2.7.1. Dự báo số đối tượng bị nhiễm .................................................................................49

2.7.2. Tóm tắt kết quả dự báo...............................................................................................51

2.7.3. Biểu thức kết quả dự báo riêng lẻ ..........................................................................51

2.7.4. Đồ họa kết quả hậu nghiệm.......................................................................................52

2.7.5. Tóm tắt hậu nghiệm của các kết quả mô phỏng ..............................................53

2.7.6. Kiểm định mức độ phù hợp của mô hình bằng cách sử dụng MCMC sao

chép các kết quả mô phỏng ...................................................................................................53

2.7.7. Kiểm tra thống kê dưới dạng hàm vô hướng của các kết quả được mô

phỏng...............................................................................................................................................59

2.7.8. Dự báo ngoài mẫu (Out-of-sample prediction) ...............................................61

Tóm tắt chương 2 .................................................................................................................... 65

CHƯƠNG 3: CÁC DẠNG MÔ HÌNH HỒI QUY THEO CÁCH TIẾP CẬN BAYES CƠ

BẢN .............................................................................................................................................. 66

3.1. Hồi quy Logistic theo Bayes (Bayesian Logistic regression) .............................66

3.2 Hồi quy Probit thứ bậc .........................................................................................................74

3.3. Hồi quy dữ liệu bảng với mô hình phân tích đa tầng ............................................79

3.3.1 Mô phỏng đầu tiên — phương pháp lấy mẫu MH mặc định........................82

3.3.2 Mô phỏng thứ hai — blocking các tham số.........................................................85

3.3.3. Mô phỏng thứ ba — lấy mẫu Gibbs .......................................................................86

3.3.4 Mô phỏng thứ tư — tách các tham số hiệu ứng ngẫu nhiên........................90

3.3.5. Mô phỏng thứ năm — tham số hóa thay thế.....................................................91

3.4 Mô hình đường cong tăng trưởng — một mô hình hệ số chặn ngẫu nhiên .93

3.5. Hiệp phương sai phi cấu trúc cho các tác động ngẫu nhiên ...............................98

3.6. Hồi quy logistic đa tầng (Multilevel logistic regression).................................. 100

3.7. Mô hình phi tuyến ba tầng (Three-level nonlinear model)............................. 102

3.8. Mô hình sống sót (survival analysis)........................................................................ 107

3.9. Phân tích Bayes về điểm thay đổi (change-point)............................................... 113

3.10 Mô hình tác động ngẫu nhiên trong phân tích tổng hợp (meta-analysis)

............................................................................................................................................................. 118

3.10.1. Mô hình phân tính Normal–normal................................................................. 119

3.10.2. Mô hình phân tích Binomial-normal............................................................... 122

Tóm tắt chương 3 ..................................................................................................................128

1

CHƯƠNG 1: GIỚI THIỆU VỀ PHÂN TÍCH BAYES

1.1. Phân tích Bayes là gì?

Phân tích Bayes là một phân tích thống kê nhằm trả lời các câu hỏi về thông

số chưa biết của mô hình thống kê bằng cách sử dụng các khái niệm xác suất

(probability statements). Phân tích Bayes dựa trên giả định rằng tất cả các thông

số của mô hình là ngẫu nhiên và do vậy, nó có thể kết hợp với các thông tin tiên

nghiệm (prior knowledge). Giả định này trái ngược hoàn toàn với phương pháp

thống kê tần suất (frequentist) truyền thống, phương pháp này cho rằng các thông

số của mô hình là chưa biết nhưng là một đại lượng cố định (fixed quantities).

Phương pháp thống kê Bayes tuân theo một quy tắc xác suất đơn giản, quy tắc

Bayes, nó cung cấp một phương thức cho sự kết hợp giữa thông tin tiên nghiệm và

các dữ liệu nghiên cứu thu thập được. Quy tắc Bayes được sử dụng để định dạng

cho một phân phối gọi là phân phối hậu nghiệm (posterior distribution) cho các

thông số của mô hình. Các kiểm định thống kê về các hệ số của mô hình đều được

thể hiện dưới dạng xác suất dựa trên việc ước lượng phân phối hậu nghiệm.

Để giới thiệu nhanh về phân tích Bayes chúng ta sử dụng ví dụ được mô tả

trong nghiên cứu của Hoff (2009, 3) về việc nghiên cứu sự truyền nhiễm của một

căn bệnh hiếm. Với một mẫu nhỏ, ngẫu nhiên gồm 20 chủ thể từ một thành phố

được tiến hành kiểm tra về căn bệnh này. Gọi thông số của tỷ lệ mắc bệnh trong

thành phố là θ, θ ∈ [0, 1]. Kết quả y sẽ ghi nhận số cá thể bị mắc bệnh trong mẫu

nghiên cứu. Mô hình phù hợp cho y là mô hình nhị thức: ��|�� ~ ������������������ (20, ��).

Dựa trên các nghiên cứu từ các thành phố khác, tỷ lệ mắc bệnh sẽ nằm trong

khoảng 0,05 và 0,2, với tỷ lệ hiện hành (rate prevalence) là 0,1. Để sử dụng thông

tin này, chúng ta phải tiến hành phân tích Bayes. Thông tin này sẽ được sử dụng

làm phân phối tiên nghiệm cho ��, nó được gán vào một xác suất giữa 0,05 và 0,2,

với giá trị kỳ vọng của �� gần với 0,1. Một tiên nghiệm tiềm năng thỏa điều kiện này

là tiên nghiệm Beta (2, 20) với giá trị kỳ vọng là 2/(20 + 2) = 0,09. Như vậy, giả

định tiên nghiệm cho tỷ lệ nhiễm bệnh �� là ��~��������(2, 20). Chúng ta lấy mẫu từng

cá thể và quan sát được rằng không ai bị mắc bệnh, có nghĩa là y = 0. Kết quả này

không phải là bất thường cho một mẫu nhỏ với một căn bệnh hiếm. Ví dụ, tỷ lệ mắc

2

bệnh thật sự là �� = 0,05, xác suất theo phân phối nhị thức để mẫu quan sát với 20

cá thể và không có ai mắc bệnh là 36%. Như vậy, mô hình Bayesian được định nghĩa

như sau:

��|��~������������������ (20, ��)

��~��������(2, 20)

Với mô hình Bayesian, chúng tính được phân phối hậu nghiệm của ��|��.

��|�� ~ ��������(2 + 0, 20 + 20 − 0) = �������� (2, 40)

Phân phối hậu nghiệm là sự kết hợp thông tin tiền nghiệm của hệ số �� với

thông tin từ dữ liệu quan sát được, từ kết quả �� = 0 đã cung cấp bằng chứng một

giá trị �� thấp hơn và dịch chuyển mật độ về bên trái tạo thành dạng mật độ hậu

nghiệm.

Trên cơ sở phân phối hậu nghiệm này, ta có thể ước tính giá trị trung bình

hậu nghiệm cho �� là 2

(2+40)

= 0,048 và xác suất hậu nghiệm của �� < 10% là khoảng

93%.

Nếu chúng ta ước tính bằng phương pháp tần suất của �� như một tỷ lệ của chủ

thể nhiễm bệnh trong mẫu là ��̅ = ��⁄��, chúng ta có giá trị 0 với khoảng tin cậy

(confidence interval) 95% chúng ta sẽ thu được khoảng giá trị (��̅ − 1,96 ×

√��̅(1 − ��̅)/��, ��̅ + 1,96 × √��̅(1 − ��̅)/�� ) là 0. Điều này dường như rất khó để

3

thuyết phục được những nhà hoạch định chính sách lĩnh vực y tế rằng tỷ lệ mắc

bệnh ở thành phố này là 0 với một mẫu nhỏ và thông tin tiên nghiệm sẵn có về các

thành phố đối chứng là một tỷ lệ khác 0.

Chúng ta sử dụng phân phối tiên nghiệm Beta trong ví dụ này, nhưng chúng

ta cũng có thể lựa chọn một phân phối tiên nghiệm khác dựa trên kiến thức của

chúng ta sẵn có (prior knowledge) về vấn đề nghiên cứu. Đối với phân tích cuối

cùng, điều quan trọng là phải xem xét một chuỗi phân phối tiên nghiệm khác nhau

và điều tra độ nhạy đối với kết quả của tiên nghiệm được lựa chọn.

1.2. So sánh phương pháp kinh tế lượng tần suất (frequentist) và Bayesian.

Tại sao phải sử dụng Bayesian, hay câu hỏi tốt hơn là khi nào sử dụng phương

pháp Bayesian, khi nào sử dụng phương pháp tần suất? Để trả lời câu hỏi này chủ

yếu dựa vào vấn đề bạn nghiên cứu. Bạn nên lựa chọn phương pháp phân tích phù

hợp cho từng chủ đề cụ thể mà bạn nghiên cứu. Ví dụ, nếu bạn quan tâm đến việc

ước tính xác suất các thông số mà nó có một vài khoảng được xác định trước, bạn

nên lựa chọn khung phân tích Bayesian, bởi vì xác suất này không thể ước tính

chính xác bằng khung lý thuyết tần suất. Tuy nhiên, nếu nghiên cứu của bạn dựa

việc diễn trên một mẫu được lặp đi, lặp lại, phương pháp tần suất sẽ phù hợp với

bạn.

Bayesian và tần suất có những triết lý rất khác nhau về việc xem xét cái được

cố định, do vậy, việc diễn giải kết quả nghiên cứu cũng khác nhau. Cách tiếp cận

Bayes dựa trên giả định rằng mẫu dữ liệu quan sát được là cố định và thông số của

mô hình là ngẫu nhiên. Phân phối hậu nghiệm của các thông số sẽ được ước tính

dựa trên mẫu quan sát được và phân phối tiên nghiệm của thông số đó và sử dụng

nó để diễn giải kết quả. Phân phối tần suất thì lại giả định rằng các mẫu quan sát là

mẫu lặp lại ngẫu nhiên và thông số này là không biết nhưng nó là cố định và không

đổi thông qua việc lặp đi lặp lại các mẫu. Sự diễn giải dựa trên phân phối mẫu của

dữ liệu hoặc đặc tính thống kê của dữ liệu. Nói cách khác, phân tích Bayesian trả

lời câu hỏi dựa trên phân phối của thông số có điều kiện của mẫu quan sát được.

Trong đó, phân tích tần suất trả lời câu hỏi dựa trên phân phối thống kê đạt được

lặp lại từ các mẫu giả thuyết, nó sẽ được tạo ra bởi cùng một quy trình mà quy trình

4

này được tạo ra từ các mẫu quan sát được vì các thông số thống kê này là chưa biết

nhưng cố định. Phương pháp tần suất đòi hỏi quá trình tạo ra các mẫu quan sát

phải lặp lại liên tục. Nhưng giả định này không phải lúc nào cũng khả thi. Ví dụ,

trong phân tích tổng hợp (meta-analysis), khi các mẫu quan sát được đại diện qua

việc thu thập nghiên cứu được quan tâm, và vấn đề gây tranh cãi là sự thu thập các

nghiên cứu này là một thí nghiệm một lần (one-time experiment).

Phân tích tần suất được điều khiển dữ liệu (data-driven) hoàn toàn (có nghĩa

dữ liệu hoàn toàn khách quan) và sự chính xác của việc ước tính thông số phụ thuộc

rất nhiều vào việc các giả định đòi hỏi của mô hình có được đáp ứng hay không?

Trong khi đó, phân tích Bayes cung cấp một cách tiếp cận ước tính vững chắc hơn

bằng cách không chỉ sử dụng dữ liệu thu thập được mà còn kết hợp với thông tin

sẵn có hoặc những hiểu biết về thông số của mô hình.

Trong phân tích tần suất, sự ước tính được sử dụng để xấp xỉ giá trị thật sự

của thông số chưa biết, còn phân tích Bayes cung cấp một phân phối cho thông số.

Trong ví dụ tỷ lệ mắc bệnh được trình bày ở trên, phương pháp tần suất chỉ cho

được một điểm ước lượng cho tỷ lệ mắc bệnh, trong khi đó, phân tích Bayes ước

tính toàn bộ phân phối hậu nghiệm cho tỷ lệ mắc bệnh dựa trên mẫu nghiên cứu

và thông tin từ tỷ lệ mắc bệnh từ các thành phố đối ứng.

Diễn giải thống kê tần suất được dựa trên phân phối mẫu của sự ước tính

thông số và cung cấp ước lượng điểm, sai số chuẩn cũng như độ tin cậy (confidence

interval – khoảng tự tin về sự chính xác mô hình). Phân phối mẫu chính xác hiếm

khi biết được và được xấp xỉ bởi một phân phối chuẩn mẫu lớn. Diễn giải Bayes

dựa trên phân phối hậu nghiệm của thông số và nó cung cấp bản tóm tắt của phân

phối này bao gồm trung bình hậu nghiệm và sai số chuẩn của chuỗi MCMC (MCMC

standard errors - MCSE) của chúng cũng như khoảng mật độ xác suất hậu nghiệm.

Mặc dù phân phối hậu nghiệm chính xác chỉ được biết trong một số trường hợp,

phân phối hậu nghiệm tổng quát có thể ước tính được thông qua, ví dụ lấy mẫu

chuỗi Markov chain Monte Carlo (MCMC) mà không cần phải xấp xỉ mẫu lớn.

Khoảng tin cậy (confidence interval) của phương pháp tần suất không có sự

diễn giải thống kê rõ rằng như khoảng tin cậy (credible interval) của Bayesian. Ví

5

dụ, cách diễn giải khoảng tin cậy (confidence interval) 95% là nếu lặp lại cùng một

nghiên cứu nhiều lần và tính khoảng tin cậy riêng lẻ cho mỗi nghiên cứu thì có 95%

khoảng tin cậy của chúng sẽ bao gồm giá trị thật (true value) của thông số. Với bất

kỳ khoảng tin cậy nào, xác suất mà giá trị thật nằm trong khoảng tin cậy đó hoặc

bằng 0 hoặc bằng 1 và chúng ta không biết cụ thể là bao nhiêu. Chúng ta chỉ có thể

diễn giải rằng bất kỳ một khoảng tin cậy nào cũng sẽ cung cấp một khoảng hợp lý

cho giá trị thực của thông số. Nhưng với Bayesian, khoảng tin cậy (credible

interval) sẽ cung cấp một chuỗi cho một thông số và xác suất để thông số đó nằm

trong chuỗi này là 95%.

Kiểm định giả thuyết thống kê tần suất dựa vào việc sử dụng mức độ ý nghĩa

thống kê (significance level) được chỉ định trước để quyết định chấp nhận hay bác

bỏ giả thuyết vô hiệu (còn gọi là giả thuyết không – null hypothesis tức giả thuyết

ngược với vấn đề nghiên cứu) theo dữ liệu quan sát được, giả định rằng giả thuyết

không thật sự là đúng. Quyết định được dựa vào p-value tính toán từ dữ liệu quan

sát được. Ý nghĩa p-value là nếu chúng ta lặp lại một thí nghiệm nhiều lần và sử

dụng cùng quy trình kiểm định, nếu giả thuyết vô hiệu là đúng, p-value phản ánh

xác suất dữ liệu xảy ra hoặc dữ liệu cực đoan hơn xảy ra nếu giả thuyết vô hiệu là

đúng. P-value không phản ánh xác suất của giả thuyết vô hiệu, nó chỉ có ý nghĩa

rằng, xác suất dữ liệu xảy ra nếu giả thuyết vô hiệu là đúng.

1.3. Các đặc tính của phân tích Bayes

Phân tích Bayes được bắt đầu với sự đặc tả của một mô hình hậu nghiệm

(posterior model). Mô hình hậu nghiệm mô tả phân phối xác suất của tất cả tham

số dựa trên dữ liệu quan sát và thông tin tiên nghiệm. Phân phối hậu nghiệm gồm

hai thành phần: hàm hợp lý tối đa (likelihood), nó bao gồm thông tin về các tham

số của mô hình theo dữ liệu quan sát, và một tiên nghiệm, nó bao gồm thông tin

tiên nghiệm, những hiểu biết về vấn đề nghiên cứu (trước khi có dữ liệu quan sát)

về các tham số của mô hình. hàm khả năng và mô hình tiên nghiệm được kết hợp

với nhau bằng cách sử dụng quy tắc Bayes để tạo ra phân phối hậu nghiệm:

������������������ ∝ ������������ℎ������ × ����������

6

Nếu phân phối hậu nghiệm có thể được bắt đầu với một phân phối dạng gần

(close form) chúng ta có thể tiến hành trực tiếp bước diễn giải kết quả Bayes. Tuy

nhiên, thực tế trừ một số mô hình đặc biệt, thì rất hiếm khi có sẵn một phân phối

hậu nghiệm để phân tích do vậy nó cần được thiết lập thông qua mô phỏng. Cách

lấy mẫu MCMC có thể được sử dụng mô phỏng các phân phối hậu nghiệm phức tạp

tiềm năng với một độ chính xác tùy ý. Phương pháp MCMC cho sự mô phỏng mô

hình Bayes thường yêu cầu xác định một thuật toán lấy mẫu hiệu quả và phải xác

minh sự hội tụ của thuật toán để thỏa mãn phân phối hậu nghiệm.

Diễn giải là bước tiếp theo của phân tích Bayes. Nếu cách lấy mẫu MCMC được

sử dụng để xấp xỉ phân phối hậu nghiệm thì phân tích hội tụ chuỗi MCMC phải được

thực hiện trước khi tiến hành diễn giải kết quả. Ước lượng điểm và khoảng hoặc

được bắt nguồn từ phân phối hậu nghiệm lý thuyết (theoretical posterior

distribution) hoặc ước tính bằng mô phỏng lấy mẫu từ phân phối hậu nghiệm. Có

rất nhiều ước tính Bayes, như trung bình hậu nghiệm, độ lệch chuẩn hậu nghiệm,

và phải áp dụng tích phân tính toán. Nếu tích phân không thể phân tích để có được

một biểu thức dạng đóng thì những cách lấy mẫu phổ biến như tích phân Monte

Carlo và MCMC và tích phân số (numerical integration) thường được sử dụng.

Một bước quan trọng tiếp theo của phân tích Bayes là kiểm định, một phương

pháp điểm hình là kiểm định dự báo hậu nghiệm. Ý tưởng đằng sau kiểm định dự

báo hậu nghiệm là sự so sánh các khía cạnh khác nhau của sự phân phối các dữ liệu

quan sát với dữ liệu bản sao của nó. Dữ liệu bản sao được mô phỏng từ phân phối

dự báo hậu nghiệm của mô hình Bayes đã được xác định theo cùng điều kiện đã

tạo ra dữ liệu quan sát như cùng giá trị độ lệch chuẩn, vân vân. Sự khác biệt giữa

phân phối của dữ liệu quan sát và dữ liệu bản sao được đo lường bởi kiểm định

định lượng (hàm của dữ liệu và thông số mô hình) được gọi là p-value dự báo hậu

nghiệm.

Các giả thuyết của Bayes có thể được thực hiện dưới hai dạng: kiểm định giả

thuyết khoảng (interval-hypothesis testing) và kiểm định giả thuyết mô hình

(model-hypothesis testing). Trong kiểm định giả thuyết khoảng, xác suất mà thông

số hoặc bộ thông số của mô hình thuộc một khoảng xác định hoặc khoảng được

7

tính toán. Trong kiểm định mô hình, xác suất mô hình Bayes của vấn đề nghiên cứu

được đưa ra bởi dữ liệu quan sát được tính toán.

So sánh mô hình là bước tiếp theo của phân tích Bayes. Khung lý thuyết Bayes

cung cấp một cách tiếp cận nhất quán và có hệ thống cho việc so sánh mô hình bằng

việc sử dụng ý tưởng của odds hậu nghiệm (posterior odds) và liên quan tới Bayes

Factor.

Cuối cùng, dự báo một vài dữ liệu không quan sát được cũng là vấn đề quan

tâm trong phân tích Bayesian. Việc dự báo một điểm dữ liệu mới được thực hiện

dưới điều kiện sử dụng dữ liệu đã quan sát được gọi là phân phối dự báo hậu

nghiệm (posterior predictive distribution). Nó tích hợp tất cả các tham số trong

mô hình với các phân phối hậu nghiệm tương ứng của chúng. Tích phân Monte

Carlo một lần nữa là sự lựa chọn khả dĩ cho việc đạt được sự dự báo. Sự dự báo

cũng có thể hữu ích trong việc ước tính sự chuẩn xác mức độ thích hợp của mô

hình.

1.4. Những vấn đề cơ bản của thống kê Bayes

1.4.1. Phân phối hậu nghiệm (Posterior distribution)

Để lĩnh hội nguyên tắc thống kê Bayes, chúng ta sẽ bắt đầu với một trường

hợp đơn giản với việc phân tích sự tương tác giữa hai biến ngẫu nhiên A và B. Đặt

�� (. ) là hàm khối xác suất hoặc mật độ xác suất tùy theo các biến là rời rạc hoặc

liên tục. Nguyên tắc xác suất có điều kiện

��(��|��) =

��(��,��)

��(��)

,

có thể được sử dụng để hình thành nên định lý Bayes

��(��|��) =

��(��|��)��(��)

��(��)

(1)

Nguyên tắc này cũng được sử dụng trong trường hợp tổng quát khi A và B là

các vector ngẫu nhiên.

Trong một vấn đề thống kê điển hình, chúng ta có một dữ liệu vector y, nó

được giả định rằng là một mẫu từ một mô hình xác suất với một vector thông số

chưa biết ��. Chúng ta sẽ thể hiện mô hình này bằng việc sử dụng hàm khả năng

Tải ngay đi em, còn do dự, trời tối mất!