Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

trích chọn thông tin trên tập văn bản pháp luật dùng kỹ thuật học máy bán giám sát dựa trên mô hình
Nội dung xem thử
Mô tả chi tiết
- 1 -
1
TRƯỜNG ………………….
KHOA……………………….
----------
Báo cáo tốt nghiệp
Đề tài:
TRÍCH CHỌN THÔNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ
THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MÔ HÌNH CRFs THEO TIÊU
CHUẨN KỲ VỌNG TỔNG QUÁT
- 2 -
2
LỜI CAM ĐOAN
Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm của riêng cá
nhân tôi, không sao chép lại của người khác. Trong toàn bộ nội dung của luận
văn, những điều được trình bày hoặc là của cá nhân hoặc là được tổng hợp từ
nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và
được trích dẫn hợp pháp. Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình
thức kỷ luận theo quy định cho lời cam đoan của mình.
Hà Nội, 05/2011
Phạm Thị Ngân
- 3 -
3
MỤC LỤC
LỜI CAM ĐOAN .............................................................................................. 1
MỤC LỤC ......................................................................................................... 3
DANH MỤC HÌNH VẼ..................................................................................... 5
DANH MỤC BẢNG BIỂU................................................................................ 6
KÝ TỰ VIẾT TẮT............................................................................................. 7
LỜI CẢM ƠN.................................................................................................... 8
LỜI MỞ ĐẦU.................................................................................................... 9
CHƯƠNG 1: HỌC BÁN GIÁM SÁT THEO MÔ HÌNH TRƯỜNG NGẪU
NHIÊN CÓ ĐIỀU KIỆN.................................................................................. 11
1.1.Phương pháp học máy Trường ngẫu nhiên có điều kiện ............................. 11
1.1.1. Khái niệm trường ngẫu nhiên có điều kiện ......................................... 11
1.1.2. Học máy CRFs ................................................................................... 13
1.1.2.1. Hàm tiềm năng của các mô hình CRFs .................................... 13
1.1.2.2. Thuật toán gán nhãn cho dữ liệu dạng chuỗi. ........................... 14
1.1.2.3. Ước lượng tham số cho các mô hình CRFs.............................. 15
1.2.Học máy bán giám sát CRFs ...................................................................... 15
1.2.1. Học máy bán giám sát......................................................................... 15
1.2.1.1. Học không có giám sát và Học có giám sát............................. 16
1.2.1.2. Học máy bán giám sát.............................................................. 18
1.2.1.3. Một số thuật toán học máy bán giám sát .................................. 19
1.2.2. Sơ bộ về mô hình học máy bán giám sát CRFs................................... 21
1.3.Kết luận chương 1 ...................................................................................... 22
CHƯƠNG 2: HỌC MÁY BÁN GIÁM SÁT CRFs THEO TIÊU CHUẨN KỲ
VỌNG TỔNG QUÁT ...................................................................................... 23
2.1.Tiêu chuẩn kỳ vọng tổng quát .................................................................... 23
2.1.1. Giới thiệu sơ bộ .................................................................................. 23
2.1.2. Tiêu chuẩn kỳ vọng tổng quát............................................................. 24
2.2.Mô hình học máy bán giám sát CRFs theo tiêu chuẩn kỳ vọng tống quát ... 26
- 4 -
4
2.3.Kết luận chương 2 ...................................................................................... 28
CHƯƠNG 3: MỘT MÔ HÌNH HỌC MÁY BÁN GIÁM SÁT CRFs TRÍCH
CHỌN THÔNG TIN PHÁP LUẬT TIẾNG VIỆT ......................................... 29
3.1. Trích chọn thông tin từ văn bản pháp luật tiếng Việt ................................. 29
3.1.1. Một số đặc trưng về miền dữ liệu văn bản pháp luật tiếng Việt........... 29
3.1.2. Bài toán trích chọn thông tin văn bản pháp luật tiếng Việt.................. 31
3.2. Một mô hình học máy bán giám sát CRFs trích chọn thông tin pháp luật
tiếng Việt ...................................................................................................... 31
3.2.1. Một số phân tích ................................................................................. 31
3.2.2. Mô hình đề nghị ................................................................................. 32
3.2.3. Lựa chọn thuộc tính............................................................................ 36
3.2.4. Cách đánh giá ..................................................................................... 36
3.3.Kết luận chương 3 ...................................................................................... 37
CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ ............................................. 38
4.1. Mô hình thực nghiệm ................................................................................ 38
4.1.1. Dữ liệu thực nghiệm........................................................................... 38
4.1.2. Bộ công cụ Mallet .............................................................................. 38
4.2. Thực nghiệm và đánh giá .......................................................................... 38
4.2.1. Môi trường thực nghiệm..................................................................... 38
4.2.2. Mô tả quy trình thực nghiệm............................................................... 38
4.2.3. Kết quả thực nghiệm........................................................................... 39
4.2.4. Đánh giá ............................................................................................. 40
4.3. Kết luận chương 4 ..................................................................................... 43
KẾT LUẬN...................................................................................................... 45
TÀI LIỆU THAM KHẢO................................................................................ 47
- 5 -
5
DANH MỤC HÌNH VẼ
Hình 1. Đồ thị vô hướng mô tả CRFs ....................................................... 12
Hình 2. Một bước trong thuật toán Viterbi cải tiến................................... 14
Hình 3/4. Mô hình đề xuất giải quyết bài toán.......................................... 34
Hình 5. Tập các ràng buộc (Constraint file)............................................. 35
Hình 6. Kết quả nhóm thực nghiệm 1 ....................................................... 40
Hình 7. Kết quả nhóm thực nghiệm 2 ....................................................... 40
Hình 8. Kết quả nhóm thực nghiệm 3 ....................................................... 41
Hình 9. Kết quả nhóm thực nghiệm 4 ....................................................... 42
Hình 10. Kết quả nhóm thực nghiệm 5 ..................................................... 43