Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Mô Hình Ngôn Ngữ Sử Dụng Mapreduce
Nội dung xem thử
Mô tả chi tiết
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
VŨ THỊ THANH
MÔ HÌNH NGÔN NGỮ SỬ DỤNG MAPREDUCE
Ngành: Công nghệ thông tin
Chuyên ngành: Kỹ thuật phần mềm
Mã Số: 60480103
LUẬN VĂN THẠC SĨ
NGƢỜI HƢỚNG DẪN KHOA HỌC CHÍNH: TS. NGUYỄN VĂN VINH
NGƢỜI HƢỚNG DẪN KHOA HỌC PHỤ: TS. NGUYỄN PHÚ BÌNH
Hà Nội – 2016
i
MỤC LỤC
MỤC LỤC ............................................................................................................................i
LỜI CẢM ƠN ................................................................................................................... iii
LỜI CAM ĐOAN................................................................................................................iv
DANH MỤC THUẬT NGỮ VIẾT TẮT ..........................................................................v
DANH MỤC HÌNH VẼ.....................................................................................................vi
DANH MỤC BẢNG .........................................................................................................vii
GIỚI THIỆU.......................................................................................................................8
Chương 1:Mô hình ngôn ngữ ..........................................................................................10
1.1 Giới thiệu:.....................................................................................................................10
1.2 Mô hình ngôn ngữ N-gram...........................................................................................11
1.3 Khó khăn khi xây dựng mô hình ngôn ngữ N-gram ....................................................13
1.3.1 Phân bố không đều: ..................................................................................................13
1.3.2 Kích thước bộ nhớ của mô hình ngôn ngữ................................................................13
1.4 Các phương pháp làm mịn............................................................................................14
1.4.1 Phương pháp Add-one...............................................................................................14
1.4.2 Phương pháp Good – Turing .....................................................................................15
1.4.3 Phương pháp truy hồi back-off..................................................................................16
1.4.4 Phương pháp nội suy .................................................................................................18
1.4.5 Phương pháp Kneser – Ney.......................................................................................19
1.4.6 Phương pháp Kneser – Ney cải tiến ..........................................................................20
1.5 Đánh giá mô hình ngôn ngữ .........................................................................................21
1.5.1 Entropy – Độ đo thông tin:........................................................................................21
1.5.2 Perplexity – Độ hỗn loạn thông tin: ..........................................................................22
1.5.3 Error rate – Tỉ lệ lỗi:..................................................................................................23
Chương 2:Tổng quan về Hadoop MapReduce ..............................................................24
2.1 Hadoop..........................................................................................................................24
2.2 Các thành phần của Hadoop .........................................................................................24
2.2.1 Kiến trúc hệ thống tệp phân tán.................................................................................24
ii
2.3 Mapreduce ....................................................................................................................26
2.3.1 Kiến trúc của Mapreduce...........................................................................................27
2.3.2 Cơ chế hoạt động.......................................................................................................28
2.4 Ưu điểm của Hadoop....................................................................................................31
Chương 3:Ƣớc lƣợng mô hình ngôn ngữ với Mapreduce.............................................32
3.1 Đếm các từ....................................................................................................................33
3.2 Đếm số lần xuất hiện (Generate count of counts) ........................................................36
3.3 Sinh số làm mịn Good-Turing......................................................................................37
3.4 Ước lượng xác suất n-gram ..........................................................................................38
3.5 Sinh bảng Hbase ...........................................................................................................40
3.5.1 Cấu trúc dựa trên n-gram...........................................................................................40
3.5.2 Cấu trúc dựa trên từ hiện tại ......................................................................................40
3.5.3 Cấu trúc dựa trên đoạn văn........................................................................................41
3.5.4 Cấu trúc dựa trên nửa ngram.....................................................................................42
3.5.5 Cấu trúc dựa trên số nguyên......................................................................................43
3.6 Truy vấn trực tiếp .........................................................................................................44
Chương 4: Các phƣơng pháp đánh giá và thực nghiệm.......................................................46
4.1 Các phương pháp đánh giá ...........................................................................................46
4.1.1 Thời gian và bộ nhớ...................................................................................................46
4.1.2 Sự so sánh độ hỗn loạn thông tin mô hình ngôn ngữ ................................................46
4.2 Thực nghiệm.................................................................................................................47
4.2.1 Môi trường chạy thực nghiệm...................................................................................47
4.2.2 Dữ liệu .......................................................................................................................47
4.2.3 Đánh giá thời gian và bộ nhớ cho các ngram............................................................48
4.2.4 So sánh thời gian chạy với SRILM ...........................................................................50
KẾT LUẬN .......................................................................................................................52
TÀI LIỆU THAM KHẢO................................................................................................53
iii
LỜI CẢM ƠN
Đầu tiên, cho phép tôi gửi lời cảm ơn sâu sắc tới TS Nguyễn Văn Vinh và TS
Nguyễn Phú Bình, người đã trực tiếp hướng dẫn, chỉ bảo và tạo điều kiện cho tôi trong
quá trình hoàn thành luận văn này.
Đồng thời tôi cũng xin gửi lời cảm ơn chân thành tới các thầy cô giáo trường Đại
học Công Nghệ, Đai học Quốc Gia Hà Nội, những người đã trực tiếp giảng dạy, hướng
dẫn và tạo điều kiện cho tôi trong quá trình học tập và làm luận văn.
Cuối cùng, tôi xin gửi lời cảm ơn tới tất cả các bạn đồng học và gia đình đã ủng
hộ, giúp đỡ tôi hoàn thành luận văn.
iv
LỜI CAM ĐOAN
Tôi xin cam đoan kết quả trong luận văn là sản phẩm của riêng cá nhân tôi.
Trong toàn bộ nội dung của luận văn, những điều được trình bày hoặc là của cá nhân
hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có
xuất xứ rõ ràng và được trích dẫn hợp pháp.
Tôi xin hoàn toàn chịu trách nhiệm theo quy định cho lời cam đoan của mình.
Hà Nội, ngày 25 tháng 10 năm 2016
Ngƣời cam đoan
Vũ Thị Thanh