Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Mô Hình Ngôn Ngữ Sử Dụng Mapreduce
PREMIUM
Số trang
54
Kích thước
1.5 MB
Định dạng
PDF
Lượt xem
1265

Mô Hình Ngôn Ngữ Sử Dụng Mapreduce

Nội dung xem thử

Mô tả chi tiết

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

VŨ THỊ THANH

MÔ HÌNH NGÔN NGỮ SỬ DỤNG MAPREDUCE

Ngành: Công nghệ thông tin

Chuyên ngành: Kỹ thuật phần mềm

Mã Số: 60480103

LUẬN VĂN THẠC SĨ

NGƢỜI HƢỚNG DẪN KHOA HỌC CHÍNH: TS. NGUYỄN VĂN VINH

NGƢỜI HƢỚNG DẪN KHOA HỌC PHỤ: TS. NGUYỄN PHÚ BÌNH

Hà Nội – 2016

i

MỤC LỤC

MỤC LỤC ............................................................................................................................i

LỜI CẢM ƠN ................................................................................................................... iii

LỜI CAM ĐOAN................................................................................................................iv

DANH MỤC THUẬT NGỮ VIẾT TẮT ..........................................................................v

DANH MỤC HÌNH VẼ.....................................................................................................vi

DANH MỤC BẢNG .........................................................................................................vii

GIỚI THIỆU.......................................................................................................................8

Chương 1:Mô hình ngôn ngữ ..........................................................................................10

1.1 Giới thiệu:.....................................................................................................................10

1.2 Mô hình ngôn ngữ N-gram...........................................................................................11

1.3 Khó khăn khi xây dựng mô hình ngôn ngữ N-gram ....................................................13

1.3.1 Phân bố không đều: ..................................................................................................13

1.3.2 Kích thước bộ nhớ của mô hình ngôn ngữ................................................................13

1.4 Các phương pháp làm mịn............................................................................................14

1.4.1 Phương pháp Add-one...............................................................................................14

1.4.2 Phương pháp Good – Turing .....................................................................................15

1.4.3 Phương pháp truy hồi back-off..................................................................................16

1.4.4 Phương pháp nội suy .................................................................................................18

1.4.5 Phương pháp Kneser – Ney.......................................................................................19

1.4.6 Phương pháp Kneser – Ney cải tiến ..........................................................................20

1.5 Đánh giá mô hình ngôn ngữ .........................................................................................21

1.5.1 Entropy – Độ đo thông tin:........................................................................................21

1.5.2 Perplexity – Độ hỗn loạn thông tin: ..........................................................................22

1.5.3 Error rate – Tỉ lệ lỗi:..................................................................................................23

Chương 2:Tổng quan về Hadoop MapReduce ..............................................................24

2.1 Hadoop..........................................................................................................................24

2.2 Các thành phần của Hadoop .........................................................................................24

2.2.1 Kiến trúc hệ thống tệp phân tán.................................................................................24

ii

2.3 Mapreduce ....................................................................................................................26

2.3.1 Kiến trúc của Mapreduce...........................................................................................27

2.3.2 Cơ chế hoạt động.......................................................................................................28

2.4 Ưu điểm của Hadoop....................................................................................................31

Chương 3:Ƣớc lƣợng mô hình ngôn ngữ với Mapreduce.............................................32

3.1 Đếm các từ....................................................................................................................33

3.2 Đếm số lần xuất hiện (Generate count of counts) ........................................................36

3.3 Sinh số làm mịn Good-Turing......................................................................................37

3.4 Ước lượng xác suất n-gram ..........................................................................................38

3.5 Sinh bảng Hbase ...........................................................................................................40

3.5.1 Cấu trúc dựa trên n-gram...........................................................................................40

3.5.2 Cấu trúc dựa trên từ hiện tại ......................................................................................40

3.5.3 Cấu trúc dựa trên đoạn văn........................................................................................41

3.5.4 Cấu trúc dựa trên nửa ngram.....................................................................................42

3.5.5 Cấu trúc dựa trên số nguyên......................................................................................43

3.6 Truy vấn trực tiếp .........................................................................................................44

Chương 4: Các phƣơng pháp đánh giá và thực nghiệm.......................................................46

4.1 Các phương pháp đánh giá ...........................................................................................46

4.1.1 Thời gian và bộ nhớ...................................................................................................46

4.1.2 Sự so sánh độ hỗn loạn thông tin mô hình ngôn ngữ ................................................46

4.2 Thực nghiệm.................................................................................................................47

4.2.1 Môi trường chạy thực nghiệm...................................................................................47

4.2.2 Dữ liệu .......................................................................................................................47

4.2.3 Đánh giá thời gian và bộ nhớ cho các ngram............................................................48

4.2.4 So sánh thời gian chạy với SRILM ...........................................................................50

KẾT LUẬN .......................................................................................................................52

TÀI LIỆU THAM KHẢO................................................................................................53

iii

LỜI CẢM ƠN

Đầu tiên, cho phép tôi gửi lời cảm ơn sâu sắc tới TS Nguyễn Văn Vinh và TS

Nguyễn Phú Bình, người đã trực tiếp hướng dẫn, chỉ bảo và tạo điều kiện cho tôi trong

quá trình hoàn thành luận văn này.

Đồng thời tôi cũng xin gửi lời cảm ơn chân thành tới các thầy cô giáo trường Đại

học Công Nghệ, Đai học Quốc Gia Hà Nội, những người đã trực tiếp giảng dạy, hướng

dẫn và tạo điều kiện cho tôi trong quá trình học tập và làm luận văn.

Cuối cùng, tôi xin gửi lời cảm ơn tới tất cả các bạn đồng học và gia đình đã ủng

hộ, giúp đỡ tôi hoàn thành luận văn.

iv

LỜI CAM ĐOAN

Tôi xin cam đoan kết quả trong luận văn là sản phẩm của riêng cá nhân tôi.

Trong toàn bộ nội dung của luận văn, những điều được trình bày hoặc là của cá nhân

hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có

xuất xứ rõ ràng và được trích dẫn hợp pháp.

Tôi xin hoàn toàn chịu trách nhiệm theo quy định cho lời cam đoan của mình.

Hà Nội, ngày 25 tháng 10 năm 2016

Ngƣời cam đoan

Vũ Thị Thanh

Tải ngay đi em, còn do dự, trời tối mất!