Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nghiên cứu thuật toán tách từ tiếng Lào và xây dựng ứng dụng hỗ trợ tra cứu từ mới tiếng Lào – Việt
PREMIUM
Số trang
63
Kích thước
6.3 MB
Định dạng
PDF
Lượt xem
1604

Nghiên cứu thuật toán tách từ tiếng Lào và xây dựng ứng dụng hỗ trợ tra cứu từ mới tiếng Lào – Việt

Nội dung xem thử

Mô tả chi tiết

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn

1

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

LUẬN VĂN THẠC SĨ

Tên đề tài: Nghiên cứu thuật toán tách từ tiếng Lào và xây

dụng ứng dụng hỗ trợ tra cứu từ mới tiếng Lào – Việt

Giáo viên hướng dẫn : TS. NÔNG THỊ HOA

Học viên thực hiện : VONGPHASITH END

Lớp: : Cao học K16A

Thái Nguyên, tháng 5 năm 2019

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn

2

DANH SÁCH CÁC BẢNG

Bảng 2.1: Một số công cụ dùng cho tác từ hiện có

Bảng 3.1: Một số cặp từ Việt-Lào đã thu thập

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn

3

DANH SÁCH CÁC HÌNH VẼ

Hình 3.1: Danh sách một số file âm thanh đọc tiếng Lào.

Hình 3.2: Danh sách một số file âm thanh đọc tiếng Việt.

Hình 3.3: Giao diện tra từ điển trong trang http://vietlao.classbook.vn/.

Hình 3.4: Giao diện tra từ điển trong trang http://www.vietnamese-translation.com

Hình 3.5: Giao diện tra từ điển trong trang https://glosbe.com

Hình 3.6: Giao diện tra từ điển trong Google Translate

Hình 3.7: Giao diện tra từ điển trong Trang Laban.vn

Hình 3.8: Giao diện tra từ điển trong trang tracau.vn

Hình 3.9: Vị trí nhập từ cần tra

Hình 3.10: Vị trí ra lệnh dịch từ

Hình 3.11: Kết quả dịch

Hình 3.12: Vị trí chọn nghe âm thanh

Hình 3.13: Kết quả tra từ “ba”.

Hình 3.14: Kết quả tra từ “đa”.

Hình 3.15: Kết quả tra từ “dân”.

Hình 3.16: Kết quả tra từ “khoanh”.

Hình 3.17: Kết quả tra từ “khó”.

Hình 3.18: Kết quả tra từ “hai”.

Hình 3.19: Kết quả tra từ “kế”.

Hình 3.20: Kết quả tra từ “khách”.

Hình 3.21: Kết quả tra từ “lạc”.

Hình 3.22: Kết quả tra từ “nam”.

Hình 3.23: Kết quả tra từ “ngay”.

Hình 3.24: Kết quả tra từ “ngày”.

Hình 3.25: Kết quả tra từ “nghi”.

Hình 3.26: Kết quả tra từ “phân”.

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn

4

MỤC LỤC

DANH SÁCH CÁC BẢNG...................................................................................................2

DANH SÁCH CÁC HÌNH VẼ..............................................................................................3

CHƯƠNG I: NGỮ PHÁP TIẾNG LÀO ...............................................................................6

1.1 Giới thiệu chung...........................................................................................................6

1.2 Thanh điệu và bảng chữ cái .........................................................................................6

1.2.1 Thanh điệu tiếng Lào.............................................................................................6

1.2.2 Bảng chữ cái tiếng Lào..........................................................................................7

1.3 Ngữ pháp tiếng Lào......................................................................................................8

1.3.1 Biến cách đặc biệt về Ngữ pháp ...........................................................................9

1.3.2 Quan hệ Danh từ...................................................................................................9

1.3.3 Danh xưng ...........................................................................................................12

1.3.4 Quan hệ giữa Danh từ và Tính từ .......................................................................16

1.3.5 Động từ và các Thời của Hành động..................................................................16

1.4 Các Thể Ngữ pháp trong các Ngôn ngữ Lào - Thái – Khmer...................................22

1.4.1 Thể Nghi vấn trong Ngôn ngữ Lào - Thái - Khmer ............................................22

CHƯƠNG II: CÁC KỸ THUẬT TÁCH TỪ TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN

.............................................................................................................................................24

2.1 Giới thiệu chung…………………………..…………………………………………………….……………………..24

2.1.1 Xử lý ngôn ngữ tự nhiên......................................................................................24

2.1.2 Tách từ trong Xử lý ngôn ngữ tự nhiên...............................................................27

2.2 Các kỹ thuật tách từ hiện có.....................................................................................29

2.2.1 Mô hình ngôn ngữ ...............................................................................................29

2.2.2 Một số cách tiếp cận bài toán tách từ ..................................................................30

2.2.3 Thuật toán tách từ phổ biến .................................................................................32

2.2.4 Một số vấn đề mở rộng........................................................................................33

2.3 Dùng kỹ thuật Pointwise cho tách từ .........................................................................33

2.3.1 Ý tưởng cơ bản ....................................................................................................33

2.3.2 Những đặc trưng được sử dụng ...........................................................................35

2.3.3 Đặc điểm về dữ liệu huấn luyện ..........................................................................37

2.4 Một số công cụ (Tools) dùng cho tách từ ..................................................................37

CHƯƠNG III: XÂY DỰNG ỨNG DỤNG TRA CỨU TỪ ĐIỂN VIỆT-LÀO..................38

3.1 Giới thiệu bài toán......................................................................................................38

3.2 Thu thập dữ liệu để xây dựng từ điển ........................................................................39

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn

5

3.3 Khảo sát một số phần mềm tra từ điển.......................................................................46

3.4 Phân tích và thiết kế dữ liệu.......................................................................................49

3.4.1 Các yêu cầu về chức năng ...................................................................................49

3.4.2 Các yêu cầu phi chức năng..................................................................................49

3.4.3 Thiết kế cơ sở dữ liệu ..........................................................................................50

3.5 Xây dựng chương trình ..............................................................................................50

3.5.1 Hướng dẫn sử dụng chương trình........................................................................50

3.5.2 Các giao diện chương trình..................................................................................53

3.5.3 Một số đoạn code quan trọng ..............................................................................60

KẾT LUẬN..........................................................................................................................62

HƯỚNG PHÁT TRIỂN.......................................................................................................62

TÀI LIỆU THAM KHẢO ...................................................................................................63

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn

6

CHƯƠNG I: NGỮ PHÁP TIẾNG LÀO

1.1 Giới thiệu chung

Tiếng Lào [2] là một ngôn ngữ thuộc Ngữ chi Thái trong hệ ngôn ngữ Tai￾Kadai. Tiếng Lào chịu những ảnh hưởng của tiếng Phạn. Tiếng Lào cũng là ngôn ngữ

truyền thống của hoàng gia Lào, truyền đạt tư tưởng Ấn Độ giáo và Phật giáo. Bảng

chữ cái Lào là bản chính thức cho ngôn ngữ chính thức, và cũng được sử dụng để ghi

lại ngôn ngữ dân tộc thiểu số trong cả nước, trong khi những dân tộc có chữ riêng

như Hmông vẫn có thể sử dụng chữ của mình.

Tiếng Lào có ảnh hưởng ít nhiều đến những ngôn ngữ khác trong vùng đối với

các lân bang như tiếng Thái, tiếng Khmer, tiếng Việt. Lào ngữ được coi là một ngôn

ngữ hỗn hợp ở bán đảo Đông Nam Á. Tiếng Lào có những thanh điệu và phát âm

giống tiếng Thái, phần tương đồng lên đến hơn 80%. Vì vậy trong đối thoại

giữa người Lào và người Thái Lan có thể hiểu nhau được. Ở Việt Nam, tiếng Lào

không được công nhận là ngôn ngữ thiểu số, tuy nhiên tiếng Lào được nói tại một số

vùng núi gần biên giới Việt-Lào và người dân ở đó xem tiếng Lào là ngôn ngữ thương

mại ở khu vực này.

1.2 Thanh điệu và bảng chữ cái

1.2.1 Thanh điệu tiếng Lào

Tiếng Lào cũng có 5 thanh điệu [3] tương đương với 5 thanh điệu của tiếng

Việt, tuy nhiên có một thanh điệu được gọi là luyến lên – luyến xuống lại được biến

đổi tùy từng trường hợp sử dụng.

Ngữ điệu tiếng Lào được quy định bởi năm thanh điệu:

Thanh cao (thanh sắc) được tạo bởi mái tri và được viết là ” ໊ “

Thanh thấp (thanh huyền) được tạo bởi mái ệc và được viết là ‘ ่ ’

tức là một dấu nháy như thanh sắc ở phía trên.

Thanh bằng (thanh không hay thanh bằng) nghĩa là không có dấu gì

ở trên hoặc dưới.

Thanh luyến lên (thanh hỏi) được tạo bởi mái chặt-ta-wa và được viết

là ” ่ ” tức là một dấu cộng ở phía trên đầu.

Tải ngay đi em, còn do dự, trời tối mất!