Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nghiên cứu thuật toán tách từ tiếng Lào và xây dựng ứng dụng hỗ trợ tra cứu từ mới tiếng Lào – Việt
Nội dung xem thử
Mô tả chi tiết
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn
1
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LUẬN VĂN THẠC SĨ
Tên đề tài: Nghiên cứu thuật toán tách từ tiếng Lào và xây
dụng ứng dụng hỗ trợ tra cứu từ mới tiếng Lào – Việt
Giáo viên hướng dẫn : TS. NÔNG THỊ HOA
Học viên thực hiện : VONGPHASITH END
Lớp: : Cao học K16A
Thái Nguyên, tháng 5 năm 2019
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn
2
DANH SÁCH CÁC BẢNG
Bảng 2.1: Một số công cụ dùng cho tác từ hiện có
Bảng 3.1: Một số cặp từ Việt-Lào đã thu thập
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn
3
DANH SÁCH CÁC HÌNH VẼ
Hình 3.1: Danh sách một số file âm thanh đọc tiếng Lào.
Hình 3.2: Danh sách một số file âm thanh đọc tiếng Việt.
Hình 3.3: Giao diện tra từ điển trong trang http://vietlao.classbook.vn/.
Hình 3.4: Giao diện tra từ điển trong trang http://www.vietnamese-translation.com
Hình 3.5: Giao diện tra từ điển trong trang https://glosbe.com
Hình 3.6: Giao diện tra từ điển trong Google Translate
Hình 3.7: Giao diện tra từ điển trong Trang Laban.vn
Hình 3.8: Giao diện tra từ điển trong trang tracau.vn
Hình 3.9: Vị trí nhập từ cần tra
Hình 3.10: Vị trí ra lệnh dịch từ
Hình 3.11: Kết quả dịch
Hình 3.12: Vị trí chọn nghe âm thanh
Hình 3.13: Kết quả tra từ “ba”.
Hình 3.14: Kết quả tra từ “đa”.
Hình 3.15: Kết quả tra từ “dân”.
Hình 3.16: Kết quả tra từ “khoanh”.
Hình 3.17: Kết quả tra từ “khó”.
Hình 3.18: Kết quả tra từ “hai”.
Hình 3.19: Kết quả tra từ “kế”.
Hình 3.20: Kết quả tra từ “khách”.
Hình 3.21: Kết quả tra từ “lạc”.
Hình 3.22: Kết quả tra từ “nam”.
Hình 3.23: Kết quả tra từ “ngay”.
Hình 3.24: Kết quả tra từ “ngày”.
Hình 3.25: Kết quả tra từ “nghi”.
Hình 3.26: Kết quả tra từ “phân”.
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn
4
MỤC LỤC
DANH SÁCH CÁC BẢNG...................................................................................................2
DANH SÁCH CÁC HÌNH VẼ..............................................................................................3
CHƯƠNG I: NGỮ PHÁP TIẾNG LÀO ...............................................................................6
1.1 Giới thiệu chung...........................................................................................................6
1.2 Thanh điệu và bảng chữ cái .........................................................................................6
1.2.1 Thanh điệu tiếng Lào.............................................................................................6
1.2.2 Bảng chữ cái tiếng Lào..........................................................................................7
1.3 Ngữ pháp tiếng Lào......................................................................................................8
1.3.1 Biến cách đặc biệt về Ngữ pháp ...........................................................................9
1.3.2 Quan hệ Danh từ...................................................................................................9
1.3.3 Danh xưng ...........................................................................................................12
1.3.4 Quan hệ giữa Danh từ và Tính từ .......................................................................16
1.3.5 Động từ và các Thời của Hành động..................................................................16
1.4 Các Thể Ngữ pháp trong các Ngôn ngữ Lào - Thái – Khmer...................................22
1.4.1 Thể Nghi vấn trong Ngôn ngữ Lào - Thái - Khmer ............................................22
CHƯƠNG II: CÁC KỸ THUẬT TÁCH TỪ TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN
.............................................................................................................................................24
2.1 Giới thiệu chung…………………………..…………………………………………………….……………………..24
2.1.1 Xử lý ngôn ngữ tự nhiên......................................................................................24
2.1.2 Tách từ trong Xử lý ngôn ngữ tự nhiên...............................................................27
2.2 Các kỹ thuật tách từ hiện có.....................................................................................29
2.2.1 Mô hình ngôn ngữ ...............................................................................................29
2.2.2 Một số cách tiếp cận bài toán tách từ ..................................................................30
2.2.3 Thuật toán tách từ phổ biến .................................................................................32
2.2.4 Một số vấn đề mở rộng........................................................................................33
2.3 Dùng kỹ thuật Pointwise cho tách từ .........................................................................33
2.3.1 Ý tưởng cơ bản ....................................................................................................33
2.3.2 Những đặc trưng được sử dụng ...........................................................................35
2.3.3 Đặc điểm về dữ liệu huấn luyện ..........................................................................37
2.4 Một số công cụ (Tools) dùng cho tách từ ..................................................................37
CHƯƠNG III: XÂY DỰNG ỨNG DỤNG TRA CỨU TỪ ĐIỂN VIỆT-LÀO..................38
3.1 Giới thiệu bài toán......................................................................................................38
3.2 Thu thập dữ liệu để xây dựng từ điển ........................................................................39
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn
5
3.3 Khảo sát một số phần mềm tra từ điển.......................................................................46
3.4 Phân tích và thiết kế dữ liệu.......................................................................................49
3.4.1 Các yêu cầu về chức năng ...................................................................................49
3.4.2 Các yêu cầu phi chức năng..................................................................................49
3.4.3 Thiết kế cơ sở dữ liệu ..........................................................................................50
3.5 Xây dựng chương trình ..............................................................................................50
3.5.1 Hướng dẫn sử dụng chương trình........................................................................50
3.5.2 Các giao diện chương trình..................................................................................53
3.5.3 Một số đoạn code quan trọng ..............................................................................60
KẾT LUẬN..........................................................................................................................62
HƯỚNG PHÁT TRIỂN.......................................................................................................62
TÀI LIỆU THAM KHẢO ...................................................................................................63
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn
6
CHƯƠNG I: NGỮ PHÁP TIẾNG LÀO
1.1 Giới thiệu chung
Tiếng Lào [2] là một ngôn ngữ thuộc Ngữ chi Thái trong hệ ngôn ngữ TaiKadai. Tiếng Lào chịu những ảnh hưởng của tiếng Phạn. Tiếng Lào cũng là ngôn ngữ
truyền thống của hoàng gia Lào, truyền đạt tư tưởng Ấn Độ giáo và Phật giáo. Bảng
chữ cái Lào là bản chính thức cho ngôn ngữ chính thức, và cũng được sử dụng để ghi
lại ngôn ngữ dân tộc thiểu số trong cả nước, trong khi những dân tộc có chữ riêng
như Hmông vẫn có thể sử dụng chữ của mình.
Tiếng Lào có ảnh hưởng ít nhiều đến những ngôn ngữ khác trong vùng đối với
các lân bang như tiếng Thái, tiếng Khmer, tiếng Việt. Lào ngữ được coi là một ngôn
ngữ hỗn hợp ở bán đảo Đông Nam Á. Tiếng Lào có những thanh điệu và phát âm
giống tiếng Thái, phần tương đồng lên đến hơn 80%. Vì vậy trong đối thoại
giữa người Lào và người Thái Lan có thể hiểu nhau được. Ở Việt Nam, tiếng Lào
không được công nhận là ngôn ngữ thiểu số, tuy nhiên tiếng Lào được nói tại một số
vùng núi gần biên giới Việt-Lào và người dân ở đó xem tiếng Lào là ngôn ngữ thương
mại ở khu vực này.
1.2 Thanh điệu và bảng chữ cái
1.2.1 Thanh điệu tiếng Lào
Tiếng Lào cũng có 5 thanh điệu [3] tương đương với 5 thanh điệu của tiếng
Việt, tuy nhiên có một thanh điệu được gọi là luyến lên – luyến xuống lại được biến
đổi tùy từng trường hợp sử dụng.
Ngữ điệu tiếng Lào được quy định bởi năm thanh điệu:
Thanh cao (thanh sắc) được tạo bởi mái tri và được viết là ” ໊ “
Thanh thấp (thanh huyền) được tạo bởi mái ệc và được viết là ‘ ่ ’
tức là một dấu nháy như thanh sắc ở phía trên.
Thanh bằng (thanh không hay thanh bằng) nghĩa là không có dấu gì
ở trên hoặc dưới.
Thanh luyến lên (thanh hỏi) được tạo bởi mái chặt-ta-wa và được viết
là ” ่ ” tức là một dấu cộng ở phía trên đầu.