Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt
PREMIUM
Số trang
151
Kích thước
1.6 MB
Định dạng
PDF
Lượt xem
1994

Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt

Nội dung xem thử

Mô tả chi tiết

Học viện Công nghệ Bưu chính Viễn thông

Phan Thị Hà

Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho

ngữ liệu từ nguồn Internet cho xử lý tiếng Việt

Chuyên ngành: Truyền dữ liệu và mạng máy tính Mã số: 62.48.15.01

Nghiên cứu sinh: Phan Thị Hà

Cán bộ hướng dẫn: 1. PGS.TS Trần Hồng Quân 2. TS. Nguyễn Thị Minh Huyền

2014

i

LỜI CAM ĐOAN

Tôi cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của bản

thân. Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu rõ

nguồn gốc một cách rõ ràng trong danh mục tài liệu tham khảo được đề cập ở

phần sau của luận án. Những đóng góp trong luận án là kết quả nghiên cứu của

tác giả đã được công bố trong các bài báo của tác giả ở phần sau của luận án và

chưa được công bố trong bất kỳ công trình khoa học nào khác.

Tác giả luận án

Phan Thị Hà

ii

Lời cảm ơn

Trước tiên, tôi muốn gửi lời cảm ơn đến Thầy Cô giáo hướng dẫn của tôi,

PGS.TS Trần Hồng Quân, TS Nguyễn Thị Minh Huyền. Thầy, Cô đã tận tình

chỉ bảo tôi từ những việc tưởng chừng đơn giản như cách thức thu thập tài liệu

tham khảo cho đến phương pháp nghiên cứu hoa học. Sự tận tình hướng dẫn,

cộng với sự động viên, khích lệ thường xuyên của Thầy Cô đã giúp tôi tự tin,

say mê hơn trong con đường nghiên cứu khoa học. Tôi cảm thấy thực sự trưởng

thành sau những năm được học tập và nghiên cứu dưới sự hướng dẫn của Thầy

cô, một lần nữa em xin được cảm ơn Thầy Cô và kính chúc Thầy Cô luôn mạnh

khỏe, hạnh phúc, thành công trên mọi lĩnh vực, đặc biệt là trên con đường khoa

học. Mong rằng sẽ có nhiều lớp nghiên cứu sinh lại tiếp tục được Thầy Cô

hướng dẫn trong những năm tiếp theo.

Tôi xin chân thành cảm ơn Tập đoàn Bưu Chính Viễn Thông, Ban lãnh đạo

Học viện Công nghệ Bưu Chính Viễn Thông đã động viên và tạo điều kiện

thuận lợi cho tôi trong suốt quá trình thực hiện luận án.

Tôi cũng muốn bày tỏ lòng biết ơn đối với tập thể các Thầy Cô khoa Công

nghệ Thông tin và các Thầy Cô Khoa Đào tạo Sau Đại học, Học Viện Công

nghệ Bưu Chính Viễn Thông, nơi tôi làm việc và học tập trong những năm qua.

Các Thầy Cô luôn tạo điều kiện để tôi hoàn thành tốt công việc của mình, và sự

dạy dỗ của Quí thầy cô đã giúp tôi trưởng thành.

Xin bày tỏ lời cảm ơn của tôi đến các chuyên gia về xử lý ngôn ngữ tự nhiên,

dự án KC01.01/06-10, trung tâm từ điển VietLex đã hỗ trợ việc thu thập tài liệu

và các góp ý hữu ích về ý tưởng và kỹ thuật phục vụ cho nghiên cứu của tôi.

Cuối cùng, chân thành cảm ơn người thân, bạn bè luôn bên cạnh động viên,

hỗ trợ về mặt tinh thần để tôi vượt qua khó khăn và hoàn thành tốt luận án.

iii

MỤC LỤC

MỤC LỤC ....................................................................................................................iii

DANH MỤC HÌNH VẼ ...............................................................................................vi

DANH MỤC BẢNG ...................................................................................................vii

DANH MỤC CỤM TỪ VIẾT TẮT ...........................................................................viii

MỞ ĐẦU......................................................................................................... x

Đặt vấn đề ..........................................................................................................................x

Mục tiêu và phạm vi nghiên cứu của luận án .................................................................xiii

Kết quả đạt được.............................................................................................................xiv

Bố cục của luận án ...........................................................................................................xv

CHƯƠNG 1. TỔNG QUAN VỀ KHO NGỮ LIỆU....................................... 1

1.1 Kho ngữ liệu văn bản.............................................................................................1

1.2 Xây dựng, chuẩn hóa và khai thác kho ngữ liệu....................................................5

1.2.1 Thu thập kho ngữ liệu văn bản ......................................................................5

1.2.2 Chú giải ngôn ngữ và vấn đề chuẩn hóa........................................................7

1.2.3 Khai thác kho ngữ liệu...................................................................................9

1.3 Kho ngữ liệu tiếng Việt .......................................................................................13

1.3.1 Hiện trạng ....................................................................................................13

1.3.2 Các vấn đề được nghiên cứu trong luận án..................................................13

1.4 Kết chương...........................................................................................................17

CHƯƠNG 2. XÂY DỰNG KHO NGỮ LIỆU THÔ TỪ INTERNET.........18

2.1 Giới thiệu .............................................................................................................18

2.2 Xây dựng kho ngữ liệu thô tiếng Việt .................................................................18

2.2.1 Lựa chọn danh sách từ hạt giống .................................................................19

2.2.2 Thu thập địa chỉ URL ..................................................................................21

2.2.3 Lọc nội dung chính của các trang web (URLs) ...........................................23

2.2.4 Phát hiện sự trùng lặp gần nhau...................................................................28

2.2.5 Xây dựng công cụ và kết quả thu thập kho ngữ liệu ...................................32

2.3 Kết chương...........................................................................................................32

iv

CHƯƠNG 3. CHUẨN HÓA MÔ HÌNH CHÚ GIẢI TIẾNG VIỆT............34

3.1 Giới thiệu .............................................................................................................34

3.2 Mô hình MAF của ISO/TC 37/SC 4....................................................................34

3.3 Mô hình SynAF của ISO/TC 37/SC 4 .................................................................36

3.4 Chuẩn hóa theo mô hình MAF cho tiếng Việt.....................................................38

3.4.1 Xác định đơn vị cơ sở (segment) .................................................................41

3.4.2 Hình thái từ (Wordform)..............................................................................41

3.4.3 Nội dung hình thái cú pháp..........................................................................42

3.5 Chuẩn hóa theo mô hình SynAF cho tiếng Việt ..................................................42

3.6 Kết chương...........................................................................................................50

CHƯƠNG 4. KHAI THÁC KHO NGỮ LIỆU THÔ CHO NGHIÊN CỨU TỪ

VỰNG TIẾNG VIỆT....................................................................................51

4.1 Giới thiệu .............................................................................................................51

4.1.1 Nghiên cứu từ vựng .....................................................................................51

4.1.2 Sketch Engine ..............................................................................................52

4.1.3 Ngữ liệu trong Sketch Engine......................................................................53

4.2 Xây dựng ngữ liệu tiếng Việt cho Sketch Engine................................................56

4.2.1 Tách từ và gán nhãn từ loại..........................................................................56

4.2.2 Xây dựng bộ quan hệ ngữ pháp tiếng Việt ..................................................57

4.2.3 Triển khai hệ thống Sketch Engine cho tiếng Việt ......................................64

4.2.4 Đánh giá bộ quan hệ ngữ pháp tiếng Việt ...................................................67

4.3 Kết chương...........................................................................................................67

CHƯƠNG 5. KHAI THÁC KHO NGỮ LIỆU CÓ CHÚ GIẢI CHO PHÂN

TÍCH CÚ PHÁP TIẾNG VIỆT ....................................................................69

5.1 Giới thiệu .............................................................................................................69

5.2 Văn phạm hình thức.............................................................................................70

5.2.1 Khái niệm chung về văn phạm ....................................................................70

5.2.2 Văn phạm phi ngữ cảnh (Context Free Grammar - CFG) ...........................72

5.2.3 Văn phạm kết nối cây (Tree Adjoining Grammar – TAG)..........................74

5.3 Trích rút tự động văn phạm CFG cho tiếng Việt.................................................77

v

5.3.1 Thuật toán trích rút từ VietTreebank ...........................................................77

5.3.2 Phân tích cú pháp tiếng Việt với văn phạm PCFG ......................................86

5.3.3 Thử nghiệm và đánh giá ..............................................................................89

5.3.4 Nhược điểm của văn phạm PCFG trong phân tích ngữ pháp ......................90

5.4 Trích rút tự động văn phạm LTAG cho tiếng Việt ..............................................90

5.4.1 Thuật toán trích rút từ VietTreebank ...........................................................90

5.4.2 Xây dựng thuật toán trích rút từ từ điển tiếng Việt....................................100

5.4.3 So sánh, đánh giá tập cây khởi tạo trích rút từ VietTreebank và từ điển...105

5.5 Kết chương.........................................................................................................107

KẾT LUẬN.................................................................................................109

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA NGHIÊN CỨU SINH LIÊN

QUAN ĐẾN LUẬN ÁN............................................................................................112

TÀI LIỆU THAM KHẢO .........................................................................................113

PHỤ LỤC ..................................................................................................................125

vi

DANH MỤC HÌNH VẼ

Hình 3. 1 Mô hình tổng quan của MAF [59].......................................................................35

Hình 3. 2. Mô hình SynAF [60]...........................................................................................38

Hình 4. 1 Danh sách tần suất và tính trội của các từ lân cận với tính từ “đẹp” ...................65

Hình 4. 2. Phác thảo thông tin của 2 từ ”đẹp”, ”xinh”.........................................................66

Hình 4. 3. Một số danh sách các từ có quan hệ ngữ pháp với tính từ “đẹp” .......................67

Hình 5. 1 Biểu diễn văn phạm G dưới dạng cây..................................................................73

Hình 5. 2. Phép thay thế.......................................................................................................75

Hình 5. 3. Phép kết nối ........................................................................................................75

Hình 5. 4.Ví dụ về dẫn xuất với phép kết nối và phép thế trong văn phạm TAG ...............76

Hình 5. 5. Xử lý các cụm từ bằng thuật toán 5.5 .................................................................94

Hình 5. 6. Ví dụ minh họa việc xây dựng cây phân tích .....................................................94

Hình 5. 7. Cây phân tích cú pháp.........................................................................................95

Hình 5. 8. Cây phân tích của cây cú pháp trong hình 5.7 sau khi chèn thêm nút................95

Hình 5. 9.Các mẫu cây cơ sở spine (ứng với quan hệ đối–vị từ) và phụ trợ (ứng với quan hệ

phụ trợ hoặc đẳng lập) .........................................................................................................96

Hình 5. 10. Các cây cơ bản..................................................................................................97

Hình 5. 11. Ghép các nút liên kết, đường đi trung tâm được đánh dấu bởi nét đôi.............98

Hình 5. 12. Số mẫu cây tăng dần theo kích thước của Treebank: .....................................100

Hình 5. 13. Sơ đồ so sánh tập cây cơ bản ..........................................................................105

Hình 5. 14. Một cây cơ bản không hợp lệ.........................................................................106

vii

DANH MỤC BẢNG

Bảng 1. 1. Thống kê các kho ngữ liệu đơn ngữ tiếng Việt ..................................................13

Bảng 2. 1. Thống kê số URL thu được của thuật toán 2.1...................................................21

Bảng 2. 2. Tỷ lệ văn bản và thẻ xuất hiện trong phần nội dung chính của một số trang web

tin tức Việt Nam ..................................................................................................................25

Bảng 2. 3. So sánh tỷ lệ “nội dung chính văn bản cần lấy/ toàn bộ nội dung văn bản trích

rút được” ..............................................................................................................................27

Bảng 2. 4. Kết quả thống kê thu thập tự động kho ngữ liệu từ web ....................................32

Bảng 3. 1.Tập từ loại được đối sánh với danh mục phân loại dữ liệu chuẩn ISO 12620 ....40

Bảng 3. 2. Tập nhãn cú pháp thành phần, nhãn phân loại câu được đối sánh với danh mục

phân loại dữ liệu chuẩn ISO 12620 .....................................................................................44

Bảng 3. 3.Tập nhãn chức năng cú pháp đối sánh với danh mục phân loại dữ liệu chuẩn ISO

12620 ...................................................................................................................................45

Bảng 5. 1. Quá trình trích rút luật theo thuật toán 5.1 .........................................................81

Bảng 5. 2.. Số các luật thu được ..........................................................................................89

Bảng 5. 3.Bảng thành phần trung tâm cho treebank tiếng Việt...........................................92

Bảng 5. 4.. Danh sách các đối..............................................................................................93

Bảng 5. 5. .Ghép một số nhãn cú pháp của VietTreebank thành một..................................98

Bảng 5. 6. Hai văn phạm G1, G2 được trích rút từ VietTreebank.....................................100

Bảng 5. 7. Thống kê bộ cây cơ bản Spin từ từ điển so sánh với cây cơ bản của

VietTreebank .....................................................................................................................105

viii

DANH MỤC CỤM TỪ VIẾT TẮT

Cụm từ

viết tắt

Cụm từ đầy đủ tiếng Anh Dich tiếng Việt

ANC The American National Corpus Kho ngữ liệu Quốc gia Mỹ

API Application Programming

Interface

Giao diện lập trình ứng dụng

BNC The British National Corpus Kho ngữ liệu Anh ngữ

BTE Body Text Extraction Trích văn bản phần thân

CES Copus Encoding Standard Tiêu chuẩn mã hóa kho ngữ liệu

COCA The Copus of Contemporary

American English

Kho ngữ liệu Anh Mỹ hiện đại

CRF Conditional Random Field Trường ngẫu nhiên có điều kiện

HMM Hidden Markov Model Mô hình Markov ẩn

HTML HyperText Markup Language Ngôn ngữ đánh dấu siêu văn bản

I/O Input/Output Đầu vào/ đầu ra

ISO International Organization for

Standardization

Tổ chức tiêu chuẩn hóa Quốc tế

LAF Linguistic Annotation

Framework

Khung chú giải ngôn ngữ học

LDC Linguistic Data Consortium Tổ chức dữ liệu ngôn ngữ học

MAF Morphosyntactic Annotation

Framewor

Khung chú giải hình thái cú pháp

MD5 Message Digest 5 Tóm tắt thông điệp

MDFA Minimal deterministic finite state

automata

Otomat hữu hạn trạng thái tối

thiểu

MEM Maximum Entropy Model Mô hình Entropy cực đại

NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên

ix

POS Part-Of-Speech Từ loại

SGML Standard Generalized Markup

Language

Ngôn ngữ đánh dấu tổng quát hóa

chuẩn

SynAF Syntactic Annotation Framework Mô hình chú giải cú pháp

URL Uniform Resource Locator Định vị tài nguyên đồng nhất

WFST Weighted Finit State Transducer Máy chuyển hữu hạn trạng thái có

trọng số

WWW Worl Wide Web Mạng toàn cầu

XML eXtensible Markup Language Ngôn ngữ đánh dấu mở rộng

CFG Context Free Grammar Văn phạm phi ngữ cảnh

PCFG Probability Context Free

Grammar

Văn phạm phi ngữ cảnh kết hợp

xác suất

TAG Tree Adjoining Grammar Văn phạm kết nối cây

LTAG Lexicalized Tree Adjoining

Grammar

Văn phạm kết nội cây từ vựng hóa

CYK Cocke – Younger – Kasami

algorithm

Thuật toán CYK

SSL Semi-supervised learning Học bán giám sát

x

MỞ ĐẦU

Đặt vấn đề

Những năm gần đây, xử lý ngôn ngữ tự nhiên (XLNNTN) đã trở thành một

lĩnh vực khoa học công nghệ được coi là mũi nhọn, với một loạt ứng dụng liên

quan đến Internet và Web, như tìm kiếm và trích chọn thông tin trên Web, khai phá

văn bản, Web ngữ nghĩa, tóm tắt văn bản v.v.

Các nghiên cứu và ứng dụng về xử lý ngôn ngữ trên thế giới đã có một lịch

sử lâu dài và được chia thành các giai đoạn chính như sau [41]: Thời kỳ đầu tiên,

bắt đầu từ những năm 1940-1950 mô hình ôtomat và các mô hình xác suất có ảnh

hưởng sâu sắc đến xử lý ngôn ngữ. Giai đoạn tiếp theo (1957-1970) xử lý ngôn ngữ

được chia thành hai nhánh tách biệt, nhánh hình thức tập trung vào các vấn đề

thuộc lĩnh vực lý thuyết ngôn ngữ hình thức và trí tuệ nhân tạo; kiểu ngẫu nhiên sử

dụng trong nhận dạng như các phương pháp Bayes. Giai đoạn 1970-1983 xuất hiện

bốn trường phái xử lý ngôn ngữ chính, đó là sử dụng phương pháp ngẫu nhiên; dựa

vào logic; hiểu ngôn ngữ tự nhiên; mô hình hóa diễn ngôn. Giai đoạn 1983-1993

việc huấn luyện các mô hình trạng thái hữu hạn, các mô hình xác suất dựa vào dữ

liệu đã xuất hiện hầu hết trong các nhiệm vụ của xử lý ngôn ngữ.

Từ những năm 1990 trở lại đây, mô hình thống kê dựa vào dữ liệu đã chứng

tỏ tính vượt trội của mình trong các công việc của xử lý ngôn ngữ [98, 99]. Công

nghệ xử lý văn bản và xử lý tiếng nói không còn cách biệt, công nghệ xử lý tiếng

nói không chỉ dựa vào các kỹ thuật xử lý tín hiệu mà còn dựa vào cả việc hiểu ngôn

ngữ. Tham số của mô hình thống kê hoặc mô hình trạng thái có thể huấn luyện từ

các kho ngữ liệu lớn, nhiều mô hình gần đây được chứng tỏ có hiệu quả cao như

Maximum Entropy Markov Model (MEMM), Conditional Random Fields (CRF)

[70, 71] v.v.

Vấn đề phân tích và hiểu tự động văn bản là một vấn đề lớn và phức tạp

trong việc hiểu ngôn ngữ tự nhiên, được tích hợp trong hầu hết các ứng dụng xử lý

văn bản tự động. Quá trình này thường được chia thành các mức cơ bản [41]: Mức

xi

ngữ âm; mức hình thái; mức cú pháp; mức ngữ nghĩa và mức ngữ dụng.

Mức ngữ âm (phonetics and phonology). Nghiên cứu về cách phát âm, bản

chất thanh điệu, ngôn điệu, ngữ điệu, trường độ âm tiết, độ nhấn, biến thanh… của

các từ;

Mức hình thái từ (morphology). Nhằm phân tích hình thái các từ vựng tạo

nên văn bản, từ đó kiểm tra được tính đúng đắn của âm tiết và từ;

Mức cú pháp (syntax). Mô tả quan hệ vai trò ngữ pháp của các từ, các cụm

từ (hoặc ngữ) trong câu, từ đó xây dựng cấu trúc câu;

Mức ngữ nghĩa (semantics). Mục đích của mức này là kiểm tra ý nghĩa của

câu có mâu thuẫn với ý nghĩa cả đoạn hay không. Dựa trên mối liên hệ logic về

nghĩa giữa các cụm từ trong câu và mối liên hệ giữa các câu trong đoạn, hệ thống sẽ

xác định được một phần ý nghĩa của câu trong ngữ cảnh của cả đoạn;

Mức ngữ dụng (pragmatics). Mục đích là phân tích để xác định ý nghĩa của

câu dựa trên mối liên hệ của câu với hiện thực. Ý nghĩa thực tế của câu phụ thuộc

rất nhiều vào ngữ cảnh diễn ra lời nói. Do vậy, quá trình phân tích này rất khó thực

hiện được bằng máy tính. Thường thì việc phân tích câu chỉ dừng ở phân tích ngữ

nghĩa, còn việc phân tích ngữ dụng do người dùng tự quyết định;

Mức diễn ngôn (discourse). Phân tích về mặt diễn đạt và ngữ cảnh tình

huống trong một đoạn phát ngôn.

Để giải quyết các vấn đề trên, nhiều kho ngữ liệu lớn (corpora) đã được ra

đời phục vụ cho việc huấn luyện các mô hình xử lý ngôn ngữ. Tuy nhiên, mỗi mức

xử lý cần các kho ngữ liệu với những yêu cầu đặc trưng riêng, ví dụ, với mức hình

thái từ thì cần có kho ngữ liệu huấn luyện (đã được chú giải hình thái) càng lớn

càng tốt, kho ngữ liệu lớn sẽ cải thiện được độ chính xác mô tả thông tin ngôn ngữ,

với mức cú pháp, đòi hỏi phải xây dựng được kho ngữ liệu đã được chú giải từ loại

hoặc cú pháp.

Hiện nay trên thế giới đã tồn tại nhiều kho ngữ liệu chuẩn. Nhiều kho ngữ

liệu được xây dựng cho tiếng Anh tiêu biểu là BNC [37], ANC [58], Penn Treebank

xii

[79], WordNet [53] v.v. Các thứ tiếng Ấn-Âu khác cũng được nghiên cứu từ nhiều

thập kỉ và nhiều kho ngữ liệu lớn đã được xây dựng làm cơ sở dữ liệu huấn luyện

cho các mô hình học máy. Nhiều quốc gia ở châu Á hay trong khu vực đã đầu tư

lớn cho nghiên cứu xử lý tiếng nói và ngôn ngữ của họ như là dự án từ điển điện tử

của Nhật Bản EDR (1982-1992) [55]. Dự án dịch Anh-Hoa, Nhật-Hoa, vv. của

Trung Quốc, dự án xây dựng Chinese Treebank [18], Wordnet đã hoàn thành cho

tiếng Hoa với các chú giải ngữ pháp đầy đủ. Với tiếng Thái cũng có nhiều kho ngữ

liệu mở đã được xây dựng [90]. Đây là những ngôn ngữ có những tương đồng với

tiếng Việt và ta có thể học được nhiều từ thành bại của các kỹ thuật xử lý tiếng nói

và ngôn ngữ cho hai thứ tiếng này để phục vụ cho việc xây dựng và khai thác kho

ngữ liệu tiếng Việt.

Đối với tiếng Việt, nhóm tác giả Hồ Tú Bảo & Lương Chi Mai [3] cho thấy

vấn đề xử lý ngôn ngữ tự nhiên còn hạn chế, chủ yếu tập trung vào các sản phẩm

cuối, ít nghiên cứu về cơ sở hạ tầng cho xử lý ngôn ngữ cũng như các công cụ và tài

nguyên như từ điển máy tính, kho ngữ liệu…, những thứ mà cộng đồng quốc tế cho

là không thể thiếu được cho xử lý ngôn ngữ. Đây chính là mục tiêu của đề tài nhà

nước KC01/06-10 [100] về xử lý ngôn ngữ và tiếng nói Việt giai đoạn 2007-2009.

Đề tài tập trung vào nghiên cứu và phát triển một số sản phẩm thiết yếu về xử lý

tiếng nói và văn bản tiếng Việt. Trong đó, nhánh đề tài xử lý văn bản tập trung vào

mức hình thái và mức cú pháp xây dựng một số sản phẩm thiết yếu cho xử lý văn

bản tiếng Việt, như: Từ điển tiếng Việt dùng cho máy tính, kho ngữ liệu tiếng Việt,

kho ngữ liệu câu tiếng Anh-Việt phổ quát-chuyên ngành, hệ phân đoạn từ tiếng

Việt, hệ phân cụm từ tiếng Việt, hệ phân tích câu tiếng Việt. Phương pháp xây dựng

kho ngữ liệu mà đề tài hướng tới là thủ công hoặc bán thủ công, kho ngữ liệu đã

được chú giải ở mức từ loại và cú pháp, có kích thước hạn chế, chủ yếu là sử dụng

làm dữ liệu huấn luyện cho các mô hình học máy có giám sát trong các công cụ xử

lý ngôn ngữ. Để có thể sử dụng làm dữ liệu huấn luyện trong các mô hình bán giám

sát và nghiên cứu ngôn ngữ Việt đòi hỏi phải xây dựng được các kho ngữ liệu tiếng

Việt có kích thước lớn hơn rất nhiều, công việc này không thể thực hiện bằng

xiii

phương pháp thủ công vì như thế tốn rất nhiều thời gian và công sức, các kho ngữ

liệu như thế cho tiếng Anh các thứ tiếng khác đã được xây dựng tự động từ Internet,

chúng ta có thể học tập để xây dựng cho tiếng Việt. Hơn nữa, để dễ dàng sử dụng,

mở rộng và đối sánh ngôn ngữ thì các kho ngữ liệu tiếng Việt cũng phải hướng tới

vấn đề chuẩn hóa quốc tế. Song song với nỗ lực của đề tài này, luận án đã tập trung

vào chủ đề xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử

lý tiếng Việt.

Mục tiêu và phạm vi nghiên cứu của luận án

Như đã trình bày sơ bộ ở trên, việc hiểu tự động văn bản là một việc khó và

phức tạp, chỉ có thể làm theo nhiều bước tuần tự, bước sau chỉ thực hiện được sau

khi bước trước đã có kết quả. Chẳng hạn như các chương trình dịch tự động trên thế

giới đã được theo đuổi hàng hơn chục năm và chặng đường đến đích cuối vẫn còn

rất xa, nếu chúng ta muốn làm dịch tự động Anh-Việt, bắt buộc chúng ta đi qua các

tầng của xử lý ngôn ngữ đã đề cập ở trên.

Mục tiêu mà luận án nhắm đến là xây dựng và khai thác kho ngữ liệu tiếng

Việt, cụ thể là:

- Xây dựng kho ngữ liệu thô có kích thước lớn

- Xây dựng chuẩn hóa mô hình chú giải tiếng Việt.

- Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng.

- Khai thác kho ngữ liệu đã chú giải cú pháp phục vụ bài toán phân tích

cú pháp tiếng Việt.

Để đạt được mục tiêu trên, phạm vi nghiên cứu của luận án tập trung vào

các công việc thuộc mức hình thái từ và mức cú pháp trong phân tích và hiểu tự

động văn bản, cụ thể là:

- Nghiên cứu xây dựng kho ngữ liệu có kích thước lớn (kho ngữ liệu thô

hoặc đã chú giải ngôn ngữ) từ Intermet thông qua các trang web.

xiv

- Nghiên cứu xây dựng và triển khai chuẩn hóa mô hình chú giải được

phát triển bởi tiểu ban kỹ thuật ISO/TC 37/SC 4 [114] cho tiếng Việt

phục vụ việc phân phối và trao đổi ngữ liệu.

- Triển khai một hệ thống truy vấn kho ngữ liệu tiếng Việt để nghiên cứu

ngữ cảnh và hành vi của mỗi từ phục vụ cho nghiên cứu từ vựng. Bên

cạnh kho ngữ liệu có kích thước lớn, đã được chú giải (từ loại), công

việc này còn đòi hỏi xây dựng bộ quan hệ ngữ pháp cơ bản tiếng Việt

được biểu diễn thông qua ngôn ngữ truy vấn kho ngữ liệu.

- Nghiên cứu và phát triển thuật toán trích rút tự động các luật văn phạm

từ kho ngữ liệu đã chú giải cú pháp hoặc cung cấp thông tin cú pháp

phục vụ cho phân tích cú pháp sử dụng hệ hình thức văn phạm phi ngữ

cảnh kết hợp xác suất (PCFG) và văn phạm kết nối cây (TAG).

Kết quả đạt được

Luận án đã đạt được các kết quả sau.

1. Phát triển thuật toán thu thập văn bản tiếng Việt từ web để xây dựng kho

ngữ liệu. Xây dựng công cụ thu thập tự động kho ngữ liệu từ Internet có

tên là Vncopus, triển khai thu thập kho ngữ liệu thô tiếng Việt từ

Internet (100 triệu từ), công cụ này được công bố tại địa chỉ

http://www.nitaco.edu.vn/science-tech/phanha/

2. Xây dựng, triển khai các mô hình chuẩn hóa quốc tế về quản lý tài

nguyên ngôn ngữ được phát triển bởi tiểu ban kỹ thuật ISO/TC 37/SC 4

cho tiếng Việt: Xây dựng mô hình chú giải mức hình thái-cú pháp

(MAF- Morphosyntactic Annotation Framework) và mô hình chú giải

mức cú pháp (SynAF-Syntactic Annotation Framework) cho tiếng Việt.

3. Xây dựng bộ quan hệ ngữ pháp cơ bản tiếng Việt (37 quan hệ ngữ

pháp) cho hệ thống nghiên cứu từ vựng; Tích hợp kho ngữ liệu xây dựng

từ Internet (kho ngữ liệu thô được gán nhãn từ loại bằng cách sử dụng

công cụ sẵn có) cùng bộ quan hệ ngữ pháp cho nghiên cứu từ vựng tiếng

Tải ngay đi em, còn do dự, trời tối mất!