Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Tài liệu TIỂU LUẬN: Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp pptx
MIỄN PHÍ
Số trang
61
Kích thước
548.8 KB
Định dạng
PDF
Lượt xem
1894

Tài liệu TIỂU LUẬN: Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp pptx

Nội dung xem thử

Mô tả chi tiết

TIỂU LUẬN:

Phân loại văn bản tiếng Việt bằng

phương pháp phân tích cú pháp

LỜI GIỚI THIỆU

Ngày nay, cơ sở dữ liệu đã trở thành một phần không thể thiếu của xã hội loài người.

Trong kỉ nguyên thông tin này, các thông tin được lưu trữ và xử lý hiệu quả hầu hết

là thông qua cơ sở dữ liệu. Sau gần 50 năm phát triển, cơ sở dữ liệu đã có những

bước tiến vô cùng quan trọng trong lịch sử Công nghệ thông tin. Từ mô hình Cơ sở

dữ liệu quan hệ do E.Codd đề xuất từ những năm 60, các ứng dụng công nghệ thông

tin đã thực sự biến việc lưu trữ dữ liệu trở thành lưu trữ thông tin thông qua các công

cụ quản lý và xử lý cơ sở dữ liệu. Ngày nay, nhu cầu lưu trữ và xử lý thông tin có

mặt ở khắp mọi nơi. Ở bất cứ một tổ chức nào, với bất kỳ một mô hình hay quy mô

nào cũng đều có những nhu cầu về lưu trữ và khai thác thông tin. Khái niệm thông tin

ở đây bao gồm cả thông tin về nội tại của tổ chức và thông tin về môi trường và tổ

chức hoạt động.

Việc nghiên cứu lý thuyết về cơ sở dữ liêu đã trở thành một ngành khoa học ứng

dụng. Do những tiến bộ vượt bậc trong nghiên cứu lý thuyết cũng như cài đặt thực tế,

các hệ quản trị cơ sở dữ liệu đã trở thành nền tảng, là phần cốt yếu trong hoạt động

của các tổ chức. Nhờ chúng mà các tổ chức hoạt động hiệu quả hơn. Việc ứng dụng

cơ sở dữ liệu đã giúp làm giảm rất nhiều công sức lao động của con người và nhờ đó

hiệu suất lao động của họ cao hơn. Hệ quản trị cơ sở dữ liệu ngày nay không còn đơn

thuần chỉ là một cơ cấu cho phép lưu trữ số liệu mà còn kèm theo đó là các công cụ,

tiện ích hay các phương pháp luận để chuyển đổi số liệu thành thông tin. Tập tất cả

các công cụ do người dùng phát triển hoặc do các nhà cung cấp phần mềm tung ra để

phục vụ cho mục đích hoạt động của tổ chức, được tối ưu theo những yêu cầu nghiệp

vụ của tổ chức được gọi là các ứng dụng hỗ trợ xử lý tác nghiệp. Cao hơn nữa, khi

các nhu cầu sử dụng thông tin ở mức cao cấp hơn để hỗ trợ các nhu cầu phân tích của

các nhà lãnh đạo, các nhà lập chiến lược trong một tổ chức, một loại ứng dụng mới ra

đời phục vụ cho các mục đích này với tên gọi “hệ phân tích và xử lý trực tuyến”. Ở

các ứng dụng này, thông tin được lưu trữ, xử lý và kết xuất theo các mục đích cụ thể

dưới dạng hướng chủ đề. Nhờ các thông tin ở dạng này mà các phân tích, các nhà

lãnh có thể đưa ra các quyết định hoạt động một cách hiệu quả nhất.

Khi các mô hình dữ liệu phát triển ở mức độ cao hơn, các thông tin lưu trữ dưới dạng

dữ liệu phong phú đa dạng hơn, người ta nhận ra còn rất nhiều tri thức còn tiềm ẩn

trong dữ liệu mà các mức phân tích trước đó không phát hiện ra. Lý do của vấn đề

này là các phân tích trước đó chỉ mới hướng mục đích cụ thể của con người. Các mục

đích này là cố định và các phân tích này hoàn toàn do con người đưa ra trong hoàn

cảnh cụ thể. Khi các thông tin phản ánh môi trường thay đổi thì con người không

nhận ra để điều chỉnh các phân tích và đưa ra các phân tích mới. Các tri thức đó có

thể là hướng kinh doanh, các dự báo thị trường, cũng có thể là mối quan hệ giữa các

trường hay nội dung dữ liệu... mà con người không hình dung ra được khi tiến hành

mô hình hoá các hệ thống. Vì thế, ngành nghiên cứu về Phát hiện tri thức trong cơ sở

dữ liệu (Knowledge Discovery in Database) ra đời với bài toán Khai phá dữ liệu

(DataMining) làm trung tâm nghiên cứu. Các tư tưởng nghiên cứu và các thuật toán

về Trí tuệ nhân tạo và Hệ chuyên gia đã được áp dụng và thu được những kết quả rất

quan trọng như: cây quyết định, mạng nơ-ron...

Hầu hết các thuật toán nghiên cứu cho DataMining là tập trung trên các nguồn số liệu

có cấu trúc (structured data). Nhưng phần lớn thông tin mà chúng ta lưu trữ và trao

đổi hằng ngày lại được lưu trữ dưới các dạng dữ liệu bán cấu trúc (semi-structured

data) hoặc phi cấu trúc (non-structured data). Ví dụ như trong các nhà xuất bản, hệ

thống các trang web trên một website, tập các công văn, giấy tờ, báo cáo, thư tín điện

tử trong một công ty. Thậm chí ta có thể nhận thấy rằng trong một hệ quản trị cơ sở

dữ liệu (nơi mà dữ liệu được lưu trữ có cấu trúc) thì dữ liệu kiểu text vẫn chiếm một

tỷ lệ cao. Do đó một vấn đề đặt ra là làm thế nào để có thể tìm kiếm và khai thác tri

thức từ nguồn dữ liệu như vậy. Các kỹ thuật để giải quyết vấn đề này được gọi là kỹ

thuật "TextMining" hay Khai phá dữ liệu văn bản. Bài toán Khai phá dữ liệu văn bản

không chỉ tập trung vào một hay một nhóm các thông tin được lưu trữ dưới dạng văn

bản, vấn đề đặt ra là làm thế nào có thể Khai phá được các thông tin theo lịch sử, từ

quá khứ hướng dự đoán tương lai. Những tri thức tưởng trừng như vô ích trong quá

khứ nhưng có thể được phát hiện để sử dụng cho các mục đích sau này.

Một số bài toán quan trọng trong Khai phá dữ liệu văn bản hay được xét đến như là

các bài toán “Text Classification”, “Text Sumarization”, và “Text Categorization”.

Trên thế giới đã có rất nhiều thành công trong đề tài phân lớp văn bản như các nghiên

cứu của hãng IBM, trong các phòng thí nghiệm ở MIT hay ở các viện nghiên cứu của

các trường đại học ở Mỹ, Pháp, Nhật Bản, Canada. Tuy nhiên, các thành công đó chủ

yếu tập trung vào vấn đề nghiên cứu về các văn bản tiếng Anh, tiếng Pháp. Những

ngôn ngữ này là các ngôn ngữ tương đối thuận lợi khi xử lý.

Hiện nay, chưa có một công cụ nào được coi là hiệu quả trong lĩnh vực khai phá văn

bản tiếng Việt. Nền Công nghệ thông tin của nước ta được phát triển hết sức mạnh

mẽ. Do nhu cầu hội nhập, nhu cầu phát triển kinh tế, văn hoá, Xã hội ngày càng tăng,

các thông tin được xử lý thông qua văn bản điện tử, qua web, qua email phát triển với

tốc độ chóng mặt. Từ đó, nhu cầu nghiên cứu và xây dựng các công cụ Khai phá dữ

liệu văn bản tiếng Việt đang được hết sức coi trọng.

Trong đề tài thực tập này, em xin trình bày các nghiên cứu tổng quan của em về: Text

Mining và các ứng dụng của nó về thu thập thông tin từ dữ liệu văn bản và phân loại

dữ liệu văn bản. Mục đích của đề tài là hướng tới phát triển các công cụ phân loại

văn bản tiếng Việt ở các nghiên cứu sau trong đề tài luận văn tốt nghiệp.

I. Đặt vấn đề

Như chúng ta đã biết, hầu hết các thông tin được trao đổi hiện nay nằm dưới dạng tài

liệu văn bản. Các thông tin đó có thể là các bài báo, các tài liệu kinh doanh, các thông

tin kinh tế, các bài nghiên cứu khoa học. Dù áp dụng Cơ sở dữ liệu vào trong hoạt

động của tổ chức là rất phổ biến và đem lại nhiều lợi ích khi lưu trữ và xử lý, nhưng

ta không thể quên được rằng còn rất nhiều dạng thông tin khác được lưu trữ dưới

dạng văn bản. Thậm chí ngay cả trong các thông tin được lưu trong các cơ sở dữ liệu

thì phần lớn trong số chúng cũng được tổ chức dưới dạng văn bản. Hiện nay, các tổ

chức đã áp dụng công nghệ thông tin vào quản lý hệ thống công văn giấy tờ, ví dụ

các hệ thống sử dụng Lotus Node. Tuy nhiên đó chỉ thực sự là cách quản lý luồng dữ

liệu văn bản, cung cấp các công cụ kho chứa, còn dữ liệu vẫn thực sự nằm dưới dạng

văn bản. Chúng ta chưa có các giải thuật phân loại, tìm kiếm tài liệu, các công cụ

trích lọc thông tin nhằm mục đích thống kê, phát hiện tri thức, ra quyết định trực tiếp

trên các nguồn dữ liệu kiểu này.

Với thực tế đó, vấn đề đặt ra là làm thế nào chúng ta có thể khai thác được những

thông tin hữu ích từ các nguồn tài liệu văn bản nói chung. Các nguồn dữ liệu này

phải được xử lý như thế nào để người dùng có thể có những công cụ tự động hoá trợ

giúp trong việc phát hiện tri thức và khai thác thông tin. Rõ ràng, chúng ta phải hiểu

rõ bản chất của dữ liệu văn bản, hiểu rõ các đặc trưng của các dữ liệu loại này để có

thể có được những phương pháp luận cần thiết.

Việc khai thác thông tin từ các nguồn dữ liệu văn bản trong các tổ chức Việt Nam

chắc chắn phải dựa vào những kết quả nghiên cứu về văn bản nói chung, về dữ liệu

văn bản và các kỹ thuật xử lý đã được phát triển trên thế giới. Tuy nhiên, những văn

bản tiếng Việt lại có những đặc trưng riêng của nó. Ta có thể nhận thấy được ngay sự

khác biệt về mặt kí pháp, cú pháp và ngữ pháp tiếng Việt trong các văn bản so với

các ngôn ngữ phổ biến trên thế giới như tiếng Anh, tiếng Pháp. Vậy thì những đặc

trưng này ảnh hưởng thế nào đến các kỹ thuật khai phá dữ liệu văn bản, ta cần phải

có những ký thuật mới nào để có thể tận dụng được những ưu thế của tiếng Việt cũng

như giải quyết được những phức tạp trong tiếng Việt.

Để trả lời được những câu hỏi này, đồ án sẽ đi từ những bước nghiên cứu về Khai

phá dữ liệu văn bản, tìm hiểu những đặc trưng của tiếng Việt, từ đó đề ra phương

hướng giúp giải quyết bài toán phân loại văn bản tiếng Việt phức tạp ở các nghiên

cứu cao hơn. Các kết quả của nghiên cứu trong đề tài thực tập này sẽ là nhưng bước

tiến đầu tiên cho luận văn tốt nghiệp của em với đề tài “Phân loại văn bản tiếng Việt

bằng phương pháp phân tích cú pháp.”

Tải ngay đi em, còn do dự, trời tối mất!