Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Phân loại tin tức Tiếng Việt dựa trên mô hình tập thô dung sai
MIỄN PHÍ
Số trang
5
Kích thước
153.4 KB
Định dạng
PDF
Lượt xem
1681

Phân loại tin tức Tiếng Việt dựa trên mô hình tập thô dung sai

Nội dung xem thử

Mô tả chi tiết

1

PHÂN LOẠI TIN TỨC TIẾNG VIỆT DỰA TRÊN

MÔ HÌNH TẬP THÔ DUNG SAI

Trần Ngọc Hà

Trường ðại học Sư phạm – ðH Thái Nguyên

TÓM TẮT

Những năm gần ñây chúng ta ñã thấy một sự gia tăng nhanh chóng của số lượng văn bản

trên Internet. Phân loại văn bản tự ñộng là nhiệm vụ quan trọng có thể giúp cho cả việc tổ chức

cũng như tìm kiếm thông tin trong nguồn tài nguyên thông tin khổng lồ này. Các phương pháp

phân loại văn bản hiện nay gặp phải thách thức bởi số lượng tài liệu huấn luyện và dữ liệu cần

gán nhãn lớn. Tiếng Việt có ñặc thù riêng, nên việc phân loại văn bản tiếng Việt còn gặp một khó

khăn khác là phải tách từ chính xác khi biểu diễn các tài liệu. Trong báo cáo này, chúng tôi ñề

xuất một phương pháp phân loại văn bản một cách tự ñộng hoạt ñộng tốt trên các văn bản tiếng

Việt có thể áp dụng vào xây dựng các hệ thống tồng hợp tin tức tiếng Việt. Phương pháp của

chúng tôi sử dụng các thuật toán tách từ tiếng Việt ñể biểu diễn văn bản và áp dụng mô hình tập

thô dung sai vào thuật toán phân loại văn bản Centroid – based ñể nâng cao chất lượng phân loại.

Từ khóa: phân loại văn bản, tập thô dung sai, trọng tâm, ñồng xuất hiện, thu thập tin tức.

1. GIỚI THIỆU

Báo ñiện tử tổng hợp là một dạng

website tin tức mà nguồn tin ñược tổng hợp

tự ñộng từ các báo ñiện tử khác. Báo ñiện tử

tổng hợp giúp cho người ñọc có thể theo dõi

các thông tin một cách ñầy ñủ nhất mà

không cần phải ghé thăm các trang báo ñiện

tử khác, do vậy giúp người ñọc tiết kiệm

ñược thời gian và không phải ñọc các tin

trùng lặp ñược ñăng tải trên các báo ñiện tử

khác nhau.

Mỗi trang báo ñiện tử tổng hợp có thể

có các chức năng, cũng như cách thể hiện

khác nhau ñối với người ñọc. Tuy nhiên một

ứng dụng ñọc báo tổng hợp ñều có các thành

phần cơ bản sau:

- Trình thu thập tin tức: là thành

phần có nhiệm vụ thu thập tin bài từ các

trang báo ñiện tử khác một cách tự ñộng.

- Lưu trữ tài liệu: Các ứng dụng

tổng hợp tin tức thường lưu trữ tiêu ñề,

URL, ảnh ñại diện và phần tóm tắt của các

bài viết gốc. Một số trang báo ñiện tử tổng

hợp còn lưu cả nội dung bài viết.

- Bộ phân loại tin tức: ðây là một

bộ phận quan trọng, có chức năng tự ñộng

phân loại tin theo các chủ ñề trên hệ thống.

- Giao diện sử dụng: là thành phần

tương tác trực tiếp của hệ thống với người

sử dụng.

Khi xây dựng hệ thống, khó khăn lớn

nhất là xây dựng chức năng phân loại tin tức

tự ñộng, ñặc biệt là ñối với các tin tức tiếng

Việt. Phân loại tin tức tiếng Việt gặp phải

một số khó khăn sau:

- Chủ ñề tin tức trên các báo ñiện tử là

không ñồng nhất.

- Ngôn ngữ tiếng Việt có những ñặc

thù riêng ñòi hỏi phải có những phương

pháp xử lý riêng ñể ñảm bảo việc phân loại

tin tức là chính xác và mềm dẻo.

- Tin tức tổng hợp phải luôn mới, vì

vậy việc thu thập và phân loại tin tức phải

thực hiện nhanh ñể ñảm bảo tin tức là luôn

mới ñối với người ñọc.

ðể giải quyết ñược các khó khăn trên,

trong báo cáo này chúng tôi áp dụng mô

hình tập thô dung sai làm tăng chất lượng

biểu diễn tài liệu, từ ñó giúp phát hiện mối

quan hệ về mặt ngữ nghĩa tiềm ẩn giữa các

tài liệu giúp phân loại chính xác hơn. Các

thuật toán tách từ tiếng Việt cũng ñược áp

dụng ñể ñảm bảo việc tách từ là chính xác.

2. BÀI TOÁN PHÂN LOẠI TIN TỨC

VÀ MÔ HÌNH TẬP THÔ DUNG SAI

Phân loại văn bản tự ñộng là việc gán

các nhãn phân loại lên một văn bản mới dựa

trên mức ñộ tương tự của văn bản ñó so với

các văn bản ñã ñược gán nhãn trong tập

huấn luyện.

Một số phương pháp phân loại văn

bản thông dụng hiện nay là: Support Vector

Tải ngay đi em, còn do dự, trời tối mất!