Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Phân loại tin tức Tiếng Việt dựa trên mô hình tập thô dung sai
Nội dung xem thử
Mô tả chi tiết
1
PHÂN LOẠI TIN TỨC TIẾNG VIỆT DỰA TRÊN
MÔ HÌNH TẬP THÔ DUNG SAI
Trần Ngọc Hà
Trường ðại học Sư phạm – ðH Thái Nguyên
TÓM TẮT
Những năm gần ñây chúng ta ñã thấy một sự gia tăng nhanh chóng của số lượng văn bản
trên Internet. Phân loại văn bản tự ñộng là nhiệm vụ quan trọng có thể giúp cho cả việc tổ chức
cũng như tìm kiếm thông tin trong nguồn tài nguyên thông tin khổng lồ này. Các phương pháp
phân loại văn bản hiện nay gặp phải thách thức bởi số lượng tài liệu huấn luyện và dữ liệu cần
gán nhãn lớn. Tiếng Việt có ñặc thù riêng, nên việc phân loại văn bản tiếng Việt còn gặp một khó
khăn khác là phải tách từ chính xác khi biểu diễn các tài liệu. Trong báo cáo này, chúng tôi ñề
xuất một phương pháp phân loại văn bản một cách tự ñộng hoạt ñộng tốt trên các văn bản tiếng
Việt có thể áp dụng vào xây dựng các hệ thống tồng hợp tin tức tiếng Việt. Phương pháp của
chúng tôi sử dụng các thuật toán tách từ tiếng Việt ñể biểu diễn văn bản và áp dụng mô hình tập
thô dung sai vào thuật toán phân loại văn bản Centroid – based ñể nâng cao chất lượng phân loại.
Từ khóa: phân loại văn bản, tập thô dung sai, trọng tâm, ñồng xuất hiện, thu thập tin tức.
1. GIỚI THIỆU
Báo ñiện tử tổng hợp là một dạng
website tin tức mà nguồn tin ñược tổng hợp
tự ñộng từ các báo ñiện tử khác. Báo ñiện tử
tổng hợp giúp cho người ñọc có thể theo dõi
các thông tin một cách ñầy ñủ nhất mà
không cần phải ghé thăm các trang báo ñiện
tử khác, do vậy giúp người ñọc tiết kiệm
ñược thời gian và không phải ñọc các tin
trùng lặp ñược ñăng tải trên các báo ñiện tử
khác nhau.
Mỗi trang báo ñiện tử tổng hợp có thể
có các chức năng, cũng như cách thể hiện
khác nhau ñối với người ñọc. Tuy nhiên một
ứng dụng ñọc báo tổng hợp ñều có các thành
phần cơ bản sau:
- Trình thu thập tin tức: là thành
phần có nhiệm vụ thu thập tin bài từ các
trang báo ñiện tử khác một cách tự ñộng.
- Lưu trữ tài liệu: Các ứng dụng
tổng hợp tin tức thường lưu trữ tiêu ñề,
URL, ảnh ñại diện và phần tóm tắt của các
bài viết gốc. Một số trang báo ñiện tử tổng
hợp còn lưu cả nội dung bài viết.
- Bộ phân loại tin tức: ðây là một
bộ phận quan trọng, có chức năng tự ñộng
phân loại tin theo các chủ ñề trên hệ thống.
- Giao diện sử dụng: là thành phần
tương tác trực tiếp của hệ thống với người
sử dụng.
Khi xây dựng hệ thống, khó khăn lớn
nhất là xây dựng chức năng phân loại tin tức
tự ñộng, ñặc biệt là ñối với các tin tức tiếng
Việt. Phân loại tin tức tiếng Việt gặp phải
một số khó khăn sau:
- Chủ ñề tin tức trên các báo ñiện tử là
không ñồng nhất.
- Ngôn ngữ tiếng Việt có những ñặc
thù riêng ñòi hỏi phải có những phương
pháp xử lý riêng ñể ñảm bảo việc phân loại
tin tức là chính xác và mềm dẻo.
- Tin tức tổng hợp phải luôn mới, vì
vậy việc thu thập và phân loại tin tức phải
thực hiện nhanh ñể ñảm bảo tin tức là luôn
mới ñối với người ñọc.
ðể giải quyết ñược các khó khăn trên,
trong báo cáo này chúng tôi áp dụng mô
hình tập thô dung sai làm tăng chất lượng
biểu diễn tài liệu, từ ñó giúp phát hiện mối
quan hệ về mặt ngữ nghĩa tiềm ẩn giữa các
tài liệu giúp phân loại chính xác hơn. Các
thuật toán tách từ tiếng Việt cũng ñược áp
dụng ñể ñảm bảo việc tách từ là chính xác.
2. BÀI TOÁN PHÂN LOẠI TIN TỨC
VÀ MÔ HÌNH TẬP THÔ DUNG SAI
Phân loại văn bản tự ñộng là việc gán
các nhãn phân loại lên một văn bản mới dựa
trên mức ñộ tương tự của văn bản ñó so với
các văn bản ñã ñược gán nhãn trong tập
huấn luyện.
Một số phương pháp phân loại văn
bản thông dụng hiện nay là: Support Vector