Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi
Nội dung xem thử
Mô tả chi tiết
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM
TÔ TRẦN VÂN THẢO
NGHIÊN CỨU PHƯƠNG PHÁP HỌC MÁY
CÓ GIÁM SÁT ĐỂ PHÂN LOẠI VĂN BẢN TẠI
VĂN PHÒNG TỈNH QUẢNG NGÃI
Chuyên ngành: HỆ THỐNG THÔNG TIN
Mã số: 848 01 04
TÓM TẮT LUẬN VĂN THẠC SĨ
HỆ THỐNG THÔNG TIN
Đà Nẵng – Năm 2019
Công trình được hoàn thành tại
TRƯỜNG ĐẠI HỌC SƯ PHẠM
Người hướng dẫn khoa học: TS. NGUYỄN THỊ NGỌC ANH
Phản biện 1:
PGS. TSKH. TRẦN QUỐC CHIẾN
Phản biện 2: .
GS.TS. NGUYỄN THANH THỦY
Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ
Hệ thống thông tin họp tại Trường Đại học Sư phạm – ĐHĐN vào
ngày 7 tháng 4 năm 2019.
Có thể tìm hiểu luận văn tại:
- Thư viện Trường Đại học Sư phạm Đà Nẵng, Đại học Đà Nẵng.
- Trung tâm thông tin học liệu, Đại học Đà Nẵng.
1
MỞ ĐẦU
1. Lý do chọn đề tài
Tại Văn phòng tỉnh Quảng Ngãi theo thống kê số lượng văn
bản hành chính được ban hành mỗi năm khoảng 10 nghìn văn bản
các loại chưa tính các loại văn bản đến đơn vị. Hạ tầng công nghệ
thông tin tại Văn phòng được đầu tư từ năm 2001 theo Đề án Tin học
hóa quản lý hành chính nhà nước của Chính phủ. Đến nay, CSDL
văn bản được lưu giữ trên 30 triệu dữ liệu. Theo Nghị định Chính
phủ yêu cầu cung cấp thông tin trực tuyến trên Cổng thông tin điện tử
của các tỉnh, Văn phòng chỉ mới cung cấp CSDL văn bản từ năm
2010, việc phân loại các văn bản vào các nhóm chỉ dừng ở mức độ
theo loại văn bản chưa phân loại được theo các lĩnh vực, để thuận lợi
cho việc tra cứu, sắp xếp, lưu trữ…Do vậy, cần phải có hệ thống xử
lý văn bản hiệu quả và phương pháp học máy để tận dụng được các
nguồn dữ liệu văn bản chưa được phân loại tại Văn phòng. Nhận thấy
đây là lĩnh vực mang tính khoa học cao, ứng dụng rất nhiều trong các
bài toán thực tế.
Với những vấn đề nêu trên tôi chọn đề tài “Nghiên cứu
phương pháp học máy để phân loại văn bản tại Văn phòng tỉnh
Quảng Ngãi” làm chủ đề nghiên cứu tại luận văn này.
2. Mục đích nghiên cứu
Nghiên cứu kỹ thuật học máy và một số giải thuật thường sử
dụng trong học máy, ứng dụng kỹ thuật học.
3. Mục tiêu nghiên cứu
- Nghiên cứu kỹ thuật xử lý ngôn ngữ tiếng Việt.
- Xây dựng kho dữ liệu huấn luyện để ứng dụng vào bài toán
phân loại văn bản.
2
- Ứng dụng kỹ thuật học máy vào bài toán phân loại văn bản
tại Văn phòng tỉnh Quảng Ngãi.
4. Đối tượng và phạm vi nghiên cứu
Trong khuôn khổ luận văn thuộc loại nghiên cứu và ứng dụng,
đề tài chỉ giới hạn nghiên cứu các vấn đề sau:
- Các vấn đề liên quan đến học máy.
- Các tài liệu, văn bản dạng text chuẩn tiếng Việt không có
hình ảnh hoặc âm thanh.
- Nghiên cứu phương pháp học để giải quyết bài toán phân loại
văn bản theo các chủ đề như: Xây dựng, Giao thông, Văn hóa xã hội,
Công nghệ thông tin, Hành chính, Nông nghiệp, Nội chính…
5. Phương pháp nghiên cứu
5.1. Phương pháp lý thuyết
- Thu thập và nghiên cứu tài liệu có liên quan.
- Nghiên cứu kỹ thuật học có giám sát.
- Nghiên cứu lý thuyết về xử lý ngôn ngữ tự nhiên.
- Biểu đạt kết quả.
5.2. Phương pháp thực nghiệm
- Xây dựng kho dữ liệu huấn luyện.
- Xây dựng quy trình phân loại văn bản.
- Ứng dụng quy trình phân loại văn bản vào mô hình thực tế
phân loại văn bản tại Văn phòng tỉnh Quảng Ngãi.
6. Ý nghĩa khoa học và thực tiễn của luận văn
6.1. Ý nghĩa khoa học
- Nắm vững các vấn đề về lĩnh vực thống kê, xác suất và học
máy áp dụng vào bài toán phân loại văn bản.
- Nắm vững và vận dụng lý thuyết kỹ thuật học có giám sát,
lý thuyết phân lớp, một số thuật toán phân loại văn bản để vận dụng
3
vào thực tiễn.
- Hiểu được lý thuyết về xử lý ngôn ngữ tự nhiên.
- Nhìn nhận được mức độ đóng góp của các tác giả so với các
phương pháp trước đây; ý nghĩa đóng góp về mặt học thuật có tính
phát minh.
6.2. Ý nghĩa thực tiễn
- Trong thực tiễn đời sống hằng ngày, thông tin quanh ta là
rất nhiều. Biến thông tin thành tri thức để phục vụ con người là khát
vọng không chỉ riêng đối với các nhà khoa học.
- Đưa phương pháp học máy có giám sát vào bài toán phân loại
văn bản tại Văn phòng tỉnh Quảng Ngãi.
7. Nội dung luận văn
Luận văn gồm 3 chương chính:
Chương 1: Nghiên cứu tổng quan
Chương 2: Khái quát mô hình học máy Support Vector
Machines (SVM) Chương 3: Xây dựng chương trình thử
nghiệm trong bài toán học máy có giám sát để phân loại văn
bản tại văn phòng tỉnh.
Cuối cùng là những kết luận, định hướng nghiên cứu và phát
triển của luận văn.
4
CHƯƠNG 1
NGHIÊN CỨU TỔNG QUAN
1.1. TỔNG QUAN VỀ HỌC MÁY
Học máy (Machine Learning - ML) [17]là một ngành khoa học
nghiên cứu các thuật toán cho phép máy tính có thể học được các
khái niệm (concept). Có hai loại phương pháp học máy chính:
- Phương pháp quy nạp: là phương pháp máy học dựa trên dữ
liệu đã thu thập được trước đó. Phương pháp này cho phép tận dụng
được nguồn dữ liệu rất nhiều và sẵn có.
- Phương pháp suy diễn: là phương pháp dựa vào các luật.
Phương pháp này cho phép tận dụng được các kiến thức chuyên
ngành để hỗ trợ máy tính.
Hiện nay, các thuật toán đều cố gắng tận dụng được các ưu
điểm của hai phương pháp này.
1.1.1. Khái niệm về học máy
Học máy (ML) là một lĩnh vực của trí tuệ nhân tạo liên quan
đến việc nghiên cứu và xây dựng các kỹ thuật cho phép các hệ thống
có thể “học” tự động từ dữ liệu để giải quyết những vấn đề cụ thể.
Học máy là tạo ra các phương pháp và chương trình để cho máy tính
có thể giải quyết các vấn đề giống như con người. Ví dụ làm như thế
nào các hệ thống máy tính có thể “học” cách phân loại văn bản vào
những lĩnh vực tương ứng đã cho trước.
1.1.2. Phân loại phương pháp học máy
1.1.2.1. Học có giám sát (supervised learning)
Để giải quyết một bài toán nào đó của học có giám sát, người ta phải
xem xét nhiều bước khác nhau:
- Xác định loại của các ví dụ huấn luyện. Trước khi làm bất cứ
5
điều gì, người làm nhiệm vụ phân lớp nên quyết định loại dữ liệu nào
sẽ được sử dụng làm ví dụ. Chẳng hạn đó có thể là một ký tự viết tay
đơn lẻ, toàn tập một từ viết tay, hay toàn tập một dòng chữ viết tay.
- Thu thập tập huấn luyện. Tập huấn luyện cần đặc trưng cho
thực tế sử dụng của hàm chức năng. Vì thế, một tập các đối tượng
đầu vào được thu thập và đầu ra tương ứng được thu thập, hoặc từ
các chuyên gia hoặc từ việc đo đạc tính toán.
- Xác định việc biểu diễn các đặc trưng đầu vào cho hàm chức
năng cần tìm. Sự chính xác của hàm chức năng phụ thuộc lớn vào
cách các đối tượng đầu vào được biểu diễn. Thông thường, đối tượng
đầu vào được chuyển đổi thành một vector đặc trưng, chứa một số
các đặc trưng nhằm mô tả cho đối tượng đó. Số lượng các đặc trưng
không nên quá lớn, do sự bùng nổ tổ hợp (curse of dimensionality),
nhưng phải đủ lớn để dự đoán chính xác đầu ra.
Một số thuật toán điển hình:
Thuật toán K láng giềng
Mô hình xác suất Naive Bayes
Phương pháp Support Vector Machines
1.1.2.2. Học không có giám sát (unsupervised learning)
1.1.2.3. Học bán giám sát (semi-supervised learning)
1.1.2.4. Học tăng cường (reinforcement learning)
1.1.3. Các ứng dụng của học máy
1.2. TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU
1.2.1. Giới thiệu về phân lớp
Bài toán phân lớp [9]là quá trình phân lớp một đối tượng dữ
liệu vào một hay nhiều lớp đã cho trước nhờ một mô hình phân lớp
(model). Mô hình này được xây dựng dựa trên một tập dữ liệu được
xây dựng trước đó có gán nhãn (hay còn gọi là tập huấn luyện). Quá
6
trình phân lớp là quá trình gán nhãn cho đối tượng dữ liệu. Như vậy,
nhiệm vụ của bài toán phân lớp là cần tìm một mô hình phần lớp để
khi có dữ liệu mới thì có thể xác định được dữ liệu đó thuộc vào phân
lớp nào.
1.2.2. Các loại phân lớp dữ liệu
1.2.2.1. Phân lớp dữ liệu nhị phân
1.2.2.2. Phân lớp dữ liệu đa lớp
1.2.2.3 Phân lớp dữ liệu đơn trị
1.2.2.4 Phân lớp dữ liệu đa trị
1.3. PHÂN LỚP VĂN BẢN
Trong những năm gần đây việc đẩy mạnh ứng dụng công nghệ
thông tin trong quản lý hành chính nhà nước đã tạo ra một khối lượng
dữ liệu khổng lồ. Nên việc tự động phân lớp văn bản là một nhiệm vụ
rất quan trọng giúp ích cho đơn vị tổ chức, lưu trữ, tìm kiếm thông tin
trên nguồn tài nguyên lớn này.
1.3.1. Khái niệm
Phân lớp văn bản (Text Categorization)[2, 3, 10, 13] là việc
phân lớp áp dụng đối với dữ liệu văn bản, tức là phân lớp một văn
bản vào một hay nhiều lớp văn bản nhờ một mô hình phân lớp; mô
hình này được xây dựng dựa trên một tập hợp các văn bản đã được
gán nhãn từ trước.
7
CHƯƠNG 2
KHÁI QUAT MÔ HÌNH HỌC MÁY SUPPORT VECTOR
MACHINES (SVM)
Trong chương này, luận văn trình bày phương pháp phân loại
văn bản tiếng Việt dựa trên mô hình Support Vector Machines, từ
cách tách từ, chọn từ phân loại, biểu diễn vector hóa văn bản, phương
pháp xây dựng mô hình phân lớp. Trước tiên để tiến đến việc phân
loại văn bản tiếng Việt trong văn bản hành chính ta cần phải tìm hiểu
một số khái niệm về tiếng Việt và văn phong sử dụng trong văn bản
hành chính. Những khái niệm đó sẽ được trình bày dưới đây.
2.1. NGÔN NGỮ TIẾNG VIỆT
Tiếng Việt thuộc ngôn ngữ đơn lập, tức là mỗi một tiếng (âm
tiết) được phát âm tách rời nhau và được thể hiện bằng một chữ viết.
Đặc điểm này thể hiện rõ rệt ở tất cả các mặt ngữ âm, từ vựng, ngữ
pháp.
Đặc điểm ngữ âm: Trong tiếng Việt có một loại đơn vị đặc biệt
gọi là "tiếng". Về mặt ngữ âm, mỗi tiếng là một âm tiết. Hệ thống âm
vị tiếng Việt phong phú và có tính cân đối, tạo ra tiềm năng của ngữ
âm tiếng Việt trong việc thể hiện các đơn vị có nghĩa. Nhiều từ tượng
hình, tượng thanh có giá trị gợi tả đặc sắc. Khi tạo câu, tạo lời, người
Việt rất chú ý đến sự hài hòa về ngữ âm, đến nhạc điệu của câu văn.
Đặc điểm từ vựng: Mỗi tiếng, nói chung, là một yếu tố có
nghĩa. Tiếng là đơn vị cơ sở của hệ thống các đơn vị có nghĩa của
tiếng Việt. Từ tiếng, người ta tạo ra các đơn vị từ vựng khác để định
danh sự vật, hiện tượng..., chủ yếu nhờ phương thức ghép và phương
thức láy.
Vốn từ vựng tối thiểu của tiếng Việt phần lớn là các từ đơn tiết
8
(một âm tiết, một tiếng). Sự linh hoạt trong sử dụng, việc tạo ra các
từ ngữ mới một cách dễ dàng đã tạo điều kiện thuận lợi cho sự phát
triển vốn từ, vừa phong phú về số lượng, vừa đa dạng trong hoạt
động. Cùng một sự vật, hiện tượng, một hoạt động hay một đặc
trưng, có thể có nhiều từ ngữ khác nhau biểu thị. Tiềm năng của vốn
từ ngữ tiếng Việt được phát huy cao độ trong các phong cách chức
năng ngôn ngữ, đặc biệt là trong phong cách ngôn ngữ nghệ thuật.
Hiện nay, do sự phát triển vượt bậc của khoa học-kĩ thuật, đặc biệt là
công nghệ thông tin, thì tiềm năng đó còn được phát huy mạnh mẽ
hơn.
Đặc điểm ngữ pháp: Từ của tiếng Việt không biến đổi hình
thái. Đặc điểm này sẽ chi phối các đặc điểm ngữ pháp khác. Khi từ
kết hợp từ thành các kết cấu như ngữ, câu, tiếng Việt rất coi trọng
phương thức trật tự từ và hư từ.
Qua một số đặc điểm nổi bật vừa nêu trên đây, chúng ta có thể
hình dung được phần nào bản sắc và tiềm năng của tiếng Việt.
2.2. KHÁI NIỆM VỀ VĂN BẢN QUẢN LÝ NHÀ NƯỚC
2.2.1. Văn bản quản lý nhà nước
Văn bản quản lý nhà nước là những quyết định và thông tin
quản lý thành văn ( được văn bản hóa) do các cơ quan quản lý nhà
nước ban hành theo thẩm quyền, trình tự, thủ tục, hình thức nhất định
và được nhà nước đảm bảo thi hành bằng những hình thức khác nhau
nhằm điều chỉnh các mối quan hệ quản lý nội bộ nhà nước hoặc giữa
các cơ quan nhà nước với các tổ chức và công dân.
2.2.2. Văn bản quản lý hành chính nhà nước
Văn bản quản lý hành chính nhà nước là một bộ phận của văn
bản quản lý nhà nước, bao gồm những văn bản của các cơ quan nhà
nước (mà chủ yếu là các cơ quan hành chính nhà nước) dùng để đưa
9
ra các quyết định và chuyển tải các thông tin quản lý trong hoạt động
chấp hành và điều hành.
2.2.3. Phân loại văn bản quản lý nhà nước
Văn bản quản lý nhà nước được phân ra làm ba nhóm:
- Văn bản quy phạm pháp luật. Hệ thống văn bản quy phạm
pháp luật bao gồm các loại văn bản sau:
+ Hiến pháp, luật, nghị quyết của Quốc hội;…
- Văn bản hành chính. Văn bản hành chính được chia làm hai
loại: văn bản hành chính thông thường và văn bản hành chính cá biệt
bao gồm các loại văn bản sau:
+ Chỉ thị;
+ Quyết định;
+ Tờ trình…
- Văn bản chuyên môn – kỹ thuật. Đây là văn bản mang tính
đặc thù thuộc thẩm quyền ban hành của một số cơ quan nhà nước
nhất định theo quy định của pháp luật.
2.2.4. Ngôn ngữ trong văn bản hành chính
Văn bản hành chính phải mang tính chính xác, rõ ràng. Đây là
một đặc điểm quan trọng trong văn bản hành chính. Chính xác trong
cách dùng từ đặc câu phải đi đôi với tính minh bạch trong kết cấu văn
bản để đảm bảo tính xác định, tính đơn nghĩa của nội dung, chỉ cho
phép một cách hiểu, không gây hiểu lầm, câu cú phải ngắn gọn
không rườm rà.
2.3. BỘ PHÂN LOẠI SUPPORT VECTOR MACHINES (SVM)
Thuật toán vector hỗ trợ (Support Vector Machines - SVM)
được Corters và Vapnik giới thiệu vào năm 1995. SVM rất hiệu quả
để giải quyết các bài toán với dữ liệu có số chiều lớn như các vector
biểu diễn văn bản. Thuật toán SVM ban đầu chỉ được thiết kế để giải