Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi
PREMIUM
Số trang
117
Kích thước
14.4 MB
Định dạng
PDF
Lượt xem
1851

Nghiên cứu phương pháp học máy có giám sát để phân loại văn bản tại văn phòng tỉnh quảng ngãi

Nội dung xem thử

Mô tả chi tiết

ĐẠI HỌC ĐÀ NẴNG

TRƯỜNG ĐẠI HỌC SƯ PHẠM

TÔ TRẦN VÂN THẢO

NGHIÊN CỨU PHƯƠNG PHÁP HỌC MÁY

CÓ GIÁM SÁT ĐỂ PHÂN LOẠI VĂN BẢN TẠI

VĂN PHÒNG TỈNH QUẢNG NGÃI

Chuyên ngành: HỆ THỐNG THÔNG TIN

Mã số: 848 01 04

TÓM TẮT LUẬN VĂN THẠC SĨ

HỆ THỐNG THÔNG TIN

Đà Nẵng – Năm 2019

Công trình được hoàn thành tại

TRƯỜNG ĐẠI HỌC SƯ PHẠM

Người hướng dẫn khoa học: TS. NGUYỄN THỊ NGỌC ANH

Phản biện 1:

PGS. TSKH. TRẦN QUỐC CHIẾN

Phản biện 2: .

GS.TS. NGUYỄN THANH THỦY

Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ

Hệ thống thông tin họp tại Trường Đại học Sư phạm – ĐHĐN vào

ngày 7 tháng 4 năm 2019.

Có thể tìm hiểu luận văn tại:

- Thư viện Trường Đại học Sư phạm Đà Nẵng, Đại học Đà Nẵng.

- Trung tâm thông tin học liệu, Đại học Đà Nẵng.

1

MỞ ĐẦU

1. Lý do chọn đề tài

Tại Văn phòng tỉnh Quảng Ngãi theo thống kê số lượng văn

bản hành chính được ban hành mỗi năm khoảng 10 nghìn văn bản

các loại chưa tính các loại văn bản đến đơn vị. Hạ tầng công nghệ

thông tin tại Văn phòng được đầu tư từ năm 2001 theo Đề án Tin học

hóa quản lý hành chính nhà nước của Chính phủ. Đến nay, CSDL

văn bản được lưu giữ trên 30 triệu dữ liệu. Theo Nghị định Chính

phủ yêu cầu cung cấp thông tin trực tuyến trên Cổng thông tin điện tử

của các tỉnh, Văn phòng chỉ mới cung cấp CSDL văn bản từ năm

2010, việc phân loại các văn bản vào các nhóm chỉ dừng ở mức độ

theo loại văn bản chưa phân loại được theo các lĩnh vực, để thuận lợi

cho việc tra cứu, sắp xếp, lưu trữ…Do vậy, cần phải có hệ thống xử

lý văn bản hiệu quả và phương pháp học máy để tận dụng được các

nguồn dữ liệu văn bản chưa được phân loại tại Văn phòng. Nhận thấy

đây là lĩnh vực mang tính khoa học cao, ứng dụng rất nhiều trong các

bài toán thực tế.

Với những vấn đề nêu trên tôi chọn đề tài “Nghiên cứu

phương pháp học máy để phân loại văn bản tại Văn phòng tỉnh

Quảng Ngãi” làm chủ đề nghiên cứu tại luận văn này.

2. Mục đích nghiên cứu

Nghiên cứu kỹ thuật học máy và một số giải thuật thường sử

dụng trong học máy, ứng dụng kỹ thuật học.

3. Mục tiêu nghiên cứu

- Nghiên cứu kỹ thuật xử lý ngôn ngữ tiếng Việt.

- Xây dựng kho dữ liệu huấn luyện để ứng dụng vào bài toán

phân loại văn bản.

2

- Ứng dụng kỹ thuật học máy vào bài toán phân loại văn bản

tại Văn phòng tỉnh Quảng Ngãi.

4. Đối tượng và phạm vi nghiên cứu

Trong khuôn khổ luận văn thuộc loại nghiên cứu và ứng dụng,

đề tài chỉ giới hạn nghiên cứu các vấn đề sau:

- Các vấn đề liên quan đến học máy.

- Các tài liệu, văn bản dạng text chuẩn tiếng Việt không có

hình ảnh hoặc âm thanh.

- Nghiên cứu phương pháp học để giải quyết bài toán phân loại

văn bản theo các chủ đề như: Xây dựng, Giao thông, Văn hóa xã hội,

Công nghệ thông tin, Hành chính, Nông nghiệp, Nội chính…

5. Phương pháp nghiên cứu

5.1. Phương pháp lý thuyết

- Thu thập và nghiên cứu tài liệu có liên quan.

- Nghiên cứu kỹ thuật học có giám sát.

- Nghiên cứu lý thuyết về xử lý ngôn ngữ tự nhiên.

- Biểu đạt kết quả.

5.2. Phương pháp thực nghiệm

- Xây dựng kho dữ liệu huấn luyện.

- Xây dựng quy trình phân loại văn bản.

- Ứng dụng quy trình phân loại văn bản vào mô hình thực tế

phân loại văn bản tại Văn phòng tỉnh Quảng Ngãi.

6. Ý nghĩa khoa học và thực tiễn của luận văn

6.1. Ý nghĩa khoa học

- Nắm vững các vấn đề về lĩnh vực thống kê, xác suất và học

máy áp dụng vào bài toán phân loại văn bản.

- Nắm vững và vận dụng lý thuyết kỹ thuật học có giám sát,

lý thuyết phân lớp, một số thuật toán phân loại văn bản để vận dụng

3

vào thực tiễn.

- Hiểu được lý thuyết về xử lý ngôn ngữ tự nhiên.

- Nhìn nhận được mức độ đóng góp của các tác giả so với các

phương pháp trước đây; ý nghĩa đóng góp về mặt học thuật có tính

phát minh.

6.2. Ý nghĩa thực tiễn

- Trong thực tiễn đời sống hằng ngày, thông tin quanh ta là

rất nhiều. Biến thông tin thành tri thức để phục vụ con người là khát

vọng không chỉ riêng đối với các nhà khoa học.

- Đưa phương pháp học máy có giám sát vào bài toán phân loại

văn bản tại Văn phòng tỉnh Quảng Ngãi.

7. Nội dung luận văn

Luận văn gồm 3 chương chính:

Chương 1: Nghiên cứu tổng quan

Chương 2: Khái quát mô hình học máy Support Vector

Machines (SVM) Chương 3: Xây dựng chương trình thử

nghiệm trong bài toán học máy có giám sát để phân loại văn

bản tại văn phòng tỉnh.

Cuối cùng là những kết luận, định hướng nghiên cứu và phát

triển của luận văn.

4

CHƯƠNG 1

NGHIÊN CỨU TỔNG QUAN

1.1. TỔNG QUAN VỀ HỌC MÁY

Học máy (Machine Learning - ML) [17]là một ngành khoa học

nghiên cứu các thuật toán cho phép máy tính có thể học được các

khái niệm (concept). Có hai loại phương pháp học máy chính:

- Phương pháp quy nạp: là phương pháp máy học dựa trên dữ

liệu đã thu thập được trước đó. Phương pháp này cho phép tận dụng

được nguồn dữ liệu rất nhiều và sẵn có.

- Phương pháp suy diễn: là phương pháp dựa vào các luật.

Phương pháp này cho phép tận dụng được các kiến thức chuyên

ngành để hỗ trợ máy tính.

Hiện nay, các thuật toán đều cố gắng tận dụng được các ưu

điểm của hai phương pháp này.

1.1.1. Khái niệm về học máy

Học máy (ML) là một lĩnh vực của trí tuệ nhân tạo liên quan

đến việc nghiên cứu và xây dựng các kỹ thuật cho phép các hệ thống

có thể “học” tự động từ dữ liệu để giải quyết những vấn đề cụ thể.

Học máy là tạo ra các phương pháp và chương trình để cho máy tính

có thể giải quyết các vấn đề giống như con người. Ví dụ làm như thế

nào các hệ thống máy tính có thể “học” cách phân loại văn bản vào

những lĩnh vực tương ứng đã cho trước.

1.1.2. Phân loại phương pháp học máy

1.1.2.1. Học có giám sát (supervised learning)

Để giải quyết một bài toán nào đó của học có giám sát, người ta phải

xem xét nhiều bước khác nhau:

- Xác định loại của các ví dụ huấn luyện. Trước khi làm bất cứ

5

điều gì, người làm nhiệm vụ phân lớp nên quyết định loại dữ liệu nào

sẽ được sử dụng làm ví dụ. Chẳng hạn đó có thể là một ký tự viết tay

đơn lẻ, toàn tập một từ viết tay, hay toàn tập một dòng chữ viết tay.

- Thu thập tập huấn luyện. Tập huấn luyện cần đặc trưng cho

thực tế sử dụng của hàm chức năng. Vì thế, một tập các đối tượng

đầu vào được thu thập và đầu ra tương ứng được thu thập, hoặc từ

các chuyên gia hoặc từ việc đo đạc tính toán.

- Xác định việc biểu diễn các đặc trưng đầu vào cho hàm chức

năng cần tìm. Sự chính xác của hàm chức năng phụ thuộc lớn vào

cách các đối tượng đầu vào được biểu diễn. Thông thường, đối tượng

đầu vào được chuyển đổi thành một vector đặc trưng, chứa một số

các đặc trưng nhằm mô tả cho đối tượng đó. Số lượng các đặc trưng

không nên quá lớn, do sự bùng nổ tổ hợp (curse of dimensionality),

nhưng phải đủ lớn để dự đoán chính xác đầu ra.

Một số thuật toán điển hình:

Thuật toán K láng giềng

Mô hình xác suất Naive Bayes

Phương pháp Support Vector Machines

1.1.2.2. Học không có giám sát (unsupervised learning)

1.1.2.3. Học bán giám sát (semi-supervised learning)

1.1.2.4. Học tăng cường (reinforcement learning)

1.1.3. Các ứng dụng của học máy

1.2. TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU

1.2.1. Giới thiệu về phân lớp

Bài toán phân lớp [9]là quá trình phân lớp một đối tượng dữ

liệu vào một hay nhiều lớp đã cho trước nhờ một mô hình phân lớp

(model). Mô hình này được xây dựng dựa trên một tập dữ liệu được

xây dựng trước đó có gán nhãn (hay còn gọi là tập huấn luyện). Quá

6

trình phân lớp là quá trình gán nhãn cho đối tượng dữ liệu. Như vậy,

nhiệm vụ của bài toán phân lớp là cần tìm một mô hình phần lớp để

khi có dữ liệu mới thì có thể xác định được dữ liệu đó thuộc vào phân

lớp nào.

1.2.2. Các loại phân lớp dữ liệu

1.2.2.1. Phân lớp dữ liệu nhị phân

1.2.2.2. Phân lớp dữ liệu đa lớp

1.2.2.3 Phân lớp dữ liệu đơn trị

1.2.2.4 Phân lớp dữ liệu đa trị

1.3. PHÂN LỚP VĂN BẢN

Trong những năm gần đây việc đẩy mạnh ứng dụng công nghệ

thông tin trong quản lý hành chính nhà nước đã tạo ra một khối lượng

dữ liệu khổng lồ. Nên việc tự động phân lớp văn bản là một nhiệm vụ

rất quan trọng giúp ích cho đơn vị tổ chức, lưu trữ, tìm kiếm thông tin

trên nguồn tài nguyên lớn này.

1.3.1. Khái niệm

Phân lớp văn bản (Text Categorization)[2, 3, 10, 13] là việc

phân lớp áp dụng đối với dữ liệu văn bản, tức là phân lớp một văn

bản vào một hay nhiều lớp văn bản nhờ một mô hình phân lớp; mô

hình này được xây dựng dựa trên một tập hợp các văn bản đã được

gán nhãn từ trước.

7

CHƯƠNG 2

KHÁI QUAT MÔ HÌNH HỌC MÁY SUPPORT VECTOR

MACHINES (SVM)

Trong chương này, luận văn trình bày phương pháp phân loại

văn bản tiếng Việt dựa trên mô hình Support Vector Machines, từ

cách tách từ, chọn từ phân loại, biểu diễn vector hóa văn bản, phương

pháp xây dựng mô hình phân lớp. Trước tiên để tiến đến việc phân

loại văn bản tiếng Việt trong văn bản hành chính ta cần phải tìm hiểu

một số khái niệm về tiếng Việt và văn phong sử dụng trong văn bản

hành chính. Những khái niệm đó sẽ được trình bày dưới đây.

2.1. NGÔN NGỮ TIẾNG VIỆT

Tiếng Việt thuộc ngôn ngữ đơn lập, tức là mỗi một tiếng (âm

tiết) được phát âm tách rời nhau và được thể hiện bằng một chữ viết.

Đặc điểm này thể hiện rõ rệt ở tất cả các mặt ngữ âm, từ vựng, ngữ

pháp.

Đặc điểm ngữ âm: Trong tiếng Việt có một loại đơn vị đặc biệt

gọi là "tiếng". Về mặt ngữ âm, mỗi tiếng là một âm tiết. Hệ thống âm

vị tiếng Việt phong phú và có tính cân đối, tạo ra tiềm năng của ngữ

âm tiếng Việt trong việc thể hiện các đơn vị có nghĩa. Nhiều từ tượng

hình, tượng thanh có giá trị gợi tả đặc sắc. Khi tạo câu, tạo lời, người

Việt rất chú ý đến sự hài hòa về ngữ âm, đến nhạc điệu của câu văn.

Đặc điểm từ vựng: Mỗi tiếng, nói chung, là một yếu tố có

nghĩa. Tiếng là đơn vị cơ sở của hệ thống các đơn vị có nghĩa của

tiếng Việt. Từ tiếng, người ta tạo ra các đơn vị từ vựng khác để định

danh sự vật, hiện tượng..., chủ yếu nhờ phương thức ghép và phương

thức láy.

Vốn từ vựng tối thiểu của tiếng Việt phần lớn là các từ đơn tiết

8

(một âm tiết, một tiếng). Sự linh hoạt trong sử dụng, việc tạo ra các

từ ngữ mới một cách dễ dàng đã tạo điều kiện thuận lợi cho sự phát

triển vốn từ, vừa phong phú về số lượng, vừa đa dạng trong hoạt

động. Cùng một sự vật, hiện tượng, một hoạt động hay một đặc

trưng, có thể có nhiều từ ngữ khác nhau biểu thị. Tiềm năng của vốn

từ ngữ tiếng Việt được phát huy cao độ trong các phong cách chức

năng ngôn ngữ, đặc biệt là trong phong cách ngôn ngữ nghệ thuật.

Hiện nay, do sự phát triển vượt bậc của khoa học-kĩ thuật, đặc biệt là

công nghệ thông tin, thì tiềm năng đó còn được phát huy mạnh mẽ

hơn.

Đặc điểm ngữ pháp: Từ của tiếng Việt không biến đổi hình

thái. Đặc điểm này sẽ chi phối các đặc điểm ngữ pháp khác. Khi từ

kết hợp từ thành các kết cấu như ngữ, câu, tiếng Việt rất coi trọng

phương thức trật tự từ và hư từ.

Qua một số đặc điểm nổi bật vừa nêu trên đây, chúng ta có thể

hình dung được phần nào bản sắc và tiềm năng của tiếng Việt.

2.2. KHÁI NIỆM VỀ VĂN BẢN QUẢN LÝ NHÀ NƯỚC

2.2.1. Văn bản quản lý nhà nước

Văn bản quản lý nhà nước là những quyết định và thông tin

quản lý thành văn ( được văn bản hóa) do các cơ quan quản lý nhà

nước ban hành theo thẩm quyền, trình tự, thủ tục, hình thức nhất định

và được nhà nước đảm bảo thi hành bằng những hình thức khác nhau

nhằm điều chỉnh các mối quan hệ quản lý nội bộ nhà nước hoặc giữa

các cơ quan nhà nước với các tổ chức và công dân.

2.2.2. Văn bản quản lý hành chính nhà nước

Văn bản quản lý hành chính nhà nước là một bộ phận của văn

bản quản lý nhà nước, bao gồm những văn bản của các cơ quan nhà

nước (mà chủ yếu là các cơ quan hành chính nhà nước) dùng để đưa

9

ra các quyết định và chuyển tải các thông tin quản lý trong hoạt động

chấp hành và điều hành.

2.2.3. Phân loại văn bản quản lý nhà nước

Văn bản quản lý nhà nước được phân ra làm ba nhóm:

- Văn bản quy phạm pháp luật. Hệ thống văn bản quy phạm

pháp luật bao gồm các loại văn bản sau:

+ Hiến pháp, luật, nghị quyết của Quốc hội;…

- Văn bản hành chính. Văn bản hành chính được chia làm hai

loại: văn bản hành chính thông thường và văn bản hành chính cá biệt

bao gồm các loại văn bản sau:

+ Chỉ thị;

+ Quyết định;

+ Tờ trình…

- Văn bản chuyên môn – kỹ thuật. Đây là văn bản mang tính

đặc thù thuộc thẩm quyền ban hành của một số cơ quan nhà nước

nhất định theo quy định của pháp luật.

2.2.4. Ngôn ngữ trong văn bản hành chính

Văn bản hành chính phải mang tính chính xác, rõ ràng. Đây là

một đặc điểm quan trọng trong văn bản hành chính. Chính xác trong

cách dùng từ đặc câu phải đi đôi với tính minh bạch trong kết cấu văn

bản để đảm bảo tính xác định, tính đơn nghĩa của nội dung, chỉ cho

phép một cách hiểu, không gây hiểu lầm, câu cú phải ngắn gọn

không rườm rà.

2.3. BỘ PHÂN LOẠI SUPPORT VECTOR MACHINES (SVM)

Thuật toán vector hỗ trợ (Support Vector Machines - SVM)

được Corters và Vapnik giới thiệu vào năm 1995. SVM rất hiệu quả

để giải quyết các bài toán với dữ liệu có số chiều lớn như các vector

biểu diễn văn bản. Thuật toán SVM ban đầu chỉ được thiết kế để giải

Tải ngay đi em, còn do dự, trời tối mất!