Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nghiên cứu phương pháp học máy để phân loại văn bản tại văn phòng ubnd tỉnh quảng ngãi
PREMIUM
Số trang
103
Kích thước
4.8 MB
Định dạng
PDF
Lượt xem
1328

Nghiên cứu phương pháp học máy để phân loại văn bản tại văn phòng ubnd tỉnh quảng ngãi

Nội dung xem thử

Mô tả chi tiết

ĐẠI HỌC ĐÀ NẴNG

TRƯỜNG ĐẠI HỌC SƯ PHẠM

LÊ THANH TRANG

NGHIÊN CỨU PHƯƠNG PHÁP HỌC MÁY

ĐỂ PHÂN LOẠI VĂN BẢN TẠI VĂN PHÒNG

UBND TỈNH QUẢNG NGÃI

Chuyên ngành: Hệ thống thông tin

Mãsố: 61.49.01.04

TÓM TẮT

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

ĐàNẵng – Năm 2017

Công trình được hoàn thành tại

TRƯỜNG ĐẠI HỌC SƯ PHẠM- ĐHĐN

Người hướng dẫn khoa học: PGS.TS. HUỲNH CÔNG PHÁP

Phản biện 1: TS. Hoàng Thị Thanh

Phản biện 2: PGS.TS. Lê Mạnh Thạnh

Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc

sĩ Hệ thống thông tin họp tại Trường Đại học Sư phạm– ĐHĐN vào

ngày 30 tháng 7 năm 2017

Có thể tìm hiểu luận văn tại:

-Thư viện Trường Đại học Sư phạm Đà Nẵng, Đại học Đà Nẵng.

- Trung tâm thông tin học liệu, Đại học Đà Nẵng.

1

MỞ ĐẦU

1. Lý do chọn đề tài

Hiện nay một lượng lớn dữ liệu văn bản có sẵn về các lĩnh vực

khác nhau đã được thu thập, lưu trữ. Việc phân loại văn bản là tiến

trình xếp các tài liệu văn bản vào trong một hoặc nhiều các tài liệu

vào nhóm các chủ đề, để sử dụng nó là vấn đề ngày càng trở nên cần

thiết. Vì thế, vấn đề phân lớp và dự đoán là khâu rất quan trọng trong

học máy và trong khai phá dữ liệu. Một trong những công cụ được

đánh giá mạnh và tinh vi cho những bài toán phân lớp phi tuyến đó là

kỹ thuật Support Vector Machines (SVM) do Corters và Vapnik giới

thiệu vào năm 1995[14]. Nhiều ứng dụng đã và đang được xây dựng

dựa trên kỹ thuật SVM rất hiệu quả. SVM là mô hình xây dựng

một siêu phẳng hoặc một tập hợp các siêu phẳng trong một không

gian nhiều chiều hoặc vô hạn chiều, có thể được sử dụng cho phân

loại, hồi quy, hoặc các nhiệm vụ khác. Trong nhiều trường hợp,

không thể phân chia các lớp dữ liệu một cách tuyến tính trong một

không gian ban đầu được dùng để mô tả một vấn đề. Vì vậy, nhiều

khi cần phải ánh xạ các điểm dữ liệu trong không gian ban đầu vào

một không gian mới nhiều chiều hơn, để việc phân tính chúng trở

nên dễ dàng hơn trong không gian mới.

Gần đây, các nhà nghiên cứu đã thực hiện sử dụng các kỹ

thuật học máy để kết hợp tự động phân loại các tài liệu bằng cách

đầu tiên sử dụng một tập huấn luyện để thông qua bộ phân loại tới

tập đặc trưng của tập tài liệu. Quy trình học máy được khởi tạo bởi

một một sự kiểm tra các tài liệu mẫu để quyết định tập đặc trưng tối

thiểu mà sinh ra các kết quả phân loại mong muốn. Trong giai đoạn

huấn luyện có thể được giám sát hoặc không giám sát. Trong cả hai

2

trường hợp một tập các phân loại được định nghĩa một quyền ưu tiên,

không giống phân nhóm mà định nghĩa các phân loại dựa trên đặc

trưng của các tài liệu thực sự. Các kỹ thuật học không giám sát sử

dụng các đặc trưng của các tài liệu huấn luyện để cho giải thuật

quyết định phân loại mỗi tài liệu thuộc vào. Các kỹ thuật học có

giám sát sử dụng một tập các tài liệu huấn luyện mà đã được kết hợp

trong một phân loại để quyết định tập đặc trưng nào của các tài liệu

sẽ tạo ra kết quả mong muốn.

Tại Văn phòng UBND tỉnh Quảng Ngãi theo thống kê số

lượng văn bản hành chính được ban hành mỗi năm khoảng 15 nghìn

văn bản các loại chưa tính các loại văn bản đến đơn vị. Hạ tầng công

nghệ thông tin tại Văn phòng UBND tỉnh Quảng Ngãi được đầu tư từ

năm 2001 theo Đề án Tin học hóa quản lý hành chính nhà nước của

Chính phủ. Đến nay, CSDL văn bản được lưu giữ trên 3 TB dữ liệu.

Theo Nghị định Chính phủ yêu cầu cung cấp thông tin trực tuyến

trên Cổng thông tin điện tử của các tỉnh, Văn phòng UBND tỉnh

Quảng Ngãi chỉ mới cung cấp CSDL văn bản từ năm 2010, việc

phân loại các văn bản vào các nhóm chỉ dừng ở mức độ theo loại văn

bản chưa phân loại được theo các lĩnh vực, để thuận lợi cho việc tra

cứu, sắp xếp, lưu trữ…Do vậy, cần phải có hệ thống xử lý văn bản

hiệu quả và phương pháp học máy có giám sát để tận dụng được các

nguồn dữ liệu văn bản chưa được phân loại tại Văn phòng UBND

tỉnh Quảng Ngãi. Nhận thấy đây là lĩnh vực mang tính khoa học cao,

ứng dụng rất nhiều trong các bài toán thực tế.

Với những vấn đề nêu trên tôi chọn đề tài “Nghiên cứu

phương pháp học máy có giám sát để phân loại văn bản tại Văn

phòng UBND tỉnh Quảng Ngãi” làm chủ đề nghiên cứu tại luận

văn này.

3

2. Mục đích nghiên cứu

Nghiên cứu kỹ thuật học máy và một số giải thuật thường sử

dụng trong học máy, ứng dụng kỹ thuật học có giám sát.

3. Mục tiêu nghiên cứu

- Nghiên cứu kỹ thuật xử lý ngôn ngữ tiếng Việt.

- Xây dựng kho dữ liệu huấn luyện để ứng dụng vào bài toán

phân loại văn bản.

- Ứng dụng kỹ thuật học máy có giám sát vào bài toán phân

loại văn bản tại Văn phòng UBND tỉnh Quảng Ngãi.

4. Đối tượng và phạm vi nghiên cứu

Trong khuôn khổ luận văn thuộc loại nghiên cứu và ứng dụng,

đề tài chỉ giới hạn nghiên cứu các vấn đề sau:

- Các vấn đề liên quan đến học máy có giám sát.

- Các tài liệu, văn bản dạng text chuẩn tiếng Việt không có

hình ảnh hoặc âm thanh.

- Nghiên cứu phương pháp học có giám sát để giải quyết bài

toán phân loại văn bản theo các chủ đề như: Xây dựng, Giao thông,

Văn hóa xã hội, Công nghệ thông tin, Hành chính, Nông nghiệp, Nội

chính…

5. Phương pháp nghiên cứu

5.1. Phương pháp lý thuyết

- Thu thập và nghiên cứu tài liệu có liên quan.

- Nghiên cứu kỹ thuật học có giám sát.

- Nghiên cứu lý thuyết về xử lý ngôn ngữ tự nhiên.

- Biểu đạt kết quả.

5.2. Phương pháp thực nghiệm

- Xây dựng kho dữ liệu huấn luyện.

- Xây dựng quy trình phân loại văn bản.

- Ứng dụng quy trình phân loại văn bản vào mô hình thực tế

phân loại văn bản tại Văn phòng UBND tỉnh Quảng Ngãi.

4

6. Ý nghĩa khoa học và thực tiễn của luận văn

6.1. Ý nghĩa khoa học

- Nắm vững các vấn đề về lĩnh vực thống kê, xác suất và học

máy áp dụng vào bài toán phân loại văn bản.

- Nắm vững và vận dụng lý thuyết kỹ thuật học có giám sát, lý

thuyết phân lớp, một số thuật toán phân loại văn bản để vận dụng vào

thực tiễn.

- Hiểu được lý thuyết về xử lý ngôn ngữ tự nhiên.

- Nhìn nhận được mức độ đóng góp của các tác giả so với các

phương pháp trước đây; ý nghĩa đóng góp về mặt học thuật có tính

phát minh.

6.2. Ý nghĩa thực tiễn

- Trong thực tiễn đời sống hằng ngày, thông tin quanh ta là rất

nhiều. Biến thông tin thành tri thức để phục vụ con người là khát

vọng không chỉ riêng đối với các nhà khoa học.

- So với những phương pháp trước đây, phương pháp phân

loại văn bản với Support Vector Machines (SVM) được nghiên cứu

từ những năm 60 với những công trình của Vapnik và Lerner

(1963)[16], Vapnik và Chervonenkis (1964)[16] có khả năng cho kết

quả nhận dạng chính xác hơn so với các phương pháp học máy khác

– điều này mở ra một khả năng rộng lớn cho các bài toán ứng dụng

trong nhiều ngành.

- Đưa phương pháp học máy có giám sát vào bài toán phân

loại văn bản tại Văn phòng UBND tỉnh Quảng Ngãi.

7. Nội dung luận văn

Luận văn gồm 3 chương chính:

Chương 1: Nghiên cứu tổng quan

Chương 2: Áp dụng mô hình học máy Support Vector

Machines (SVM) cho phân loại văn bản tại văn phòng UBND tỉnh

5

quảng ngãi

Chương 3: Xây dựng chương trình thử nghiệm trong bài toán

học máy có giám sát để phân loại văn bản tại văn phòng UBND tỉnh.

Cuối cùng là những kết luận, định hướng nghiên cứu và phát

triển của luận văn.

CHƯƠNG 1

NGHIÊN CỨU TỔNG QUAN

1.1. TỔNG QUAN VỀ HỌC MÁY

Học máy (Machine Learning - ML) [22]là một ngành khoa

học nghiên cứu các thuật toán cho phép máy tính có thể học được các

khái niệm (concept). Có hai loại phương pháp học máy chính:

- Phương pháp quy nạp: là phương pháp máy học dựa trên dữ

liệu đã thu thập được trước đó. Phương pháp này cho phép tận dụng

được nguồn dữ liệu rất nhiều và sẵn có.

- Phương pháp suy diễn: là phương pháp dựa vào các luật.

Phương pháp này cho phép tận dụng được các kiến thức chuyên

ngành để hỗ trợ máy tính.

Hiện nay, các thuật toán đều cố gắng tận dụng được các ưu

điểm của hai phương pháp này.

Hình 1.1. Mô hình thuật toán học máy có giám sát

6

Để giải quyết một bài toán nào đó của học có giám sát, người

ta phải xem xét nhiều bước khác nhau:

- Xác định loại của các ví dụ huấn luyện. Trước khi làm bất cứ

điều gì, người làm nhiệm vụ phân lớp nên quyết định loại dữ liệu nào

sẽ được sử dụng làm ví dụ. Chẳng hạn đó có thể là một ký tự viết tay

đơn lẻ, toàn tập một từ viết tay, hay toàn tập một dòng chữ viết tay.

- Thu thập tập huấn luyện. Tập huấn luyện cần đặc trưng cho

thực tế sử dụng của hàm chức năng. Vì thế, một tập các đối tượng

đầu vào được thu thập và đầu ra tương ứng được thu thập, hoặc từ

các chuyên gia hoặc từ việc đo đạc tính toán.

- Xác định việc biểu diễn các đặc trưng đầu vào cho hàm chức

năng cần tìm. Sự chính xác của hàm chức năng phụ thuộc lớn vào

cách các đối tượng đầu vào được biểu diễn. Thông thường, đối tượng

đầu vào được chuyển đổi thành một vector đặc trưng, chứa một số

các đặc trưng nhằm mô tả cho đối tượng đó. Số lượng các đặc trưng

không nên quá lớn, do sự bùng nổ tổ hợp (curse of dimensionality),

nhưng phải đủ lớn để dự đoán chính xác đầu ra.

- Xác đinh cấu trúc của hàm chức năng cần tìm và giải thuật

học tương ứng. Ví dụ người thực hiện quá trình phân lớp có thể lựa

chọn việc sử dụng mạng nơ- ron nhân tạo hay cây quyết định….

- Hoàn thiện thiết kế. Người thiết kế sẽ chạy giải thuật học từ

một tập huấn luyện thu thập được. Các tham số của giải thuật học có

thể được điều chỉnh bằng cách tối ưu hoá hiệu năng trên một tập con

(gọi là tập kiểm chứng – validation set) của tập huấn luyện, hay

thông qua kiểm chứng chéo (crossvalidation). Sau khi học và điều

chỉnh tham số, hiệu năng của giải thuật có thể được đo dạc trên một

tập kiểm tra độc lập với tập huấn luyện.

Một số thuật toán điển hình:

7

Thuật toán K láng giềng

Mô hình xác suất Naive Bayes

Phương pháp Support Vector Machines

1.1.1.2. Học không có giám sát (unsupervised learning)

Học không giám sát [18]là một kỹ thuật của máy học nhằm

tìm ra một mô hình hay cấu trúc bị ẩn bởi tập dữ liệu không được

gán nhãn cho trước. Học không có giám sát khác với học có giám sát

là không thể xác định trước đầu ra từ tập dữ liệu huấn luyện được.

Tùy thuộc vào tập huấn luyện kết quả đầu ra sẽ khác nhau. Trái

ngược với học có giám sát, tập dữ liệu huấn luyện của học không có

giám sát không do con người gán nhãn, máy tính sẽ phải tự học hoàn

toàn. Có thể nói, học không có giám sát thì giá trị đầu ra sẽ phụ thuộc

vào thuật toán học không có giám sát.

1.1.1.3. Học bán giám sát (semi-supervised learning)

Trong khoa học máy tính, học bán giám sát [19]là một lớp của

kỹ thuật học máy, sử dụng cả dữ liệu đã gán nhãn và chưa gán nhãn để

huấn luyện - điển hình là một lượng nhỏ dữ liệu có gán nhãn cùng với

lượng lớn dữ liệu chưa gán nhãn. Học bán giám sát đứng giữa học

không giám sát (không có bất kì dữ liệu có nhãn nào) và có giám sát

(toàn bộ dữ liệu đều được gán nhãn). Nhiều nhà nghiên cứu nhận thấy

dữ liệu không gán nhãn, khi được sử dụng kết hợp với một chút dữ

liệu có gán nhãn, có thể cải thiện đáng kể độ chính xác. Để gán nhãn

dữ liệu cho một bài toán học máy thường đòi hỏi một chuyên viên có

kỹ năng để phân loại bằng tay các ví dụ huấn luyện. Chi phí cho quy

trình này khiến tập dữ liệu được gán nhãn hoàn toàn trở nên không khả

thi, trong khi dữ liệu không gán nhãn thường tương đối rẻ tiền.

1.1.1.4. Học tăng cường (reinforcement learning)

Trong ngành khoa học máy tính, học tăng cường là một lĩnh

8

vực con của học máy, nghiên cứu cách thức một agent trong một môi

trường nên chọn thực hiện các hành động nào để cực đại hóa một

khoản thưởng (reward) nào đó về lâu dài. Các thuật toán học tăng

cường cố gắng tìm một chiến lược ánh xạ các trạng thái của thế giới

tới các hành động mà agent nên chọn trong các trạng thái đó. Khác

với học có giám sát, trong học tăng cường không có các cặp dữ liệu

vào/kết quả đúng, các hành động gần tối ưu cũng không được đánh

giá đúng sai một cách tường minh. Hơn nữa, ở đây hoạt động trực

tuyến (on-line performance) được quan tâm, trong đó có việc tìm

kiếm một sự cân bằng giữa khám phá (lãnh thổ chưa lập bản đồ) và

khai thác (tri thức hiện có). Trong học tăng cường, sự được và mất

giữa khám phá và khai thác đã được nghiên cứu chủ yếu qua bài toán

multi-armed bandit.

1.1.2. Các ứng dụng của học máy

Học máy có ứng dụng rộng khắp trong các ngành khoa

học/sản xuất, đặc biệt những ngành cần phân tích khối lượng dữ liệu

khổng lồ. Một số ứng dụng thường thấy:

- Xử lý ngôn ngữ tự nhiên (Natural Language Processing): xử

lý văn bản, giao tiếp người – máy, …

- Nhận dạng (Pattern Recognition): nhận dạng tiếng nói, chữ

viết tay, vân tay, thị giác máy (Computer Vision) …

- Tìm kiếm (Search Engine)

- Chẩn đoán trong y tế: phân tích ảnh X-quang, các hệ chuyên

gia chẩn đoán tự động.

- Tin sinh học: phân loại chuỗi gene, quá trình hình thành

gene/protein

- Vật lý: phân tích ảnh thiên văn, tác động giữa các hạt …

- Phát hiện gian lận tài chính (financial fraud): gian lận thẻ tín

dụng

Tải ngay đi em, còn do dự, trời tối mất!