Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Mạng nowrron Kohonen - Som ứng dụng trọng phân nhóm sinh viên dựa trên kết quả học tập
Nội dung xem thử
Mô tả chi tiết
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC
CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LÂM VIỆT THẮNG
MẠNG NƠRON KOHONEN – SOM
ỨNG DỤNG TRONG PHÂN NHÓM SINH VIÊN
DỰA TRÊN KẾT QUẢ HỌC TẬP
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Nguyên 2014
2
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
LỜI CẢM ƠN
Để hoàn thành chƣơng trình học và viết luận văn tốt nghiệp này, em đã
nhận đƣợc sự hƣớng dẫn, giúp đỡ và góp ý nhiệt tình của thầy cô trƣờng Đại học
Công nghệ thông tin và Truyền thông.
Trƣớc hết, em xin chân thành cảm ơn đến quý thầy cô trƣờng Đại học Công
nghệ thông tin và Truyền thông, đặc biệt là thầy cô đã tận tình dạy bảo cho em
trong suốt thời gian học tập tại trƣờng.
Em xin gửi lời biết ơn sâu sắc đến thầy giáo Tiến sĩ Nguyễn Văn Tảo. Thầy
đã dành rất nhiều thời gian, tâm huyết và tận tình giúp đỡ, hƣớng dẫn cho em trong
suốt quá trình nghiên cứu và giúp em hoàn thành luận văn này.
Mặc dù đã có nhiều cố gắng hoàn thiện luận văn bằng tất cả sự nhiệt tình và
năng lực của mình, tuy nhiên không thể tránh khỏi những thiếu sót, rất mong nhận
đƣợc những đóng góp quý báu của quý thầy cô và các bạn.
Thái Nguyên, ngày 28 tháng 8 năm 2014
Học viên
Lâm Việt Thắng
3
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
MỞ ĐẦU
Sự bùng nổ và phát triển mạnh mẽ của công nghệ đã đƣa máy tính đến với
mọi hoạt động sinh hoạt và lao động của con ngƣời. Kèm theo đó là những khối
lƣợng dữ liệu thông tin, tri thức khổng lồ mà để quản lý và nắm bắt, phân loại
chúng là một bài toán nan giải tốn nhiều thời gian công sức của những nhà quản lý,
phát triển. Ngày nay khi dữ liệu số đã trở lên thông dụng và trở thành loại thông tin
đƣợc trao đổi phổ biến nhất trên tất cả các phƣơng tiện thông tin, liên lạc…Nhƣng
việc nắm bắt nội dung của loại thông tin này là điều tƣơng đối khó cho những hệ
thống giám sát phân loại tự động. Những thông tin này mang tính chất phức tạp mà
để hiểu đƣợc nó thì những phƣơng pháp phân loại bình thƣờng là chƣa đủ mạnh.
Thực tế đã chứng minh cách tốt nhất để phân loại dữ liệu là dùng bộ óc con ngƣời.
Tất nhiên đó là điều vô cùng quý giá và khi ứng dụng chúng để giải quyết những
vấn đề trong tin học đã đem lại những thành công ngoài mong đợi.
Một máy tính, dù có mạnh đến đâu chăng nữa, đều phải làm việc theo một
chƣơng trình chính xác đã đƣợc hoạch định trƣớc bởi các chuyên gia. Bài toán
càng phức tạp thì việc lập trình càng công phu.
Từ lâu các nhà khoa học đã nhận thấy những ƣu điểm của bộ óc con ngƣời
và tìm cách phát triển để máy tính có khả năng học tập, nhận dạng và phân loại.
Các mạng nơron nhân tạo (Artificial Neural Network, ANN) đã ra đời từ những nỗ
lực đó. ANN là một lĩnh vực nghiên cứu rộng lớn và chỉ mới phát triển mạnh
khoảng 15 năm gần đây. Tuy có nhiều kết quả khích lệ, nhƣng ANN hãy còn xa
mới đạt đƣợc sự hoàn chỉnh nhƣ bộ óc con ngƣời. Và những ứng dụng trong công
nghệ thông tin còn nhiều hạn chế.
Trong khuôn khổ luận văn xin trình bày những nghiên cứu tổng quan về
ANN, những lỗ lực cải tiến thuật toán, cài đặt và những ứng dụng của mạng nơron
trong việc phân cụm dữ liệu số.
4
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
NHIỆM VỤ LUẬN VĂN
Trong luận văn tập trung nghiên cứu nền tảng lý thuyết và ứng dụng của
mạng nơron nhân tạo. Cụ thể giải quyết bài toán phân cụm dữ liệu số trên máy tính
với sự trợ giúp của mạng Kohonen-SOM. Vì vậy trong khuôn khổ luận văn sẽ
hƣớng tới hai mục đích chính:
1. Nghiên cứu mạng nơron cụ thể là mạng SOM, từ ý tƣởng tự nhiên tới
phƣơng cách cài đặt trên máy tính đồng thời đƣa ra những phƣơng pháp cải tiến về
mặt giải thuật nhằm đƣa mạng nơron ứng dụng giải quyết bài toán phân cụm dữ
liệu số.
2. Ứng dụng mạng nơron giải quyết bài toán phân cụm thực tế biến những
nghiên cứu, cải tiến trở lên hữu dụng.
5
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
MỤC LỤC
MỤC LỤC.................................................................................................................5
CHƢƠNG 1: TỔNG QUAN MẠNG NƠRON ........................................................7
1.1. Giới thiệu chung.............................................................................................7
1.2. Ý tƣởng sinh học............................................................................................7
1.3. Mô hình nơron nhân tạo cơ bản.....................................................................9
1.4. Sử dụng mạng nơron nhân tạo .....................................................................11
1.5. Thu thập dữ liệu cho mạng nơron nhân tạo .................................................12
1.6. Perceptron nhiều lớp....................................................................................14
1.6.1. Huấn luyện Perceptron nhiều lớp .........................................................14
1.6.2. Thuật toán backpropagation. ................................................................15
1.6.3. Học quá mức và tổng quát hóa .............................................................16
1.6.4. Chọn lựa dữ liệu ...................................................................................18
1.7. Mô hình mạng nơron ...................................................................................18
1.7.1. Mô hình nơron và cấu trúc mạng..........................................................19
1.7.2. Cấu trúc dữ liệu ....................................................................................23
1.7.3. Kiểu huấn luyện....................................................................................23
1.8. Tóm tắt.........................................................................................................23
CHƢƠNG 2: KOHONEN-SOM VÀ PHÂN CỤM DỮ LIỆU ..............................26
2.1. Tìm hiểu mạng Kohonen .............................................................................26
2.2. Mạng Kohonen là gì?...................................................................................26
2.2.1. Cấu trúc mô hình mạng Kohonen.........................................................28
2.2.2. Thuật toán phân cụm bằng mạng Kohonen..........................................28
- – SOM.................32
2.3.1. Tổng quan về SOM .............................................................................32
2.3.2. SOM cơ bản..........................................................................................33
2.3.3. Khởi tạo mạng Kohonen (SOM) ..........................................................33
2.3.4. Huấn luyện mạng Kohonen - Som .......................................................34
2.3.5. Tỉ lệ học ................................................................................................34
2.3.6. Cập nhật lại trọng số.............................................................................35
6
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
2.3.7. Xác định nơron chiến thắng..................................................................36
2.4. Kohonen (SOM) và phân cụm dữ liệu.........................................................37
2.4.1. SOM phân cụm với bản đồ 1 chiều ......................................................37
2.4.2. SOM phân cụm với bản đồ 2 chiều ......................................................37
2.4.3. Xác định ranh giới các cụm..................................................................38
2.4.4. Trực quan mạng....................................................................................39
2.4.5. Số lƣợng nhóm khi phân cụm...............................................................40
2.5. SOM –Thách thức trong quá trình phân cụm dữ liệu..................................41
2.5.1. SOM –Bài toán phân cụm màu ............................................................41
2.5.2. SOM –Thách thức phân nhóm .............................................................45
2.5.3. SOM –Vấn đề số lƣợng nhóm..............................................................47
2.6. SOM –Giải quyết những vấn đề tồn tại khi phân cụm ................................48
2.6.1. Giải pháp phân cụm tự nhiên trong quá trình học ................................48
2.6.2 Giới hạn điều chỉnh số lƣợng nhóm trên mạng SOM ...........................51
CHƢƠNG 3: ỨNG DỤNG PHÂN CỤM ĐIỂM....................................................54
3.1. Phát biểu bài toán ứng dụng ........................................................................54
3.1.1. Nội dung ...............................................................................................54
3.1.2. Mục đính- Yêu cầu ...............................................................................55
3.2. Phân tích thiết kế hệ thống cho ứng dụng....................................................56
3.2.1. Xác định các tác nhân và các Use case.................................................56
3.2.2. Biểu đồ Use Case..................................................................................57
3.2.3. Biểu đồ trình tự cho từng Use Case......................................................57
3.3. Chƣơng trình ứng dụng................................................................................61
3.3.1. Giao diện tổng quan cho ứng dụng.......................................................61
3.3.2 Một số tính năng cho ứng dụng.............................................................62
3.3.3 Hƣớng dẫn sử dụng, chạy thử nghiệm...................................................68
KẾT LUẬN.............................................................................................................71
TÀI LIỆU THAM KHẢO.......................................................................................73
7
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
CHƢƠNG 1: TỔNG QUAN MẠNG NƠRON
1.1. Giới thiệu chung
Mạng nơron nhân tạo (Artificial Neural Networks) trong một vài năm trở
lại đây đã đƣợc nhiều ngƣời quan tâm và đã áp dụng thành công trong nhiều lĩnh
vực khác nhau, nhƣ tài chính, y tế, địa chất và vật lý. Thật vậy, bất cứ ở đâu có vấn
đề về dự báo, phân loại và điều khiển, mạng nơron nhân tạo đều có thể ứng dụng
đƣợc. Sự thành công nhanh chóng của mạng mạng nơron nhân tạo có thể là do
một số nhân tố chính sau:
Năng lực: mạng nơron nhân tạo là những kỹ thuật mô phỏng rất tinh vi, có
khả năng mô phỏng các hàm cực kỳ phức tạp. Đặc biệt, mạng nơron nhân tạo hoạt
động phi tuyến. Trong nhiều năm, mô hình tuyến tính là kỹ thuật đƣợc sử dụng
rộng rãi trong hầu hết các lĩnh vực, vì thế mô hình tuyến tính có tính chiến lƣợc tối
ƣu hóa đƣợc biết nhiều nhất.
Dễ sử dụng: mạng nơron nhân tạo có tính học theo các ví dụ. Ngƣời sử
dụng mạng nơron nhân tạo thu thập các dữ liệu đặc trƣng, và sau đó gọi các thuật
toán huấn luyện để có thể tự học cấu trúc của dữ liệu. Mặc dù ngƣời sử dụng làm
tất cả những điều cần thiết để có thể chọn và chuẩn bị dữ liệu, sử dụng loại mạng
phù hợp và có thể hiểu đƣợc các kết quả, nhƣng mức độ ngƣời sử dụng biết cách
áp dụng thành công mạng nơron nhân tạo vẫn thấp hơn nhiều những ngƣời sử dụng
các phƣơng pháp thống kê truyền thống…
Mạng nơron nhân tạo dựa trên việc mô phỏng cấp thấp hệ thống nơron sinh
học. Trong tƣơng lai với sự phát triển mô phỏng nơron sinh học, chúng ta có thể có
loại máy tính thông minh thật sự.
1.2. Ý tƣởng sinh học
Mạng nơron nhân tạo phát triển từ nghiên cứu về trí tuệ nhân tạo; đặc biệt
cố gắng bắt chƣớc bộ não có cấu trúc cấp thấp về khả năng học và chấp nhận sai
của hệ thống nơron sinh học.
Suốt những năm 1960 – 1980 các nhà nghiên cứu về trí tuệ nhân tạo đã tìm
ra hệ chuyên gia dựa trên mô hình cấp cao về xử lý lý luận của bộ não. Mặc dù mô