Thư viện tri thức trực tuyến
Kho tài liệu với 50,000+ tài liệu học thuật
© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Nghiên cứu công cụ Data Mining trong SQLServer 2000
Nội dung xem thử
Mô tả chi tiết
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 2
MUÏC LUÏC
1. Giôùi thieäu ........................................................................................................3
2. Caùc thuaät toaùn Data Mining cuûa Microsoft.....................................................3
3. Xaây döïng caùc moâ hình Data Mining baèng Analysis Services 2000 ...............6
3.1. Nguoàn döõ lieäu cho moâ hình data mining..................................................6
3.2. Taïo moâ hình data mining .........................................................................7
3.3. Huaán luyeän moâ hình data mining.............................................................8
3.4. Duyeät qua noäi dung cuûa moâ hình data mining .........................................9
3.5. Duøng moâ hình data mining thöïc hieän döï baùo.........................................12
4. Keát luaän.........................................................................................................15
Phuï luïc A: Keát quaû thöû nghieäm ........................................................................16
A.1. Keát quaû thöïc thi treân thuaät toaùn caây quyeát ñònh ...................................16
A.1.1. Keát quaû thöïc thi Training khi khoâng coù söï lieân keát giöõa caùc baûng16
A.1.2. Keát quaû thöïc thi Training khi coù söï lieân keát giöõa caùc baûng ..........19
A.2. Keát quaû thöïc thi treân thuaät toaùn Clustering (phaân lôùp).........................21
A.2.1. Keát quaû thöïc thi Training khi khoâng coù söï lieân keát giöõa caùc baûng21
A.2.2. Keát quaû thöïc thi Training khi coù söï lieân keát giöõa caùc baûng ..........23
Phuï luïc B: Moät soá thuaät ngöõ .............................................................................25
Phuï luïc C: Chöông trình demo..........................................................................26
Taøi lieäu tham khaûo:...........................................................................................27
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 3
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000
1. Giôùi thieäu
Trong moâi tröôøng thöông maïi ñieän töû ngaøy nay, lónh vöïc data mining ngaøy caøng
thu huùt nhieàu söï quan taâm. Nhôø vaøo caùc phöông tieän töï ñoäng hay baùn töï ñoäng, data
mining khaûo saùt vaø phaân tích treân moät löôïng lôùn döõ lieäu ñeå ruùt ra nhöõng maãu vaø qui
luaät coù yù nghóa. Caùc thoâng tin naøy giuùp caùc coâng ty kinh doanh chaúng haïn nhö hieåu roõ
khaùch haøng hôn ñeå töø ñoù coù caùc chieán löôïc phuø hôïp hôn nhaèm nhaèm caûi thieän hoaït
ñoäng tieáp thò, baùn haøng vaø hoã trôï khaùch haøng. Qua nhieàu naêm hoaït ñoäng, caùc coâng ty
kinh doanh tích luyõ ñöôïc caùc cô sôû döõ lieäu (CSDL) raát lôùn töø caùc öùng duïng nhö Laäp keá
hoaïch söû duïng nguoàn taøi nguyeân cho hoaït ñoäng kinh doanh (Enterprise Resource
Planning (ERP)), Quaûn lyù khaùch haøng (Client Relationship Management (CRM)), hay
töø caùc heä thoáng ñieàu haønh khaùc. Ngöôøi ta tin raèng coù caùc giaù trò chöa ñöôïc khai thaùc
tieàm aån beân trong caùc döõ lieäu naøy. Caùc kyõ thuaät data mining coù theå giuùp laáy ra nhöõng
maãu nhö theá.
Gaàn ñaây Microsoft ñaõ ñöa ra OLE DB cho giao dieän laäp trình öùng duïng (API) Data
Mining vôùi nhieàu data mining provider haøng ñaàu. API naøy ñònh nghóa moät ngoân ngöõ
truy vaán data mining döïa treân cuù phaùp SQL. Caùc moâ hình data mining (Data Mining
Model) ñöôïc xem nhö laø moät daïng ñaëc bieät cuûa baûng quan heä. Caùc tính toaùn döï baùo
ñöôïc xem nhö laø moät daïng ñaëc bieät cuûa pheùp keát. Microsoft SQL Server 2000
Analysis Services cung caáp Microsoft data mining provider döïa treân OLE DB cho
chuaån Data Mining. Provider naøy goàm hai thuaät toaùn data mining: Microsoft Decision
Trees vaø Microsoft Clustering.
2. Caùc thuaät toaùn Data Mining cuûa Microsoft
Hai thuaät toaùn data mining trong SQL Server 2000, Microsoft Decision Trees
(MDT) vaø Microsoft Clustering, laø keát quaû cuûa nhieàu naêm nghieân cöùu taïi Microsoft
Research. Sau ñaây laø trình baøy toùm taét hai thuaät toaùn naøy.
Thuaät toaùn Microsoft Decision Trees (caây quyeát ñònh)
Caây quyeát ñònh coù leõ laø kyõ thuaät phoå bieán nhaát cho vieäc laäp moâ hình döï baùo.
Baûng sau ñaây laø moät taäp döõ lieäu huaán luyeän (training data) ñöôïc duøng ñeå döï baùo credit
risk
Customer
ID
Debt level Income level Employment type Credit risk
1 High High Self-employed Bad
2 High High Salaried Bad
3 High Low Salaried Bad
4 Low Low Salaried Good
5 Low Low Self-employed Bad
6 Low High Self-employed Good