Гурӯҳбандӣ дар коркарди маълумот

Гурӯҳбандӣ як усули истихроҷи маъданест, ки ба категорияҳо ба маҷмӯи маълумотҳо ҷудо карда мешавад, то ба пешгӯиҳо ва таҳлилҳои дақиқ бештар кӯмак расонанд. Инчунин баъзан номи " Tree Decision " номида мешавад, таснифот яке аз усулҳои якхелаест, ки таҳлили маълумотҳои хеле калон ба даст овардааст.

Чаро classification?

Базаи маълумотҳои хеле калон дар ҷаҳони имрӯзаи "маълумотҳои калон" маъмуланд. Тасаввур кунед, ки пойгоҳи додаҳо бо якчанд terabytesи маълумотҳо - terabyte як trillion блоги маълумот аст.

Facebook танҳо як 600 шабонарӯзи иттилооти наверо дар як рӯз (дар соли 2014, охирин бор аз ин хусусиятҳо гузориш медиҳад). Проблемаи аввалини маълумотҳои бузург ин чӣ маъно дорад.

Ҳаҷми музди меҳнат ягона мушкилот нест: Маълумоти калон низ ба тағйирёбии гуногун, тағйирёбанда ва зуд тағйирёбанда мувофиқат мекунад. Биёед маълумотҳои аудио ва видео, постҳои ахбори иҷтимоӣ, маълумотҳои 3D ва маълумотҳои геостроталӣ диқат диҳед. Ин гуна маълумот ба осонӣ гурӯҳбандӣ ва ташкил карда нашудааст.

Барои қонеъ гардонидани ин мушкилот як қатор усулҳои автоматӣ барои истихроҷ кардани иттилооти муфид, аз ҷумла дар таснифот таҳия карда шуданд .

Чӣ гуна гурӯҳбандӣ кор мекунад

Дар хавфи интиқол додани дур ба технология, мо бояд бубинем, ки чӣ гуна таснифот чӣ гуна аст. Мақсад ин аст, ки маҷмӯи қоидаҳои гурӯҳбандӣ, ки ба саволи ҷавобӣ, қарор ё тарзи пешгӯии пешакӣ ҷавоб дода тавонад, оғоз карда шавад. Дар оғоз, як маҷмӯи маълумоти омӯзишӣ таҳия шудааст, ки дорои як қатор хосиятҳои хос ва инчунин эҳтимолияти натиҷа мебошанд.

Вазифаҳои алгоритми classification барои ошкор кардани он, ки ин маҷмӯи хосиятҳои хулосаи худро ба даст меоранд.

Сенария : Ширкати кредитӣ кӯшиш мекунад муайян кунад, ки кадом пешниҳодот бояд пешниҳод намудани корти кредитӣ гиранд.

Ин метавонад маҷмӯи маълумотҳои омӯзишӣ бошад:

Маълумоти оморӣ
Ном Синну сол Гендер Даромади солона Пешниҳоди корти қарзӣ
Ҷон Doe 25) М $ 39,500 Не
Jane Doe 56) Ф. $ 125,000 Бале

Сутунҳои «пешгӯишаванда» Даромади синну сол , гендер ва солона арзиши "тахассусии пешгӯишаванда" -ро пешниҳод мекунад . Дар маҷмӯи омӯзиш хусусияти пешгӯишаванда маълум аст. Алгоритми таснифот баъд муайян мекунад, ки чӣ гуна арзиши тасвири пешгӯишаванда расид: кадом муносибатҳо байни пешгӯиҳо ва қарор вуҷуд доранд? Он маҷмӯи қоидаҳои пешгӯӣ, одатан як изҳороти IF / THEN, масалан:

IF (синну сол> 18 ё синну сол <75) ва даромадҳои солона> 40,000 ин корти кредитӣ = ҳа

Аён аст, ки ин намунаи оддӣ аст ва алгоритми тақрибан ду намуди сабт нишон дода мешавад. Ғайр аз ин, қоидаҳои пешгӯиҳо эҳтимолан мураккабтар бошанд, аз ҷумла қоидаҳои зерини таснифоти мушаххас.

Баъдан, алгоритми ба "пешгӯиҳои пешакӣ" -и маълумотҳо таҳлил карда мешавад, аммо ин маҷмӯи хосият (ё қарори пешакӣ) мавҷуд нест:

Маълумоти пешгӯишаванда
Ном Синну сол Гендер Даромади солона Пешниҳоди корти қарзӣ
Марк Фрост 42) М $ 88,000
Мария Мюррей 16 Ф. $ 0

Маълумоти мазкур пешгӯиҳо ба дурустии қоидаҳои пешгӯӣ кӯмак мекунад, ва қоидаҳо пас аз таҳиягар пешгӯӣ кардани самаранок ва муфидро баррасӣ мекунанд.

Рӯзҳои ба рӯзҳои таснифот

Гурӯҳбандӣ ва дигар усулҳои истихроҷи канданиҳои фоиданок аз таҷрибаи имрӯзаи мо чун истеъмолкунандагон пуштибонӣ мекунанд.

Пешгӯиҳои ҳавоӣ метавонанд таснифоти худро барои гузориш диҳанд, ки оё рӯзона боришот, офтоб ва ё фарш аст. Муассисаи тиббӣ метавонад шароитҳои тиббии пешгӯиҳои натиҷаҳои тиббиро таҳлил кунад. Намуди услуби синфӣ, Naive Bayesian, эҳтимолияти имконпазирро барои тақсим кардани почтаи спам истифода мебарад. Аз даст додани фиреб ба маҳсулотҳои пешниҳодшуда, таснифот пас аз ҳарфҳои таҳлили маълумот ва истеҳсоли пешгӯиҳо мебошад.