Real World Data Science Case Studies, Projektoj Kun Python

Aldonu afiŝon

Vi devas ensaluti por aldoni afiŝon .

Aldonu demandon

Vi devas ensaluti por demandi demandon.

Real World Data Science Case Studies, Projektoj Kun Python

Aĉetu nun

Prezo: $89.99

Do kiel ni igas algoritmojn trovi utilajn ŝablonojn en datumoj? La ĉefa diferenco inter maŝinlernado kaj konvencie programitaj algoritmoj estas la kapablo prilabori datumojn sen esti eksplicite programita.. Ĉi tio fakte signifas, ke inĝeniero ne estas postulata doni kompleksajn instrukciojn al maŝino pri kiel trakti ĉiun tipon de datumrekordo.. Anstataŭe, maŝino difinas ĉi tiujn regulojn mem fidante je enigdatenoj.

Sendepende de aparta aplikaĵo por maŝinlernado, la ĝenerala laborfluo restas la sama kaj ripete ripetas post kiam la rezultoj fariĝas datitaj aŭ bezonas pli altan precizecon. Ĉi tiu sekcio fokusiĝas al enkonduko de la bazaj konceptoj, kiuj konsistigas la maŝinlernadfluon.

La kerna artefakto de iu maŝinlernada ekzekuto estas matematiko modelo, kiu priskribas kiel algoritmo prilaboras novajn datenojn post estado trejnita kun subaro de historiaj datenoj. La celo de trejnado estas evoluigi modelon kapablan formuli a celvaloro (atributo), iu nekonata valoro de ĉiu datuma objekto. Dum ĉi tio sonas komplika, ĝi vere ne estas.

Ekzemple, vi devas antaŭdiri ĉu klientoj de via eCommerce vendejo faros aĉeton aŭ foriros. Ĉi tiuj antaŭdiroj Aĉeti aŭ foriru estas la celaj atributoj, kiujn ni serĉas. Por trejni modelon en farado de ĉi tiu tipo de antaŭdiroj vi "nutras" algoritmon per a datumaro kiu stokas malsamajn rekordojn de klientkondutoj kaj la rezultojn (ĉu klientoj foriris aŭ faris aĉeton). Lernante de ĉi tiuj historiaj datumoj, modelo povos fari antaŭdirojn pri estontaj datumoj.

Maŝina Lernada Laborfluo

Ĝenerale, la laborfluo sekvas ĉi tiujn simplajn paŝojn:

Kolektu datumojn. Uzu vian ciferecan infrastrukturon kaj aliajn fontojn por kolekti kiel eble plej multajn utilajn rekordojn kaj kunigi ilin en datumaron.
Preparu datumojn. Preparu viajn datumojn por esti prilaboritaj en la plej bona ebla maniero. La proceduroj de antaŭtraktado kaj purigado de datumoj povas esti sufiĉe kompleksaj, sed kutime, ili celas plenigi la mankantajn valorojn kaj korekti aliajn difektojn en datumoj, kiel malsamaj prezentoj de la samaj valoroj en kolumno (ekz. decembro 14, 2016 kaj 12.14.2016 ne estos traktita same de la algoritmo).
Dividi datumojn. Apartigu subarojn de datumoj por trejni modelon kaj plue taksi kiel ĝi funkcias kontraŭ novaj datumoj.
Trejnu modelon. Use a subset of historic data to let the algorithm recognize the patterns in it.
Test and validate a model. Evaluate the performance of a model using testing and validation subsets of historic data and understand how accurate the prediction is.
Deploy a model. Embed the tested model into your decision-making framework as a part of an analytics solution or let users leverage its capabilities (ekz. better target your product recommendations).
Iterate. Collect new data after using the model to incrementally improve it.