Real World Data Science Case-studier, Prosjekter med Python

Legg til innlegg

Du må logge inn for å legge til innlegget .

Legg til spørsmål

Du må logge inn for å stille et spørsmål.

Real World Data Science Case-studier, Prosjekter med Python

Kjøp nå

Pris: $89.99

Så hvordan får vi algoritmer til å finne nyttige mønstre i data? Hovedforskjellen mellom maskinlæring og konvensjonelt programmerte algoritmer er muligheten til å behandle data uten å være eksplisitt programmert. Dette betyr faktisk at en ingeniør ikke er pålagt å gi detaljerte instruksjoner til en maskin om hvordan man behandler hver type datapost. I stedet, en maskin definerer disse reglene selv ved å stole på inndata.

Uavhengig av en bestemt maskinlæringsapplikasjon, den generelle arbeidsflyten forblir den samme og gjentas iterativt når resultatene blir datert eller trenger høyere nøyaktighet. Denne delen er fokusert på å introdusere de grunnleggende konseptene som utgjør arbeidsflyten for maskinlæring.

Kjerneartefakten til enhver maskinlæringsutførelse er en matematisk modell, som beskriver hvordan en algoritme behandler nye data etter å ha blitt trent med et undersett av historiske data. Målet med opplæring er å utvikle en modell som er i stand til å formulere en målverdi (Egenskap), en ukjent verdi for hvert dataobjekt. Selv om dette høres komplisert ut, det er det virkelig ikke.

For eksempel, du må forutsi om kunder i e-handelsbutikken din vil foreta et kjøp eller forlate. Disse spådommene kjøpe eller permisjon er målattributtene vi ser etter. For å trene en modell i å gjøre denne typen spådommer "mater" du en algoritme med en datasett som lagrer ulike registreringer av kundeatferd og resultatene (om kunder forlot eller foretok et kjøp). Ved å lære av disse historiske dataene vil en modell være i stand til å forutsi fremtidige data.

Arbeidsflyt for maskinlæring

Som regel, the workflow follows these simple steps:

Collect data. Use your digital infrastructure and other sources to gather as many useful records as possible and unite them into a dataset.
Prepare data. Prepare your data to be processed in the best possible way. Data preprocessing and cleaning procedures can be quite sophisticated, but usually, they aim at filling the missing values and correcting other flaws in data, like different representations of the same values in a column (f.eks. desember 14, 2016 og 12.14.2016 won’t be treated the same by the algorithm).
Split data. Separate subsets of data to train a model and further evaluate how it performs against new data.
Train a model. Use a subset of historic data to let the algorithm recognize the patterns in it.
Test and validate a model. Evaluate the performance of a model using testing and validation subsets of historic data and understand how accurate the prediction is.
Deploy a model. Embed the tested model into your decision-making framework as a part of an analytics solution or let users leverage its capabilities (f.eks. better target your product recommendations).
Iterate. Collect new data after using the model to incrementally improve it.