The Mathematics of Machine Learning

In the last few months, I have had several people contact me about their enthusiasm for venturing into the world of data science and using Machine Learning (ML) techniques to probe statistical regularities and build impeccable data-driven products. However, I have observed that some actually lack the necessary mathematical intuition and framework to get useful …

What is a Random Forest?

A random forest is an ensemble of decision trees. Like other machine-learning techniques, random forests use training data to learn to make predictions. One of the drawbacks of learning with a single tree is the problem of overfitting. Single trees tend to learn the training data too well, resulting in poor prediction performance on unseen data. This is also known as variance and …

Preserving Memory in Stationary Time Series

출처 : https://towardsdatascience.com/preserving-memory-in-stationary-time-series-6842f7581800 Many predictive models require a certain consistency of time series called stationarity. The usual transformation, namely integer order differencing (in Finance e.g. modelling returns instead of absolute prices), eliminates memory in the data and hence affects the predictive power of the modelling. This article outlines how fractional calculus allows to retain more information …

How to read PCA biplots and scree plots

Source : https://blog.bioturing.com/2018/06/18/how-to-read-pca-biplots-and-scree-plots/ Principal component analysis (PCA) has been gaining popularity as a tool to bring out strong patterns from complex biological datasets. We have answered the question “What is a PCA?” in this jargon-free blog post — check it out for a simple explanation of how PCA works. In a nutshell, PCA capture the essence of …

데이터기반 고객경험분석 사례 2 – 고객 흔적 투이컨설팅 최지영 이사   고객은 필요하거나 이득이 생길 때에만, 자신의 상태 변경을 알려 준다. 청구서를 우편으로 받고 있지 않다면, 이사간 사실을 신고하지 않는다. 신용등급을 조정하여 기존 대출의 금리 인하를 요구할 상황이 아니라면, 승진이나 연봉 인상 사실을 신고하지 않는다. 회사 입장에서는 고객의 상태 변경을 파악하는 것이 매우 중요하다. 고객이 …

알면 알수록 요긴한 데이터 시각화, 어떻게 고를까 ?

출처 : CIO Korea 데이터를 보여주는 애플리케이션을 개발한다면 애플리케이션 내에 그래프, 차트, 대시보드, 여타 시각화 기능이 들어 있어야 한다. 이는 이용자가 데이터를 좀더 잘 이해하고 통찰을 발견하도록 하는데 유용할 뿐 아니라, 사용자경험 역시 제고한다. 사람들이 양질의 시각 데이터를 접한다면 해당 애플리케이션의 사용 늘고 동시에 만족도가 높아질 것이다.   ⓒCredit: Thom Masat modified by IDG Comm. …

주성분 분석 예제(R)

(1) 89구역 54식물종 분석 (단위: 그램) 참조: The R Book: R로 배우는 데이터 분석 기술 (Page 942-945) pgdata <- read.table("data/pgfull.txt", header = T) names(pgdata) ## [1] "AC" "AE" "AM" "AO" "AP" "AR" "AS" ## [8] "AU" "BH" "BM" "CC" "CF" "CM" "CN" ## [15] "CX" "CY" "DC" "DG" "ER" "FM" "FP" ## [22] "FR" "GV" …