반응형
우리는 통계의 시대에 살고 있다. 많은 데이터로 통계를 하면 빅데이터이고 그걸 많이 하면 머신 러닝이다. 통계 해석, 회귀분석이라고 하면 고리타분해 보이지만 데이터마이닝, 뉴럴 네트워크라고 하면 있어 보인다. 50년도 더 된 학문이 IT를 만나 비약적으로 발전하고 있다. 그래도 여전히 핵심은 통계학이다.
전수조사와 표본조사
전수조사를 하면 정확한 데이터를 얻을 수 있다. 하지만 표본조사를 해도 오차가 크지 않다. 선거 때 출구조사가 거의 맞는 것만 봐도 표본조사의 위력을 알 수 있다. 결국 돈과 시간의 문제다. 1%의 정확도 개선을 위해 수억을 투자할 필요가 있는가. 그럴 필요가 없다면 빅데이터가 필요 없다.
오차와 인과관계
세상에는 우연이 존재한다. 나에게는 그런 일이 일어나지 않을 거라고 믿는 것이 아니라면 오차를 고려해야 한다. 인과관계의 방향 또한 중요하다. 광고를 본 사람과 구매자의 비율을 단순 조사하는 것은 의미가 없다. 광고를 봐서 구매한 것인지 구매해서 광고를 본 것인지 해석이 필요하다. 그래야 그 결과를 가지고 이익을 내는 방법을 찾을 수 있다.
두 그룹 간의 비교
연속값 : 평균값의 차이를 t검정
이산값 : 집계표의 기술과 카이제곱 검정
다그룹 간의 비교
연속값 : 평균값의 차이를 분산 분석
이산값 : 집계표의 기술과 카이제곱 검정
연속값의 크기로 비교
연속값 : 회귀 분석
이산값 : 로지스틱 회귀 분석
복수의 요인으로 동시 비교
연속값 : 다중 회귀 분석
이산값 : 로지스틱 회귀 분석
반응형
'책 > 경제,경영' 카테고리의 다른 글
90년생이 온다 - 임홍택 (0) | 2020.12.12 |
---|---|
디맨드 - 에이드리언 슬라이워츠키, 칼 웨버 (0) | 2020.12.11 |
인플루언서 마케팅 - 테드 라이트 (0) | 2020.12.07 |
블록체인노믹스 - 오세현, 김종승 (0) | 2020.12.06 |
나는 돈이 없어도 사업을 한다 - 프레이저 도허티 (0) | 2020.12.04 |
댓글