항상 실험때마다 햇갈리는 것중 하나는 ANOVA 대충 개념과 예제 정리로 남겨본다.
참고로 사용법은..
Excel 2010기준
-> 최상단 저장, 실행취소 옆 화살표 누룬뒤 -> 기타명령
-> 추가기능 -> 하단관리(A) 에서 Excel 추가기능 -> 분석 도구, 분석 도구-VBA 선택 -> 확인
-> 그후 엑셀 데이터 탭 -> 데이터 분석 -> 일원분산분석 틀릭
- 일원 분산 분석이라고 불리는 ANOVA 분산 분석은 평균을 비교
- 표본 분산을 분석하여 모집단들의 값들이 동일하냐 안하냐를 검정
- F분포를 이용하여 N개의 모집단 평균에 적용
- 즉 집단 끼리 같냐 안 같냐를 확인
1) 가설
귀무 가설 : 모든 집단의 평균은 다 같다.
대립 가설 : 집단의 평균은 같지 않다.
귀무 가설이 적합 즉 기각된다면 모든 집단의 평균은 고르지 않다라는 뜻
사용 예)
1) 선행 알고리즘인 A와 후발 알고리즘인 B의 평균이 같을때 ANOVA 분석을 통해 채택이라는 결론을 얻는다면 알고리즘 A와 B는 동일한 성능을 동일하다.
H0: 알고리즘 A = 알고리즘 B
Ha: 알고리즘 A != 알고리즘B
2) 선행 알고리즘 A와 후발 알고리즘 B의 평균이 비슷하나 B알고리즘 살짝 높았을 때 ANOVA 분석을 해본 결과 귀무 가설이 기각되었다면 B는 A보다 성능이 좋다.
H0: 알고리즘 A = 알고리즘 B
Ha: 알고리즘 A<알고리즘B
ex) 엑셀
- 사용 열 3개
- 분석하고 자하는 열을 모두 사용(열 기준으로 알아서 정렬)
- 유의수준 0.1
결과
요약표 | ||||||
인자의 수준 | 관측수 | 합 | 평균 | 분산 | ||
Column 1 | 100 | 84.73289 | 0.847329 | 0.003899 | ||
Column 2 | 100 | 92.29315 | 0.922932 | 0.005305 | ||
Column 3 | 100 | 91.62573 | 0.916257 | 0.004548 | ||
분산 분석 | ||||||
변동의 요인 | 제곱합 | 자유도 | 제곱 평균 | F 비 | P-값 |
F 기각치 |
처리 | 0.350381 | 2 | 0.175191 | 38.2202 | 1.7E-15 | 2.320529 |
잔차 | 1.361364 | 297 | 0.004584 | |||
계 | 1.711745 | 299 |
제곱평균 : 귀무 가설이 옳다면 제곱합은 0이 되어야한다. 즉 0으로 가까워질 수록 귀무 가설이 옳다.
F비 : F 값이 클수록 집단간 평균 차이가 없다
P값 : 95%인 5%를 유의수준으로 사용했을 때 P Value<0.05 라면 귀무가설 기각, 통계적 차이 있음
즉 P Value가 작으면 작을 수록 차이가 존재한다 의미
F 기각치 : 5% 기각역에 해당하는 값(기준)
F비가 F기각치 보다 크게되면 P값은 0.05보다 작아지게 된다. 따라서 유의해진다.
따라서 위 값은 F값>F 기각치이기 때문에 귀무가설은 기각되고 각각의 그룹 차는 존재하다가 된다.
ex2) 채소 가격(적합)
A채소 | B채소 | C채소 |
15.5 | 14.7 | 15.5 |
14.3 | 16.3 | 13.2 |
16.3 | 15.5 | 16.5 |
13.5 | 15.2 | 15.7 |
15.7 | 16.3 | 15.3 |
16.4 | 13.5 | 15.2 |
14.7 | 15.4 | 14.8 |
분산 분석: 일원 배치법 | ||||||
요약표 | ||||||
인자의 수준 | 관측수 | 합 | 평균 | 분산 | ||
Column 1 | 7 | 106.4 | 15.2 | 1.156667 | ||
Column 2 | 7 | 106.9 | 15.27143 | 0.942381 | ||
Column 3 | 7 | 106.2 | 15.17143 | 1.032381 | ||
분산 분석 | ||||||
변동의 요인 | 제곱합 | 자유도 | 제곱 평균 | F 비 | P-값 | F 기각치 |
처리 | 0.037143 | 2 | 0.018571 | 0.017792 | 0.982383 | 3.554557 |
잔차 | 18.78857 | 18 | 1.04381 | |||
계 | 18.82571 | 20 |
가설
귀무가설 : 채소 A,B,C의 평균가격은 같다
대립가설 : 채소 A,B,C의 평균 가격은 다르다
결론
- F비는 0.0178이고 F 기각치는 3.5546으로 F비< F 기각치 이기 때문에 귀무 가설은 옳다.
- P 값은 0.982기 때문에 유의 수준인 0.05와 P값>0.05이므로 귀무 가설이 옳기 때문에 기각할 수 없다.
- 즉 가설인 모든 종류의 자동차 평균은 같다.
- 귀무가설 채택
ex2) 채소값(기각)
A채소 | B채소 | C채소 |
18 | 95 | 23 |
17 | 97 | 25 |
16 | 93 | 28 |
15 | 92 | 29 |
18 | 91 | 54 |
14 | 90 | 51 |
15 | 95 | 28 |
분산 분석: 일원 배치법 | ||||||
요약표 | ||||||
인자의 수준 | 관측수 | 합 | 평균 | 분산 | ||
Column 1 | 7 | 113 | 16.14286 | 2.47619 | ||
Column 2 | 7 | 653 | 93.28571 | 6.238095 | ||
Column 3 | 7 | 238 | 34 | 164.6667 | ||
분산 분석 | ||||||
변동의 요인 | 제곱합 | 자유도 | 제곱 평균 | F 비 | P-값 | F 기각치 |
처리 | 22830.95 | 2 | 11415.48 | 197.5213 | 5.67E-13 | 3.554557 |
잔차 | 1040.286 | 18 | 57.79365 | |||
계 | 23871.24 | 20 |
가설
- 귀무가설 : A, B, C채소의 평균 가격은 같다
- 대립가설 : A, B,C 채소의 평균 가격은 다르다.
결론 :
- F비는 197.52이고 F 기각치는 3.5546 즉 F비 > F 기각치 이기 때문에 귀무 가설은 기각 된다.
- P 값은 5.67E-13(0.00000...)으로 유의 수준인 0.05보다 작기 때문에 귀무가설은 기각 할 수 있다.
- 채소 A, B, C의 평균 가격은 같다고 할 수 없다
- 대립 가설 채택