오전 : HCI 논문 마무리, 각주 달아서 보내기
오후 : 병리조직학 대여, ML공부
오전 : HCI 논문 마무리, 각주 달아서 보내기
오후 : 병리조직학 대여, ML공부
왜 이항분포를 에러를 확인하는 데 써야하는가?
->답변이 필요하다.
이항확률분포에서 알고싶은 것은 이를테면
"과거의 경험으로 상점관리자는 한고객이 구매할 확률은 0.3이라고 생각되는데, 그렇다면 지금 3명중 2명이 구
매할 확률은 얼마일까?"
이다.
한고객이 구매할 확률을 무시하고 그냥 3명의 고객이 2개를 고를 선택의 가지수는 3Combine2 조합이다.
즉 ┌3┐ 가 된다. 수식으로 쓰자면 3! / 2!(3-2)!가 된다. 즉 3가지가 나온다.(SSF)(SFS)(FFS)로
└2┘
트리를 그려보면 눈에 보기 쉽게 알 수 있다. 이는 총 나올수 있는 가짓수인 상태비트가 3개니까 8개로
3/8이라고 할 수 있겠으나, 여기서는 그냥 그 가짓수에만 초점을 맞춘다.
즉 3개인 것이 중요한 것이다. 여기서는. 왜일까? 왜 3/8에는 초점을 맞추지 않을까???
각 실험결과들의 확률을 구해야 한다. 이는 사전에 추정한확률 0.3로 부터 구할수 있다.
이항실험의 조건이 다름이 아니라 이게 아니면 저거여야 하고 모든 실험에서는 같은 확률을 가지므로
생각할 필요없이 SSF라면 0.3 0.3 (1-0.3)이므로 쉽게 0.063이라는 사실을 할 수 있다.
일부 외부적인 요인들은 결여 되어 있고 그냥 기존에 이러했으니 지금도 이러할 것이다라는
일반적인 통계적 가정을 따르는 것이겠지?? 이렇게 뭉뜽그려 말하기는 좀그런가;;
좀더 내쪽에 맞게 생각하자면,
r번 에러가 날 확률은 어떻게 알수 있냐면 S라는 샘플의 개수에 맞게 n 번 시행 하니까 r/n일 것이다.
이때 r이라는 것은 목표함수인 f(x)와 내가 만든 함수인 h(x)의 차이들의 합이다. 즉
r = sigma(x∈S) δ(f(x),h(x)) 이니까,
1/n sigma(x∈S) δ(f(x),h(x)) where n=|S| 이라면,
n번 시행 했을 때 r번 에러가 날 확률을 말해주는 것이다.
이는 이항실험의 3번째 특성인 성공의 확률이 이때의 에러가 일어나 확률이다.
이항실험의 특성은 아래 4개이다. 이중 2,3,4번만 되면 베르누이 시행이다.
- 실험은 n개의 동일한 시행으로 구성되어 있다.
- 각 실험은 두가지 결과를 가진다. 그 결과를 성공, 실패라고 부른다.
- 성공의 확률은 p이며 반복실험에서 변하지 않는다. 따라서 실패의 확률 1-p도 반복실험에서 변하지 않는다.
- 각 실험은 독립적으로 행해진다.
이는 n개중 r번 에러가 날 갯수에 에러가 나올수 있는 확률을 곱한 것이다.
그냥 r 번
1. crawl web data 20111031
2. refine crawled data 20111101
졸업까지 졸업논문1, 학점1
수료까지 과제1, 기술역량1, 수료심사1
~12:00 스터디, 다운로드
2:00~ 압축 풀기, Index merging 시작
3:00~ 인터넷 연결 수리, 기계학습 공부 시작