work list
2011-11-02 17:54:27

오전 : HCI 논문 마무리, 각주 달아서 보내기

오후 : 병리조직학 대여, ML공부

▼ more
내맘대로 이항분포;;;
2011-11-01 23:07:27

왜 이항분포를 에러를 확인하는 데 써야하는가?

->답변이 필요하다.

이항확률분포에서 알고싶은 것은 이를테면

"과거의 경험으로 상점관리자는 한고객이 구매할 확률은 0.3이라고 생각되는데, 그렇다면 지금 3명중 2명이 구

매할 확률은 얼마일까?"

이다.

한고객이 구매할 확률을 무시하고 그냥 3명의 고객이 2개를 고를 선택의 가지수는 3Combine2 조합이다.

즉 ┌3┐ 가 된다. 수식으로 쓰자면 3! / 2!(3-2)!가 된다. 즉 3가지가 나온다.(SSF)(SFS)(FFS)로

└2┘

트리를 그려보면 눈에 보기 쉽게 알 수 있다. 이는 총 나올수 있는 가짓수인 상태비트가 3개니까 8개로

3/8이라고 할 수 있겠으나, 여기서는 그냥 그 가짓수에만 초점을 맞춘다.

즉 3개인 것이 중요한 것이다. 여기서는. 왜일까? 왜 3/8에는 초점을 맞추지 않을까???

각 실험결과들의 확률을 구해야 한다. 이는 사전에 추정한확률 0.3로 부터 구할수 있다.

이항실험의 조건이 다름이 아니라 이게 아니면 저거여야 하고 모든 실험에서는 같은 확률을 가지므로

생각할 필요없이 SSF라면 0.3 0.3 (1-0.3)이므로 쉽게 0.063이라는 사실을 할 수 있다.

일부 외부적인 요인들은 결여 되어 있고 그냥 기존에 이러했으니 지금도 이러할 것이다라는

일반적인 통계적 가정을 따르는 것이겠지?? 이렇게 뭉뜽그려 말하기는 좀그런가;;

좀더 내쪽에 맞게 생각하자면,

r번 에러가 날 확률은 어떻게 알수 있냐면 S라는 샘플의 개수에 맞게 n 번 시행 하니까 r/n일 것이다.

이때 r이라는 것은 목표함수인 f(x)와 내가 만든 함수인 h(x)의 차이들의 합이다. 즉

r = sigma(x∈S) δ(f(x),h(x)) 이니까,

1/n sigma(x∈S) δ(f(x),h(x)) where n=|S| 이라면,

n번 시행 했을 때 r번 에러가 날 확률을 말해주는 것이다.

이는 이항실험의 3번째 특성인 성공의 확률이 이때의 에러가 일어나 확률이다.

이항실험의 특성은 아래 4개이다. 이중 2,3,4번만 되면 베르누이 시행이다.

- 실험은 n개의 동일한 시행으로 구성되어 있다.

- 각 실험은 두가지 결과를 가진다. 그 결과를 성공, 실패라고 부른다.

- 성공의 확률은 p이며 반복실험에서 변하지 않는다. 따라서 실패의 확률 1-p도 반복실험에서 변하지 않는다.

- 각 실험은 독립적으로 행해진다.

이는 n개중 r번 에러가 날 갯수에 에러가 나올수 있는 확률을 곱한 것이다.

그냥 r 번

▼ more
paper progress
2011-10-31 13:36:08

1. crawl web data 20111031

2. refine crawled data 20111101

▼ more
work list
2011-10-28 09:49:45

졸업까지 졸업논문1, 학점1

수료까지 과제1, 기술역량1, 수료심사1

~12:00 스터디, 다운로드

2:00~ 압축 풀기, Index merging 시작

3:00~ 인터넷 연결 수리, 기계학습 공부 시작

▼ more