DS 리딩 7
2016-04-30 00:15:01

2주가 남았으니 아마 반드시 잊어버릴 것 같다.

일단 Precision Recall 관련 개념과 수식들 다시 봐야함 특히 ROC 커브 개념은 다시 자세히 봐야함.

A/B 테스트는 그렇고.

Potti 선생님(피고인이라고 해야하나^^;) 은 왜 그러셨니; 아무튼 이것도 뭔가 실험재현 차원에서 보긴해야할 것 같은데 우선 아래 4 개는 명시되어있던 거니 적어도 뭔지는 다시 봐야함.

1. Respondent stated in grant application 1 R01 CA136530-01A1 that 6 out of 33 patients responded positively to dasatinib(약이름) when only 4 patients were enrolled and none responded and that the 4 CT scans presented in Figure 14 were from the lung cancer study when they were not.

2. Respondent altered data sets to improve the accuracy of predictors for response to treatments in a submitted paper and in the research record by:

. Reversing the responder status of 24 out of 133 subjects for the adriamycin(약이름) predictor in a manuscript submitted to Clinical Cancer Research

. switching the cancer recurrence phenotype for 46 out of 89 samples to validate the LMS predictor in a file provided to a colleague in 2008

. changing IC-50 and R-code values for the cisplatin(약이름) predictor in a data set provided to NCI in 2010

잊어버리겠지만 다시 상기해야한 다는 사실을 잊지말길 ^^;

▼ more
NNLM
2016-04-29 20:29:49

동일 컨텍스트 다음에 나오는 단어들의 확률 분포는 한번만 구해도 모두 계산된다..?

Hierarchical softmax 인 경우는 모두는 아니고 함께 묶이는 것들이라서 log 로 스케일이 줄긴하겠지만.. 그러면

w1, w2, w3 을 넣어서 이게 얼마니? 하고 물어보면 w3의 확률을 구하기 위해서 사실 w3 에 연관된 단어들을 이미 계산 했다는 게 될텐데 이걸 나중에 사용할 수는 없나?

그게 Cache based LM 이었나;;

뭔가 헷갈리는듯;

▼ more
반도 제대로 정리가 안되었군 ㅠ
2016-04-18 23:34:34

Data 분석 왜 많이 하니?

Advancement of Technology

• (Big) data handling

– Much easier‐to‐use software

– Server clusters in the cloud

• Algorithms and analysis platforms

– Much improved performance

• Data tend to be less difficult to obtain

– People are aware of the importance

(well, does not necessarily mean many people understand the

exact value or how to extract it)

• When simple (or less complicated)

– Data approach works

– ‘Traditional Research’ might work as well (or

better)

• When complicated

– Data approach often gives a better chance

– When done properly…

LDA

Data Processing

Visualization

Analysis

Interpretation

Box Plot!!!

목적한 바가 중요하다.

Causality

Confounding means a difference between treatment and control groups - other than the treatment – which affects the response being studied

독립변수 이외에 종속변수에 영향을 주는 다른 요인

사람 vs 기계

• Certain tasks are better done by human

– Hacking

– Iteration

– Visual inspection

– Bringing knowledge from outside (of data)

• Some others by machine

– High‐dimensional analysis

– Data crunching (stats calculation, etc.)

– Organized approaches when one has no clue

• e.g. Automatic feature generation/selection

– ML algorithms

• Each known to work well for certain problems

• e.g. Deep learning on text, speech, image

Typical Sequence

(1/50) ^6

1 - (1/(50^6))

Lean Start Up!

Minimize the total time through the loop

IDEAS -> (build) -> Code -> (Measure) -> DATA -> (LEARN) -> IDEAS

Ensemble

Statistical : 양

Representational : 표현 자체 불가..(

Computational : 계산(Local minimal)

ML Performance, Task, Evaluation

Entropy

-Sigma p(x) log p(x)

Correl

sigma(x-_x)(y-_y) / squrt((x-_x)^2 * (y-_y)^2)

Box Plost 4분위수, 평균, Median, 동떨어진 것!!, Min, Max

▼ more
10 년 전 일도
2016-04-16 20:03:16

40 년 전 일도 상황은 변했고 시간은 흘러갔지만

누구에게나 항상 떠올리게 하고 머물게 하는 시간이 있지 않을까?

그게 좋은 순간이건 몸서리치게 떠나고 싶은 순간이건 말이다.

▼ more