LM level 1
2013-01-18 00:35:15


KN의 Continuation 개념은 의미는 알겠는데 수식과 매칭이 안된다..

gogo LM
2013-01-15 23:59:35

What is LM

- LM tells you which strings are more likely.

LM basic

- Markov assumption. P(wn|w1~n-1) ~~ P(wn|wn-1)

MLE(simplest and intuitive way) maximum liklehood extimation

- P(wn|wn-1) = C(wn-1w) / C(wn-1) => 이전 단어가 나오는 모든 것을 세고 그중 그다음단어가 나올 것을 나눠주니까 이

건 확률값으로 유효하다.

MLE = argmax(wn) P(wn|wn-1)

- <s> I am Sam </s>

- <s> Sam I am </s>

- <s> I do not like green eggs and ham </s>

- Relative frequency

- - P(I | <s>) = 2/3, P(Sam | <s>) = 1/3, P(am | I) = 2/3, P(</s> | Sam) = 1/2, P(Sam|am) = 1/2,

P(do|I) = 1/3


MLE has problems.

- Unseen data and OOV(out of vocabulary) words assigned zero probability

- More data?? Empirically not seen to help.(Zipf's Law..?) 많이 쓰이는 단어는 정해져있다는 법칙

- 출현 빈도는 등수의 역수에 비례한다는 어림짐작.


Smoothing : Subtract some probability from seen events and assign to unseen event.

- Laplace (add one) : we need to augument unigram count by the number of total word types in the vocabularary V

P*Lplace(wn|wn-1) = C(Wn-1Wn) + 1 / C(Wn-1)+V

delta rather than 1 can be used.

- Good-Turing10 carp, 3perch, whitefish 1 trout 1 salmon and 1 eel =>total 18

Un seen (Bass, catfish) : c =0 MLEp p=0/18=0 |||| Trout c= 1 MLE 1/18

c* = N1 / N = 3/18 |||| P*GT(trout) = 0.67 / 18 = 0.037

trout is discounted 1 to 0.67

MUST READ 4.5.3!!!

N-gram Hirarchy.. => Interpolation and backoff

Interpolation : we estimate the trigram probability by mixing together the unigram, bigram, and trigram

probability, each weighted by a lambda.(such that the lambdas to 1)

how to set lambda values? by using held-out data... this is some kind of training set(it's not for N-gram counts).

we can set lambda iteratively by using EM algorithms.

=> regardless of non-zero probability, sum all probability until unigram

Back-off : fall back to lower order models. only if we have zero evidence for a higher-order N-gram.

- katz backoff uses Good-Turing discounting as well.

- We continue backing off until we reach a history that has some counts:(4.35)

=> only non-zero probabiliy.

Good-Turing : smoothing .. 횟수로 bucket 을 만들고 거기에 들어가는 애들을 가지고 함.

weassumed that these unseen events were all equally probable, and so the probability mass was distributed evenly

among all unseen events =>but Katz gibes us a better way to distribute the probability mass among unseen trigram

events by relying on information from unigram and bigram.

We use

Discounting to tell us how much total probability mass to set aside for all the events we hanven't seen

Backoff to tell us how to distribute this probability.


Advenced Issues in LM

Kneser-Ney Smoothing

- interpolated Kneser-Ney algorithm.

- its roots in a discounting method called absolute discounting.(ad formalizes this intuition(in GT, except for

0,1, 0.75 is subtracted)by subtracting a fixed (absolute) discount d from each count.

- the intuition is that

- we have good estimates already for the high counts,

- and a small discount d won't affect them much.


I can't see w/o my reading ...

glasses is more likely to follow here than the word "Francisco". but Francisco is more common so a unigram model

will prefer it to glasses!

Although Fr is frequenct, it's only frequent after word San, that is in the phrase San Francisco... The word

glasses has a much wider distribution.

Thus instead of backing off to unigram MLE count, we want to use a completely different backoff distribution. We

want a heuristic that more accurately estimates the number of times We might expect to see word w in a new unseen

eontext. The Kneser-ney intuition is to base our estimate on the number of diffent context wordw has appeared in.

Word that has appeared in more context are more likely to appear in some new context as well. We can express this

new backoff probability, the "continuation probability", as follow(4.49)

WFST, SGMM 기저표현 MLLR, fMLLR 적지도 못한채..
2013-01-10 01:05:25


세미나 준비
2013-01-09 02:15:41


Model "M"

WFST : 흐름

SGMM : 흐름




Adaptive and Discriminative Features

▼ more