Markov model을 쓰면
2011-10-21 20:09:34

내가 수 많은 문장들을 가지고 있고 그것으로 학습을 시켜서,

이 문장에서 나올 수 있는 품사? 혹은 말단 비말단 기호를 말해주는 것에는 바로 응용을 가능하다.

만약 말단, 비말단 기호에 대해서 정하는 문법을 정의하면 확률은 필요없다.

반드시 이 품사단어 뒤에는 그 품사가 오기 때문이다.

즉 품사 1 다음은 품사 2가 온다. 라는 말을 나는 CFG를 통해 정의할 수 있다.

그리고 품사 1, 품사 2에 들어갈 수 있는 단어를 명세할 수 있다.

여기서는 확률이 필요가 없는 것이다. 단,

학습시킬 수 있는 자료가 있다면 품사 내에도 수많은 단어가 있을 것 이기 때문에!

학습을 시켜서 품사 내서 가장 확률이 높은 단어를 말해줄수는 있을 것이다.

하지만 자료가 없고 단지 grammar만 가지고 정의하려고 하는 나의 논문에서 패턴인식적인

접근은 필요하지 않고 차후 자료가 있을때 추천 단어의 ordering에서 사용할 수 있는 기술

일 것이다.

지금 내가 아는 수준의 CFG를 사용할 경우,

너무 많은 rule을 미리 정의 해야 한다는 불가능한 상황이 만들어지기 때문이다.

Generative 하게 rule을 생성하더라도,, 아마 필요한 정보는 있을 것이고 아니면

아이에 훈련 집합이 있어야 할지도 모르는 노릇이다.

지금 내가 아는정도로 CFG를 이용하면 문장을 parsing하고 이를통해 문장에

다른 단어가 추가되어도 grammatical 인지 ungrammatical인지 알아내는 것 뿐이다.

여기까지가 생각의 1장 정도라고 생각하면 되겠다.

CFG로 문법이나 문장 생성규칙을 규정할 수는 있지만 규칙의 가지수가 너무 많아서 현실상 불가능하다.

LD를 공부해보고 그다음이 Attempto를 봐야한다.

그리고 다시 한번 이전 논문을 보자.

결국

현재 적힌 문장 이후 적힐 수 있는 단어를 최소화할 수 있는 규칙을 표현 가능한 방법으로 규정

하는게 목표니까.

지금 SNOMED-CT에는.. 품사 따위 존재하지 않는다.

그것도 알아는 봐야한다.

▼ more
verb date
2011-10-20 10:50:28

This church dates bɑck to 1527. 이 교회의 기원은 1527년으로 거슬러 올라간다.

▼ more
받아들이긴 힘들지만..
2011-10-20 10:32:06

왜 부정적이고 뭔가 염세적인..

Interpole 노래가

집중할때 들으면 도움이 되는걸까?

▼ more
worklist
2011-10-20 09:30:37

오전 : CFG 읽기

오후 : 논문 서문 작성

일과 후 : seminar 피피티

밤 : 결과 발표 PPT 및 소스 정리

오전 : 논문 작성

오후 : seminar 피피티

hypothesis evaluation.

bayesian network!!

▼ more