[NLP] 언어 이론 개념 정리-1
출처가 명시되지 않은 모든 자료(이미지 등)는 조성현 강사님의 강의 및 강의 자료를 기반으로 합니다.
기억해야 할 언어 이론 개념-1
1. 형태소 분석과 품사 태깅(POS tagging)
- 품사: 문장의 구성 성분(Part-of-Speech). 공통된 성질을 가진 단어끼리 모아 놓은 단어의 갈래.
참고 : 한국어 품사
명사, 대명사, 수사, 조사, 동사, 형용사, 관형사, 감탄사.
- 품사 태깅: 문장에 사용된 단어들에 알맞는 품사를 결정하는 작업.
품사 태깅 작업을 수행하기 위해서는 사전에 올바른 품사가 정의된 문서 코퍼스(말뭉치)가 있어야 한다. Tagged Corpus
를 학습하여 분석할 문장 내 단어의 품사를 결정한다.
문장의 의미 파악, 문법에 맞는 문장 생성을 위해 품사 태깅이 꼭 필요하다. 특히 NLP에서는 기계가 문장의 의미를 파악한 후, 인간 언어의 구조에 맞게 문장을 생성해야 하므로 품사 태깅이 매우 중요하다.
매우 중요한 작업이지만, Ambiguity로 인해 언제나 어려운 작업이다.
- 형태소 분석과의 관계(참고 : 이상호 박사님 강연)
형태소 분석기란 모든 가능한 형태소 분석 결과를 내 주는 모듈이고, 품사 태깅은 형태소 분석기를 통해 얻을 수 있는 문장 내 모든 형태소 분석 결과 중 가장 적절한 것을 선택하는 과정이다.
NLP 처리의 기본 중 기본이다. 가장 많이 사용되는 예로 검색 시스템의 색인어 추출이 있다. 예컨대, 사용자가 경찰청국장
을 검색했을 때, 이 검색어에 대한 형태소 분석이 경찰 / 청국장
으로 이루어지는지, 경찰청 / 국장
으로 이루어지는지에 따라 색인이 완전히 달라진다.
다음으로 음성 인식기 및 합성기 구현이 있다. 사람은 계속해서 언어를 써 왔기 때문에 머릿 속에 품사 및 형태소에 따른 발음 규칙이 제대로 내재되어 있다. 단어, 품사의 발음 법칙 등이 결합되어 발화한다. 그러나 기계의 음성 인식 및 합성의 경우, 음성을 텍스트로 인식할 때, 텍스트를 음성으로 바꿀 때 기계가 품사 및 형태소를 알아야 한다.
2. 문서 정보 추출
- 문서 정보 추출: 텍스트 문서로부터 특정 질문에 대한 정보를 추출하는 것. 머신러닝에서는 주로 조직의 이름, 소재 위치를 다룸.
댓글남기기