[NLP] 언어 이론 개념 정리-1

1 분 소요

출처가 명시되지 않은 모든 자료(이미지 등)는 조성현 강사님의 강의 및 강의 자료를 기반으로 합니다.

기억해야 할 언어 이론 개념-1

1. 형태소 분석과 품사 태깅(POS tagging)

  • 품사: 문장의 구성 성분(Part-of-Speech). 공통된 성질을 가진 단어끼리 모아 놓은 단어의 갈래.

참고 : 한국어 품사

명사, 대명사, 수사, 조사, 동사, 형용사, 관형사, 감탄사.

  • 품사 태깅: 문장에 사용된 단어들에 알맞는 품사를 결정하는 작업.

품사 태깅 작업을 수행하기 위해서는 사전에 올바른 품사가 정의된 문서 코퍼스(말뭉치)가 있어야 한다. Tagged Corpus를 학습하여 분석할 문장 내 단어의 품사를 결정한다.

문장의 의미 파악, 문법에 맞는 문장 생성을 위해 품사 태깅이 꼭 필요하다. 특히 NLP에서는 기계가 문장의 의미를 파악한 후, 인간 언어의 구조에 맞게 문장을 생성해야 하므로 품사 태깅이 매우 중요하다.

매우 중요한 작업이지만, Ambiguity로 인해 언제나 어려운 작업이다.

형태소 분석기란 모든 가능한 형태소 분석 결과를 내 주는 모듈이고, 품사 태깅은 형태소 분석기를 통해 얻을 수 있는 문장 내 모든 형태소 분석 결과 중 가장 적절한 것을 선택하는 과정이다.

NLP 처리의 기본 중 기본이다. 가장 많이 사용되는 예로 검색 시스템의 색인어 추출이 있다. 예컨대, 사용자가 경찰청국장을 검색했을 때, 이 검색어에 대한 형태소 분석이 경찰 / 청국장으로 이루어지는지, 경찰청 / 국장으로 이루어지는지에 따라 색인이 완전히 달라진다.

다음으로 음성 인식기 및 합성기 구현이 있다. 사람은 계속해서 언어를 써 왔기 때문에 머릿 속에 품사 및 형태소에 따른 발음 규칙이 제대로 내재되어 있다. 단어, 품사의 발음 법칙 등이 결합되어 발화한다. 그러나 기계의 음성 인식 및 합성의 경우, 음성을 텍스트로 인식할 때, 텍스트를 음성으로 바꿀 때 기계가 품사 및 형태소를 알아야 한다.

2. 문서 정보 추출

  • 문서 정보 추출: 텍스트 문서로부터 특정 질문에 대한 정보를 추출하는 것. 머신러닝에서는 주로 조직의 이름, 소재 위치를 다룸.

태그:

카테고리:

업데이트:



hit count image

댓글남기기