1. Konlpy의 형태소 분석기들
konlpy는 한글 자연어 처리를 위한 라이브러리로, Kkma(꼬꼬마), Hannanum(한나눔), Okt(Open Korean Text) 등 다양한 형태소 분석기를 제공합니다. 각 형태소 분석기는 특징이 다르며, 프로젝트의 목적에 따라 적절한 분석기를 선택할 수 있습니다.
2) Kkma(꼬꼬마) 테스트
우선 konlpy에서 Kkma(꼬꼬마)를 import 합니다.
from konlpy.tag import Kkma
kkma = Kkma()
위 모듈을 사용하여 sentences(문장)을 분석합니다.
kkma.sentences('한국어 분석을 시작 합니다 파이썬이 재미있다')
['한국어 분석을 시작합니다', '파이 썬 이 재미있다'] |
마침표(.)가 없어도 두 개의 문장으로 구분되어 출력되는 것을 확인할 수 있습니다. 이번엔 nouns(명사)를 분석합니다.
kkma.nouns('한국어 분석을 시작합니다 파이썬이 재미있다')
['한국어', '분석', '파이'] |
마지막으로 pos(형태소)를 분석합니다.
kkma.pos('한국어 분석을 시작합니다 파이썬이 재미있다')
[('한국어', 'NNG'), ('분석', 'NNG'), ('을', 'JKO'), ('시작하', 'VV'), ('ㅂ니다', 'EFN'), ('파이', 'NNG'), ('썰', 'VV'), ('ㄴ', 'ETD'), ('이', 'MDT'), ('재미있', 'VA'), ('다', 'EFN')] |
3) Hannanum(한나눔) 테스트
konlpy에서 Hannanum(한나눔)을 import 합니다.
from konlpy.tag import Hannanum
hannanum = Hannanum()
nouns(명사)를 분석합니다.
hannanum.morphs('한국어 분석을 시작합니다 파이썬이 재미있다')
['한국어', '분석', '을', '시작', '하', 'ㅂ니다', '파이썬', '이', '재미있', '다'] |
Hannanum(한나눔)의 명사 분석은 Kkma(꼬꼬마)와 다르게 출력되는 것을 확인할 수 있습니다. 이어서 Hannanum(한나눔)의 형태소 분석을 보겠습니다.
hannanum.pos('한국어 분석을 시작합니다 파이썬이 재미있다')
[('한국어', 'N'), ('분석', 'N'), ('을', 'J'), ('시작', 'N'), ('하', 'X'), ('ㅂ니다', 'E'), ('파이썬', 'N'), ('이', 'J'), ('재미있', 'P'), ('다', 'E')] |
'언어 > Python' 카테고리의 다른 글
[Python/자연어 처리] 3. Word Cloud(워드 클라우드) (0) | 2023.12.21 |
---|---|
[Python/자연어 처리] 1. 자연어 처리 정의와 KoNLPy 설치 (0) | 2023.12.20 |