티스토리 뷰

1
2
3
4
5
6
7
8
9
10
11
import nltk
nltk.download('book', quiet=True)
from nltk.book import *
"""
예를 들어 저작권이 말소된 문학작품을 포함하는
gutenberg 말뭉치에는 다음과 같은 작품이 샘플로 포함되어 있다."""
nltk.corpus.gutenberg.fileids()
"""
이 중 제인 오스틴의 엠마 문서를 살펴보면 다음과 같이 원문 형태 그대로를 포함하고 있다."""
emma_raw = nltk.corpus.gutenberg.raw("austen-emma.txt")
print(emma_raw[:1302])
cs

 

참조 : 데이터 사이언스 스쿨 NLTK 자연어 처리 패키지

https://datascienceschool.net/view-notebook/118731eec74b4ad3bdd2f89bab077e1b/

 

Data Science School

Data Science School is an open space!

datascienceschool.net

NLTK(Natural Language Toolkit) 패키지

교육용으로 개발된 자연어 처리 및 문서 분석용 파이썬 패키지다.

다양한 기능 및 예제를 가지고 있으며 실무 및 연구에서도 많이 사용된다.

NLTK 패키지가 제공하는 주요 기능은 다음과 같다.

말뭉치
토큰 생성
형태소 분석
품사 태깅

말뭉치(corpus)는 자연어 분석 작업을 위해 만든 샘플 문서 집합을 말한다.

단순히 소설, 신문 등의 문서를 모아놓은 것도 있지만

품사. 형태소, 등의 보조적 의미를 추가하고 쉬운 분석을 위해

구조적인 형태로 정리해 놓은 것을 포함한다.

NLTK 패키지의 corpus 서브패키지에서는 다양한 연구용 말뭉치를 제공한다.

이 목록은 전체 corpus의 일부일 뿐이다.

말뭉치 자료는 설치시에 제공되지 않고 download 명령으로 사용자가 다운로드 받아야 한다.

nltk.download('book') 명령을 실행하면

NLTK 패키지 사용자 설명서에서 요구하는 대부분의 말뭉치를 다운로드 받아준다.

 

[ 이하 생략 ]

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함