[파이썬 DM] NLTK 자연어 처리 패키지 (사이트 링크)

티스토리 뷰

5. 파이썬

[파이썬 DM] NLTK 자연어 처리 패키지 (사이트 링크)

패스트코드블로그 2020. 5. 24. 14:02

1
2
3
4
5
6
7
8
9
10
11

import nltk
nltk.download('book', quiet=True)
from nltk.book import *
"""
예를 들어 저작권이 말소된 문학작품을 포함하는
gutenberg 말뭉치에는 다음과 같은 작품이 샘플로 포함되어 있다."""
nltk.corpus.gutenberg.fileids()
"""
이 중 제인 오스틴의 엠마 문서를 살펴보면 다음과 같이 원문 형태 그대로를 포함하고 있다."""
emma_raw = nltk.corpus.gutenberg.raw("austen-emma.txt")
print(emma_raw[:1302])
Colored by Color Scripter

cs

참조 : 데이터 사이언스 스쿨 NLTK 자연어 처리 패키지

https://datascienceschool.net/view-notebook/118731eec74b4ad3bdd2f89bab077e1b/

Data Science School

Data Science School is an open space!

datascienceschool.net

NLTK(Natural Language Toolkit) 패키지는

교육용으로 개발된 자연어 처리 및 문서 분석용 파이썬 패키지다.

다양한 기능 및 예제를 가지고 있으며 실무 및 연구에서도 많이 사용된다.

NLTK 패키지가 제공하는 주요 기능은 다음과 같다.

말뭉치
토큰 생성
형태소 분석
품사 태깅

말뭉치(corpus)는 자연어 분석 작업을 위해 만든 샘플 문서 집합을 말한다.

단순히 소설, 신문 등의 문서를 모아놓은 것도 있지만

품사. 형태소, 등의 보조적 의미를 추가하고 쉬운 분석을 위해

구조적인 형태로 정리해 놓은 것을 포함한다.

NLTK 패키지의 corpus 서브패키지에서는 다양한 연구용 말뭉치를 제공한다.

이 목록은 전체 corpus의 일부일 뿐이다.

말뭉치 자료는 설치시에 제공되지 않고 download 명령으로 사용자가 다운로드 받아야 한다.

nltk.download('book') 명령을 실행하면

NLTK 패키지 사용자 설명서에서 요구하는 대부분의 말뭉치를 다운로드 받아준다.

[ 이하 생략 ]

'5. 파이썬' 카테고리의 다른 글

[파이썬 NL] 한글 자연어 처리기 Komoran, Hannanum, Kkma, Okt 성능 비교 (사이트 링크) (0)	2020.05.24
파이썬/자연어/2020-05-24/ NLTK를 활용한 제인 오스틴의 엠마 분석 (0)	2020.05.24
파이썬/자연어/2020-05-24/ 꼬꼬마 이용한 텍스트 마이닝 (0)	2020.05.24
[플라스크] index.html (0)	2020.05.24
[구글코랩] GAN 파일 업로드 (0)	2020.05.22

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

글 보관함

티스토리 뷰

[파이썬 DM] NLTK 자연어 처리 패키지 (사이트 링크)

'5. 파이썬' 카테고리의 다른 글

티스토리툴바