티스토리 뷰
1
2
3
4
5
6
7
8
9
10
11
|
import nltk
nltk.download('book', quiet=True)
from nltk.book import *
"""
예를 들어 저작권이 말소된 문학작품을 포함하는
gutenberg 말뭉치에는 다음과 같은 작품이 샘플로 포함되어 있다."""
nltk.corpus.gutenberg.fileids()
"""
이 중 제인 오스틴의 엠마 문서를 살펴보면 다음과 같이 원문 형태 그대로를 포함하고 있다."""
emma_raw = nltk.corpus.gutenberg.raw("austen-emma.txt")
print(emma_raw[:1302])
|
cs |
참조 : 데이터 사이언스 스쿨 NLTK 자연어 처리 패키지
https://datascienceschool.net/view-notebook/118731eec74b4ad3bdd2f89bab077e1b/
NLTK(Natural Language Toolkit) 패키지는
교육용으로 개발된 자연어 처리 및 문서 분석용 파이썬 패키지다.
다양한 기능 및 예제를 가지고 있으며 실무 및 연구에서도 많이 사용된다.
NLTK 패키지가 제공하는 주요 기능은 다음과 같다.
말뭉치
토큰 생성
형태소 분석
품사 태깅
말뭉치(corpus)는 자연어 분석 작업을 위해 만든 샘플 문서 집합을 말한다.
단순히 소설, 신문 등의 문서를 모아놓은 것도 있지만
품사. 형태소, 등의 보조적 의미를 추가하고 쉬운 분석을 위해
구조적인 형태로 정리해 놓은 것을 포함한다.
NLTK 패키지의 corpus 서브패키지에서는 다양한 연구용 말뭉치를 제공한다.
이 목록은 전체 corpus의 일부일 뿐이다.
말뭉치 자료는 설치시에 제공되지 않고 download 명령으로 사용자가 다운로드 받아야 한다.
nltk.download('book') 명령을 실행하면
NLTK 패키지 사용자 설명서에서 요구하는 대부분의 말뭉치를 다운로드 받아준다.
[ 이하 생략 ]
'5. 파이썬' 카테고리의 다른 글
[파이썬 NL] 한글 자연어 처리기 Komoran, Hannanum, Kkma, Okt 성능 비교 (사이트 링크) (0) | 2020.05.24 |
---|---|
파이썬/자연어/2020-05-24/ NLTK를 활용한 제인 오스틴의 엠마 분석 (0) | 2020.05.24 |
파이썬/자연어/2020-05-24/ 꼬꼬마 이용한 텍스트 마이닝 (0) | 2020.05.24 |
[플라스크] index.html (0) | 2020.05.24 |
[구글코랩] GAN 파일 업로드 (0) | 2020.05.22 |
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- FLASK
- React
- ERD
- mariadb
- Mongo
- Java
- database
- intellij
- jQuery
- COLAB
- JPA
- JUnit
- Django
- maven
- springMVC
- SQLAlchemy
- Algorithm
- AWS
- KAFKA
- Oracle
- Eclipse
- Git
- tensorflow
- Python
- Mlearn
- nodejs
- terms
- vscode
- docker
- SpringBoot
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함