본문 바로가기

실습/파이썬 데이터 분석 및 시각화6

Nltk_영어 텍스트 분석 NLTK import nltk NLTK는 자연어 처리 및 문서 분석에 사용되는 파이썬 라이브러리이다. 기본적인 실습에 필요한 자료를 제공하며, 토큰 생성, 형태소 분석, 품사 태깅 등의 작업을 수행해준다. 또한 한글의 경우 불용어로 별도로 가져와 사용해야 했지만, NLTK는 기본적으로 stopwords를 제공한다는 특징이 있다. from nltk.corpus import stopwords 참고로 만약 위의 두 작업 중 다음의 에러가 발생할 수 있다. Resource stopwords not found. Please use the NLTK Downloader to obtain the resource: 이 경우도 위와 마찬가지로 download 함수를 사용하여 별도의 다운로드를 해주면 더 이상 발생하지 않는.. 2021. 11. 18.
Konlpy_한글 텍스트 분석 텍스트 분석 텍스트 분석이란 비정형 데이터인 텍스트에서 의미있는 정보를 추출하는 작업이다. 텍스트 분석의 종류로는 텍스트 분류, 감성 분석, 요약, 군집화와 유사도 측정 등이 있다. 텍스트 분석의 순서는 다음과 같이 이루어진다. 문장 : 최초의 입력값 단어 : 문장을 단어 단위로 자른다. (영어의 경우 띄어쓰기 단위로, 한글은 형태소 단위로 자르곤 한다.) 키워드 : 단어의 배열에서 내장된 사전을 통해 키워드를 추출한다. 필터링 : 추출한 키워드 중 필요없는 단어들을 필터링한다. 집계 : 필터링 결과를 집계한다. 시각화 : 집계 결과를 시각화한다. 위의 과정 중 문장을 단어로 나누는 작업은 영어의 경우라면 띄어쓰기 만으로 충분히 처리할 수 있다. 하지만 한국어의 경우 같은 단어라도 다양한 형태로 나타나기.. 2021. 11. 18.
Bokeh 패키지 Bokeh Bokeh는 Matplotlib, Seaborn과 마찬가지로 파이썬에서 그래프를 작성하는 라이브러리이다. 사실 Matplotlib이나 Seaborn을 사용하면 대부분의 그래프는 출력이 가능하다. 하지만 굳이 Bokeh를 사용하는 이유는 바로 사용자와의 상호작용 때문이다. 기본적으로 위의 두 라이브러리들은 출력 후 사용자는 해당 그래프에 대하여 어떤 상호작용, 즉 이벤트를 부여할 수 없다. 하지만 그에 비해 Bokeh은 출력된 그래프에 대하여 드래그, 확대 등 다양한 상호작용이 가능하고, 이러한 장점을 강점으로 삼는다. 줄여 말하면 Bokeh은 Interactive한 그래프를 그릴 수 있는 패키지이다. 선언은 아래와 같다. from bokeh.plotting import figure from b.. 2021. 11. 17.
Seaborn 사용법 Seaborn Seaborn은 matplotlib 기반의 파이썬 시각화 라이브러리이다. 여러 유용한 그래프를 그리기 위한 인터페이스를 제공한다. import seaborn as sns matplotlib 기반이기에 plt.figure(figsize=(x, y)) 와 같은 그래프 설정도 동일하게 적용 가능하다. 데이터 seaborn은 연습을 위한 다양한 데이터셋을 제공한다. 데이터 로딩은 sns.load_dataset()을 통해 불러올 수 있다. 실습에는 타이타닉 데이터를 활용한다. tt = sns.load_dataset('titanic') 참고로 타이타닉 데이터는 다음과 같이 구성되어 있다. 막대 그래프 #막대 그래프 :범주형 변수의 빈도수를 시각화 #성별별 인원수 측정 sns.countplot(data.. 2021. 11. 17.
Matplotlib 사용법 Matplotlib Matplotlib은 파이썬 과학 계산용 그래프 라이브러리이다. 쉽게 말하면 파이썬에서 데이터를 활용해 그래프를 그리는 라이브러리로, 선 그래프, 히스토그램, 산점도 등의 그래프들을 쉽게 그릴 수 있도록 지원되어 데이터 시각화에 많이 사용된다. import matplotlib.pyplot as plt Figure과 Subplot Matplotlib을 활용해 그래프를 그리기 위해서는 다음의 두 가지가 필요하다. Figure : 그래프를 그릴 수 있는 영역 Subplot : 실제 그래프가 그려지는 영역 import matplotlib.pyplot as plt import random fig = plt.figure() ax = fig.add_subplot(111) #행번호, 열번호, 그림번.. 2021. 11. 17.
Pandas 사용법 Pandas 판다스는 데이터 조작, 처리 및 분석을 위한 파이썬 라이브러리로, 행과 열로 이루어진 테이블 데이터, 즉 정형 데이터에 대한 처리가 특화된 라이브러리이다. Pandas는 DataFrame 구조를 기반으로 만들어졌는데, 이는 테이블 형태와 유사하기에 엑셀 데이터와 연동이 좋다. 그렇기에 SQL, 엑셀, CSV 파일 등 다양한 소스에서 데이터를 읽기 쉽다. Pandas는 테이블을 수정하고 조작하는 다양한 기능을 제공한다. Numpy와의 큰 차이점으로, Numpy는 배열 내 모든 원소의 타입이 동일해야 하는 반면에 Pandas는 각 원소의 타입이 달라도 상관이 없다. import pandas as pd 판다스의 데이터 유형은 크게 두 가지인데, 하나는 Series, 다른 하나는 Data Frame.. 2021. 11. 17.