[BOOSTCAMP AI TECH] 10일차_시각화 도구, 통계학 맛보기

728x90

강의 목록

-시각화 도구

-통계학 맛보기

요약

강의

matplot.pyplot과 serborn 라이브러리를 사용하여 데이터를 시각화 하는 방법을 학습했다.

모수, 확률분포, 가능도 등 확률 관련 수학을 학습했다.

피어세션

어제 배운 내용을 정리하며 다시 한 번 학습하는 시간을 가졌다.

학습정리

Matplot

Pyplot이라는 객체를 사용해 데이터 표시한다.
구체적으로는 Pyplot 객체에 그래프를 쌓은 다음 flush하는 방식이다. 이 때 그래프는 화면에 보여준 후 메모리에 남겨두지 않는다.
단점으로는 argument를 kwargs로 받는데, 고정된 argument가 없어 alt+tab으로 확인이 어렵다.
그래프는 원래 figure 객체에 생성

import matplotlib.pyplot as plt
import numpy as np

x = range(100)
y = x
plt.plot(x, y)
plt.show()

y_1 = [np.cos(value) for value in x]
y_2 = [np.sin(value) for value in x]

plt.plot(x, y_1)
plt.plot(x, y_2)
#plt.plot(range(100), range(100))
plt.show()

Figure & Axes

pyplot 객체 사용시 기본 figure에 그래프가 그려진다.
Matplotlib은 figure안에 axes로 구성하고, figure 위에 여러 개의 axes를 생성한다.
즉, 그냥하면 한 표 안에 여러 그래프가 출력되지만 figure 사용시 여러 표에 각각 하나의 그래프가 출력된다.

fig = plt.figure()
fig.set_size_inches(5,2) #크기 지정
ax_1 = fig.add_subplot(1,2,1) #두 개의 plot 생성
ax_2 = fig.add_subplot(1,2,2) #두 개의 plot 생성

ax_1.plot(x_1, y_1, c='b')
ax_2.plot(x_2, y_2, c='g')

plt.show()

기타 속성

color : 흑백, rgb, predefiend color 사용 가능
ls또는 linestyle로 선 스타일 지정 가능
pyplot에 title 함수로 figure의 subolot별 입력 가능 (atex 차입의 표현도 가능)
legend 함수로 범례 표시와, loc 위치 등 속성 지정도 가능
grid 함수로 보조선을 그을 수 있고, xy축 범위 한계 지정도 가능.

x = range(-100, 100)
y = [x_**2 + x_*2 + 1 for x_ in x]

#color 패러미터로 색 지정 가능. rgb는 그냥 소문자 입력.
#color이나 c 둘 다 가능.
#ls 혹은 linestyle로 선 스타일 지정 : dashed, dotted
#label 두 개 이상의 선일 경우 각 선의 설명
plt.plot(x,y, color = "#000000", ls = "dotted", label = 'line1')

#title 지정
plt.title("(x+1)^2")
#latex 타입의 표현도 가능 ex ) '$y = \\frac{ax+b}{test}$'

#legend로 범례 표현 및 loc 위치 등 속성 지정
#그런데 쓰려면 plot() 안에 label 필요
plt.legend(shadow = True, fancybox = True, loc = "lower right")

#grid : 그래프의 보조선 긋기
plt.grid(True, lw = 0.4, ls = "--", c=".90")

#xlim, ylim xy축 범위 한계 지정
plt.xlim(-200,200) #-200~200까지만 출력
plt.ylim(-200,200)

#저장도 가능
#plt.savefig("test.png", c="a")
#저장하기 전에 show를 하면 파일을 flush를 하기 때문에 메모리 상에 사라짐.
#저장하고 show 하자.

plt.show()

import matplotlib.pyplot as plt
import pandas as pd

df = pd.read_csv("phone_data.csv")

def parsedate(date_info) :
    import datetime
    return date_info[:9]

df["day"] = df["date"].map(parsedate)
result = df.groupby(["network", "day"])["duration"].sum().reset_index()

fig = plt.figure()
fig.set_size_inches(10,10)
plt.style.use("ggplot")

network_type = result['network'].unique().tolist()
ax = []

for i in range(1, 7) :
    ax.append(fig.add_subplot(2,3,i))
    network_name = network_type[i-1]
    plt.title(network_name)
    x_1 = result[result["network"] == network_name]["day"]
    y_1 = result[result["network"] == network_name]["duration"]
    ax[i-1].get_xaxis().set_visible(False)
    ax[i-1].plot(x_1, y_1)

그래프 종류

1) 산전도 그래프

scatter 함수를 사용한다.
marker: scatter 모양 지정.
s : 데이터 크기를 지정하고 데이터 크기 비교 가능

import numpy as np
x = np.random.rand(100, 2)
y = np.random.rand(100, 2)

plt.scatter(x[:,0], y[:,1], c="b", marker = "x") #x모양의 청색 점
plt.scatter(y[:,0], x[:,1], c="r", marker = "^") #▲모양의 적색 점

plt.show()

n=50 #크기 지정
x = np.random.rand(n)
y = np.random.rand(n)
colors = np.random.rand(n)

area = np.pi * (15 * np.random.rand(n)) ** 2
plt.scatter(x, y, s= area, c=colors, alpha=0.5)
plt.show()

2) 막대 그래프

data = [[5, 25, 50, 20], [4, 23, 51, 17], [6, 22, 52, 19]]
x = np.arange(4)

plt.bar(x, data[0], color = 'b', width = 0.25)
plt.bar(x + 0.25, data[1], color = 'g', width = 0.25)
plt.bar(x + 0.5, data[2], color = 'r', width = 0.25)
plt.xticks(x+0.25, ("A","B","C","D"))

plt.show()

#위로 쌓기도 가능
data = np.array(data)
color_list = ['b','g','r']
data_label = ["A","B","C"]
x = np.arange(data.shape[1])
for i in range(data.shape[0]) :
    plt.bar(x, data[i], bottom = np.sum(data[:i], axis = 0), color = color_list[i], label = data_label[i])

plt.legend()
plt.show()

#양 옆으로도 가능
fst_pop = np.array([1,2,3,4,5])
snd_pop = np.array([5,4,3,2,1])
x = np.arange(5)

plt.barh(x, fst_pop, color='r')
plt.barh(x, -snd_pop, color='b') #-를 붙여줘야 반대방향으로 감.
plt.show()

3) 히스토그램

x = np.random.randn(1000)
plt.hist(x, bins = 100) #bins의 갯수만큼의 막대들 출력
plt.show()

4) BoxPlot

최소값(0%)과 최대값(100%)을 보여주고 25%~75%의 범위를 보여주는 그래프이다.

seaborn

통계적 데이터를 시각화할 때 좋다.
matplotlib에 기본 설정을 추가해 더 쉽게 다룰 수 있게 해주는 툴이다.
복잡한 그래프를 간단하게 만들 수 있는 wrapper가 추가됐다.
간단한 코드로 예쁜 결과 구현이 가능하다.
matplotlib과 같은 기본적인 plot인데 손쉬운 설정으로 데이터 산출 가능하다.
lineplot, scatterplot, countplot 등의 그래프 표현도 가능하다.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style="darkgrid")
tips = sns.load_dataset("tips")
fmri = sns.load_dataset("fmri")

sns.set_style("whitegrid")
#sns.lineplot(x="timepoint", y="signal", data=fmri)
#퍼진 거는 분포

#hue는 해당 칼럼에 따라 다른 결과값을 모두 출력해주는 것.
sns.lineplot(x="timepoint", y="signal", hue="event", data=fmri)

*이 외에도 여러 그래프 존재

Vilolinplot - bosplot에 distribution을 함께 표현
Stripplot - scatter와 category 정보를 함께 표현
Swarmplot - 분포와 함께 scatter를 함께 표현
Pointplot - 카테고리별로 numeric의 평균, 신뢰구간 표시
regplot - scatter + 선형함수를 함께 표시
replot - Numeric 데이터 중심의 분포, 선형 표시
catplot - 카테고리 데이터 중심의 표시
FacetGrid - 특정 조건에 따른 다양한 plot을 그리드로 표시
pairplot - 데이터 간의 상관관계
Implot - regression 모델과 category 데이터를 함께 표시

seaborn - multiple plots

한 개 이상의 여러 종류의 도표를 하나의 plot에 작성하는 법
axes를 사용해 grid를 나누는 방법이다.

#산전도 그래프
sns.scatterplot(x="total_bill", y="tip", data=tips)

#산전도 그래프와 선 그래프를 함께 출력
sns.regplot(x="total_bill", y="tip", data=tips)

#countplot : 카테고리데이터의 갯수 셈
sns.countplot(x= "smoker", data=tips)
#hue 추가하면 카테고리 세분화 가능

sns.barplot(x="day", y = "total_bill", data = tips)
#평균 + 분포(선)을 보여줌

sns.distplot(tips["total_bill"],bins=10, kde=False)

import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

sns.set(style = "white", palette = "muted", color_codes = True)
rs = np.random.RandomState(10)

f, axes = plt.subplots(2, 2, figsize = (7,7), sharex = True)
sns.despine(left = True)

d = rs.normal(size = 100)

sns.displot(d, kde=False, color="b", ax = axes[0, 0])
sns.displot(d, hist=False, rug=True, color="r", ax = axes[0, 1])
sns.displot(d, hist=False, color="g", ked_kws = {"shade" : True}, ax = axes[1, 0])
sns.displot(d, color="m", ax = axes[1, 1])

plt.setp(axes, yticks=[])
plt.tight_layout()

모수 (parameter)

통계적 모델링은 적절한 가정 위에서 확률분포를 추정하는 것이 목표이다.
이는 기계학습과 통계학이 공통적으로 추구하는 목표이기도 하다.
그러나 유한한 개수의 데이터만 관찰해서 모집단의 분포를 정확하게 알아내는 것은 불가능하다. 그렇기에 근사적으로 확률분포를 추정해야 한다.
여기서 예측 모형의 목적은 분포를 정확하게 맞추는 것보다 데이터와 추정 방법의 불확실성을 고려해서 위험을 최소화하는 것
데이터가 특정 확률분포를 따른다고 선험적으로 (a priori) 가정한 후 그 분포를 결정하는 모수를 추정하는 방법을 모수적 방법론이라 한다.
특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀐 것을 비모수 방법론이라 한다.
기계학습의 많은 방법론은 비모수 방법론에 속한다.
참고로 비모수방법론은 모수가 없는 것이 아니라, 모수가 무한히 많거나 모수가 자주 바뀌는 경우이다.

확률분포 가정하기

• 확률분포를 가정하는 방법 : 우선 히스토그램을 통해 모양을 관찰한다

• 데이터가 2개의 값(0 또는 1)만 가지는 경우→베르누이분포

• 데이터가 n개의 이산적인 값을 가지는 경우→카테고리분포

• 데이터가 [0,1] 사이에서 값을 가지는 경우→베타분포

• 데이터가 0이상의 값을 가지는 경우→감마분포, 로그정규분포등

• 데이터가 전체에서 값을 가지는 경우→정규분포, 라플라스분포등

• 기계적으로 확률분포를 가정해서는 안되며, 데이터를 생성하는 원리를 먼저 고려하는 것이 원칙이다

*각 분포마다 검정하는 방법들이 있으므로 모수를 추정한 후 반드시 검정해야 한다.

데이터의 모수 추정

데이터의 확률분포를 가정했다면 모수 추정이 가능하다.
정규분포의 모수는 평균과 분산이다.
통계학의 확률분포를 표집분포 (Sampling distribution)이라 부르며, 표본평균의 표집분포는 n이 커질수록 정규분포에 가까워진다.
이를 중심극한정리라 부르며 모집단의 분포가 정규분포를 따르지 않아도 성립한다.

최대가능도 (Maximum likelihood estimation, MLE)

표본평균이나 표본분산은 중요한 통계랑이지만 확률분포마다 사용하는 모수가 달라 적절한 통계량이 달라진다.
이론적으로 가장 가능성이 높은 모수를 추정하는 방법으로 최대가능도 추정법이 있다.
가능도 함수는 모수를 따르는 분포가 x를 관찰할 가능성을 뜻한다.
참고로 이를 확률로 해석해서는 안된다.
MLE는 데이터 집합 X가 독립적으로 추출되었을 경우 로그가능도를 최적화 한다.

로그가능도

로그가능도를 최적화 하는 모수는 가능도를 최적화하는 MLE가 된다.
데이터의 숫자가 적으면 상관없지만 데이터의 숫자가 많으면 컴퓨터의 정확도로는 가능도 계산이 불가능하다.
데이터가 독립일 경우 로그 사용시 가능도의 곱셈을 로그가능도의 덧셈으로 바꿀 수 있고, 컴퓨터 연산이 가능해진다.
경사하강법으로 가능도를 최적화할 때 미분 연산을 사용하는데, 로그가능도를 사용하면 연산량이 o(n^2)에서 o(n)으로 줄어든다.
대게의 손실함수의 경우 경사하강법을 사용하므로 음의 로그 가능도를 최적화한다.

*경사하강법으로 목적식을 최소화 => 음의 로그 가능도로 최적화

최대가능도 추정법 : 정규분포

정규분포를 따르는 확률변수 x로부터 독립적인 표본을 얻었을 때 최대가능도 추정법을 이용하여 모수를 추정하면?

최대가능도 추정법 : 카테고리 분포

카테고리 분포 Multinoulli (x : p1, ... pn)을 따르는 확률분포 X로부터 독립적인 표본을 얻었다면 최대가능도 추정법으로 모수를 추정하면?

딥러닝에서 최대가능도 추정

최대가능도 추정법을 이용해 기계학습 모델을 학습할 수 있다.
딥러닝 모델의 가중치를 θ = (W(1), …, W(L)) 라고 표기했을 때 분류 문제에서 소프트맥스 벡터는 카테고리분포의 모수 (p1 ~ pk)를 모델링한다.
원핫 벡터로 표현한 정답레이블 y = (y1~yk)를 관찰데이터로 이용해 확률분포인 소프트맥스 벡터의 로그 가능도를 최적화할 수 있다.

확률분포의 거리 구하기

기계학습에서 사용되는 손실함수들은 모델이 학습하는 확률분포와 데이터에서 관찰되는 확률분포의 거리를 통해 유도한다.
데이터공간에 두 개의 확률분포 P(x), Q(x)가 있을 경우 두 확률분포의 거리를 계산할 때는 다음의 함수들을 사용한다.
총 변동 거리, 쿨백-라이블러 발산, 바슈타인 거리

쿨백-라이블러 발산

피어세션 회의 내용

어제 학습한 것을 다시 학습하는 시간을 가졌다.

Further Question에서 코드에 대해 질문하여, 해당 코드가 베르누이 분포임을 알았다.

교차 엔트로피 → negative log likelihood 와 같은 형태.

분산 및 불확실성 최소화

분산이 크면 정보량이 많다로 해석할 수 있다.

→ 정보량이 많으면 엔트로피가 그만큼 크다고 할 수 있다. (엔트로피는 정보량의 기댓값)

→ 분산을 최소화 시키는 것이 엔트로피를 최소화 시키는 것으로 생각할 수 있다.

3. 확률, 확률분포

확률분포 : 확률과 확률변수의 집합 비슷한 개념

4. 분류문제에서의 softmax함수를 이용해 패턴을 통해 조건부확률을 계산.

5. 분류는 여러 레이블 중 하나를 예측(이산적.) 회귀는 연속적인 실수를 예측(연속적)

해야할 일

Furthur Question

1. 확률과 가능도의 차이?

	확률	가능도
개념적	주어진 확률분포에서 해당 관측값이 나올 확률	주어진 관측값이 어떤 확률분포에서 어느정도의 확률로 나타나는지 확률
수식	P(관측값 \| 확률분포)	P(확률분포 \| 관측값)
확률밀도함수	함수에서 영역으로 관측된다 ex) 캐리어 무게가 20~30kg일 확률	함수에서 한 점으로 관측된다. ex) 캐리어 무게가 30일 경우 가능도

2. 확률 대신 가능도를 사용했을 때의 이점

표본평균과 표본분산을 구할 때 확률분포마다 사용하는 모수가 다르기에 적절한 통계량이 다르다. 그래서 모수를 추정해야 하는데, 가능도를 사용하는 것이 가장 가능성이 높다.

3. 다음 코드는 어떤 확률분포를 나타내는 것인가?

3-1. 해당 확률분포에서 변수 세타가 의미할 수 있는 것은?

theta는 어떤 사건이 일어날 확률

위의 코드는 0~1 사이의 가능성을 가진 theta가 10번의 사건 중 3번 일어날 확률에 대한 코드이다.

728x90

'BOOSTCAMP AI TECH > 2주차_AI를 위한 수학' 카테고리의 다른 글

[BOOSTCAMP AI TECH] 9일차_Pandas 2, 확률론 (0)	2021.01.28
[BOOSTCAMP AI TECH] 8일차_Pandas / 딥러닝 학습방법 이해하기 (0)	2021.01.27
[BOOSTCAMP AI TECH] 7일차_경사하강법 (0)	2021.01.26
[BOOSTCAMP AI TECH] 6일차_Numpy/벡터/행렬 (0)	2021.01.25

저장소

[BOOSTCAMP AI TECH] 10일차_시각화 도구, 통계학 맛보기

'BOOSTCAMP AI TECH > 2주차_AI를 위한 수학' 카테고리의 다른 글

티스토리툴바

[BOOSTCAMP AI TECH] 10일차_시각화 도구, 통계학 맛보기

'BOOSTCAMP AI TECH > 2주차_AI를 위한 수학' 카테고리의 다른 글

관련글

티스토리툴바