반응형

15-03 표준오차 (sem)

DataFrame.sem(axis=None, skipna=None, level=None, ddof=1, numeric_only=None, kwargs)

 

개요


sem메서드는 값들의 표준오차를 구하는 메서드 입니다.
표준 오차는 표본평균들의 표준편차로, 직관적으로 보면 추정값인 표본평균들과 참값인 모평균(표본평균의 평균)과의 표준차이 라고 할 수 있습니다.
이를 이용하여 표본평균의 정밀도를 표현할 수 있습니다.
편차(변량-평균)의 제곱의 평균의 제곱근값이 표준편차이듯, 오차(추정값-참값)의 제곱의 평균의 제곱근값이 표준오차가 됩니다.

 

사용법


기본 사용법
※ 자세한 내용은 아래 예시를 참고 바랍니다.
sem(axis=None, skipna=None, level=None, ddof=1, numeric_only=None, kwargs)
axis : 첨도를 구할 축을 지정합니다
skipna : 결측치를 무시할지 여부 입니다. 기본값은 True로 계산시 무시됩니다.
level : 멀티인덱스의 경우 레벨을 지정할 수 있습니다.
ddof : 자유도를 표시합니다.
numeric_only : float, int, bool 형식만 포함할지 여부 입니다.

반응형

 

예시


먼저 기본적인 사용법 예시를 위해 5x3짜리 객체를 생성하겠습니다.

a = [1,1,1,1,1]
b = [1,2,3,4,5]
c = [20,40,60,80,100]
data = {"col1":a,"col2":b,"col3":c}
df = pd.DataFrame(data)
print(df)
>>
   col1  col2  col3
0     1     1    20
1     1     2    40
2     1     3    60
3     1     4    80
4     1     5   100

기본적인 사용법
col1의 경우 모든 요소가 같기 때문에 표본평균의 평균과 표본편균이 완벽하게 일치하여 표준오차가 없기 때문에 sem=0 을 반환하게 됩니다.

print(df.sem())
>>
col1     0.000000
...
...

col2와 col3의 경우를 비교해보면 표준평균의 차이는 각 값들이 더 조밀한 col2가 더 작기 때문에 표준오차의 경우 표본평균의 표준편차도 더 작을수 밖에없습니다. 즉, col2의 sem값이 col3의 sem값보다 작습니다.

print(df.sem())
>>
...
col2     0.707107
col3    14.142136

 

반응형

+ 최근 글