I about me

[Python] 데이터 분석 기초 _ pandas 기본 본문

Python

[Python] 데이터 분석 기초 _ pandas 기본

ssungni 2023. 10. 3. 22:15

옛날에는 통계 분석하면 R을 많이 썼었다. 

그러나 지금은 왜 R보다 파이썬을 많이 쓰는 이유가 무엇일까?

 

개발자들이 파이썬의 문법이 사용하기 쉬우니까 R에 있는 DataFrame을 pandas로 옯겼기 때문이다.

그러면서 지금의 파이썬의 인기를 누리게 되었다.

그렇게 지금의 파이썬의 인기를 누리게 해주었던 pandas를 알아보자!

 

2차원의 데이터는 pandas로 많이 쓴다.

Numpy Array _ 2차원 배열 Pandas DaraFrame _ 2차원 배열
숫자 위주
ex) [1, 2, 3, 4]
데이터 형태가 다양
ex) ['00대학교'. '김00', 20]

np.array하듯 pd.DataFrame 하면 된다.

import pandas as pd

list = [['김영일', 20], ['김이삼', 23], ['김사오', 25]]
df_list = pd.DataFrame(list)
df_list

행(index), 열(column) 추가하는 방법

import pandas as pd

list = [['김영일', 20], ['김이삼', 23], ['김사오', 25]]
df_list = pd.DataFrame(list, columns = ['name', 'age'], index = ['a', 'b', 'c'])
df_list

항상 공부하면서 의문이 들었던 것인데 이제서야 찾아보는 나도 어이없지만, 

난 데이터 분석 공부를 하면서 왜? column"s"라고 할까? 의문이 들었다!

 

찾아보니...

column으로 할 경우, DataFrame.__init__() got an unexpected keyword argument 'column'와 같은 오류 메세지가 뜨며, 

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html

 

pandas.DataFrame — pandas 2.1.1 documentation

Dict can contain Series, arrays, constants, dataclass or list-like objects. If data is a dict, column order follows insertion-order. If a dict contains Series which have an index defined, it is aligned by its index. This alignment also occurs if data is a

pandas.pydata.org

공식 문서에도 columns로 해야된다고 하더라...ㅋ 수학에 약속 같은 의미라고 생각하면 될 것 같다!

데이터 타입을 확인하는 방법

print(df_list.dtypes)