Python/Pandas
[Pandas 기초] Pandas 라이브러리
유달잇
2021. 6. 11. 23:51
728x90
Pandas에 대해 알아보자.
1. Pandas 란?
- 구조화된 데이터의 처리를 지원하는 Python 라이브러리
- 고성능 Array 계산 라이브러리인 Numpy와 통합하여 강력한 스프레드시트 처리 기능 제공
-> 엑셀을 파이썬으로 하는 느낌 - 인덱싱, 연산용 함수, 전처리 함수 등을 제공
- Series : 데이터프레임 중 하나의 칼럼에 해당하는 데이터 모음 Object 를 말한다.
- DataFrame : 데이터 테이블 전체를 포함하는 Object 를 말한다.
2. Pandas 모듈 호출
import pandas as pd
3. Pandas 간단히 살펴보기
data_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data'
df_data = pd.read_csv(data_url, sep='\s+', header = None)
df_data.columns = [
'CRIM','ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO' ,'B', 'LSTAT', 'MEDV']
df_data.head()
- pd.read_csv( ) : csv 타입의 데이터 파일을 읽어 온다. url을 넣고, sep(separate)는 빈 공간으로 지정하고, Column은 없는 상태로 가져온다.
- df.columns=[ ] : 데이터프레임의 칼럼을 지정해준다.
- df.head( ) : 데이터프레임의 앞의 5개 데이터만 출력한다. 괄호 안에 숫자를 지정하여 출력 개수를 조정할 수 있다.
4. Series (Column Vector를 포함하는 Object) 생성
list로 생성 | dict로 생성 |
list_data = [1,2,3,4,5] list_name = ["a","b","c","d","e"] example_obj = Series(data = list_data, index=list_name) example_obj |
dict_data = {"a":1, "b":2, "c":3, "d":4, "e":5} example_obj = Series(dict_data, dtype=np.float32, name="example_data") example_obj |
![]() |
![]() |
-> Index, Data(values), Data type 으로 구성된다.
5. Series 살펴보기
index 값을 넣어 해당 인덱스의 value를 출력할 수 있다.
index를 지정하여 값을 수정할 수 있다.
인덱스에 조건을 주어 출력할 수 있다.
시리즈에 연산을 통해 값을 변경할 수 있다.
[AI Tech Pre-course] 인공지능(AI) 기초 다지기
부스트코스 무료 강의
www.boostcourse.org
728x90