Python/Pandas

[Pandas 기초] Pandas 라이브러리

유달잇 2021. 6. 11. 23:51
728x90

 

Pandas에 대해 알아보자.


 

1. Pandas 란?


  • 구조화된 데이터의 처리를 지원하는 Python 라이브러리
  • 고성능 Array 계산 라이브러리인 Numpy와 통합하여 강력한 스프레드시트 처리 기능 제공
    -> 엑셀을 파이썬으로 하는 느낌
  • 인덱싱, 연산용 함수, 전처리 함수 등을 제공
  • Series : 데이터프레임 중 하나의 칼럼에 해당하는 데이터 모음 Object 를 말한다.
  • DataFrame : 데이터 테이블 전체를 포함하는 Object 를 말한다.

 

 

2. Pandas 모듈 호출


  
  import pandas as pd
    

 

 

3. Pandas 간단히 살펴보기


  
  data_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data'
  df_data = pd.read_csv(data_url, sep='\s+', header = None)
  df_data.columns = [
      'CRIM','ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO' ,'B', 'LSTAT', 'MEDV'] 

  df_data.head()
    

결과 화면

  1. pd.read_csv( ) : csv 타입의 데이터 파일을 읽어 온다. url을 넣고, sep(separate)는 빈 공간으로 지정하고, Column은 없는 상태로 가져온다.
  2. df.columns=[ ] : 데이터프레임의 칼럼을 지정해준다.
  3. df.head( ) : 데이터프레임의 앞의 5개 데이터만 출력한다. 괄호 안에 숫자를 지정하여 출력 개수를 조정할 수 있다.

 

 

4. Series (Column Vector를 포함하는 Object) 생성


list로 생성 dict로 생성
list_data = [1,2,3,4,5]
list_name = ["a","b","c","d","e"]
example_obj = Series(data = list_data, index=list_name)
example_obj
dict_data = {"a":1, "b":2, "c":3, "d":4, "e":5}
example_obj = Series(dict_data, dtype=np.float32, name="example_data")
example_obj

-> Index, Data(values), Data type 으로 구성된다.

 

 

5. Series 살펴보기


index 값을 넣어 해당 인덱스의 value를 출력할 수 있다.

 

index를 지정하여 값을 수정할 수 있다.

 

 

인덱스에 조건을 주어 출력할 수 있다.

 

시리즈에 연산을 통해 값을 변경할 수 있다.

 

 

 

 

 

 

출처 : 부스트코스 인공지능(AI) 기초 다지기

 

[AI Tech Pre-course] 인공지능(AI) 기초 다지기

부스트코스 무료 강의

www.boostcourse.org

 

 

 

 

728x90