728x90

 

Pandas에 대해 알아보자.


 

1. Pandas 란?


  • 구조화된 데이터의 처리를 지원하는 Python 라이브러리
  • 고성능 Array 계산 라이브러리인 Numpy와 통합하여 강력한 스프레드시트 처리 기능 제공
    -> 엑셀을 파이썬으로 하는 느낌
  • 인덱싱, 연산용 함수, 전처리 함수 등을 제공
  • Series : 데이터프레임 중 하나의 칼럼에 해당하는 데이터 모음 Object 를 말한다.
  • DataFrame : 데이터 테이블 전체를 포함하는 Object 를 말한다.

 

 

2. Pandas 모듈 호출


  
  import pandas as pd
    

 

 

3. Pandas 간단히 살펴보기


  
  data_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data'
  df_data = pd.read_csv(data_url, sep='\s+', header = None)
  df_data.columns = [
      'CRIM','ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO' ,'B', 'LSTAT', 'MEDV'] 

  df_data.head()
    

결과 화면

  1. pd.read_csv( ) : csv 타입의 데이터 파일을 읽어 온다. url을 넣고, sep(separate)는 빈 공간으로 지정하고, Column은 없는 상태로 가져온다.
  2. df.columns=[ ] : 데이터프레임의 칼럼을 지정해준다.
  3. df.head( ) : 데이터프레임의 앞의 5개 데이터만 출력한다. 괄호 안에 숫자를 지정하여 출력 개수를 조정할 수 있다.

 

 

4. Series (Column Vector를 포함하는 Object) 생성


list로 생성 dict로 생성
list_data = [1,2,3,4,5]
list_name = ["a","b","c","d","e"]
example_obj = Series(data = list_data, index=list_name)
example_obj
dict_data = {"a":1, "b":2, "c":3, "d":4, "e":5}
example_obj = Series(dict_data, dtype=np.float32, name="example_data")
example_obj

-> Index, Data(values), Data type 으로 구성된다.

 

 

5. Series 살펴보기


index 값을 넣어 해당 인덱스의 value를 출력할 수 있다.

 

index를 지정하여 값을 수정할 수 있다.

 

 

인덱스에 조건을 주어 출력할 수 있다.

 

시리즈에 연산을 통해 값을 변경할 수 있다.

 

 

 

 

 

 

출처 : 부스트코스 인공지능(AI) 기초 다지기

 

[AI Tech Pre-course] 인공지능(AI) 기초 다지기

부스트코스 무료 강의

www.boostcourse.org

 

 

 

 

728x90

'Python > Pandas' 카테고리의 다른 글

[Pandas 기초] Pandas와 함수  (0) 2021.06.16
[Pandas 기초] Pandas의 Select, Drop  (2) 2021.06.15
[Pandas 기초] Pandas의 DataFrame  (2) 2021.06.12
댓글
250x250
최근에 올라온 글
«   2024/10   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
Total
Today
Yesterday