자격증/빅데이터분석기사

[빅분기] 실기 시험까지 D-27, pandas(Series,DataFrame,read,loc)

mabb 2021. 11. 7. 20:47
반응형

 안녕하세요. 삶의질을 높이기 위해 노력하는 영차영차입니다.
빅데이터분석기사 실기 시험을 위한 본인의 메모 및 공부 목적 포스팅입니다.

 

#pandas 판다스
: 자료 구조 및 데이터 분석 처리 패키지.
판다스에는 자료유형이 2가지가 있음. Series와 DataFrame.
데이타프레임 유형이 흔히 쓰는 테이블(표) 형태의 자료유형이라고 함.

#Series는 Value와 Index로 구성되는 자료유형.

 

#DataFrame
: 데이터프레임은 2차원 행렬구조의 자료유형.

csv파일 불러오는 법
pd.read_csv('파일경로/파일명.csv')

csv는 데이터베이스나 표 계산 소프트웨어 데이터를 쉼표(comma)로 구분하여 기록하는
파일의 형식.

csv파일을 불러오는 기능은 판다스 기능에서 가능함.

CSV
[ comma separated value ]
요약 쉼표를 기준으로 항목을 구분하여 저장한 데이터를 말한다. 데이터베이스나 표 계산 소프트웨어 데이터를 보존하기 위해 이런 형식을 사용한다.
각 항목이나 판매 내용마다 쉼표(comma)로 구분하여 기록한다. CSV 형식의 파일은 텍스트 파일로 보존하여 문서 처리기나 편집기에서 열람 ·편집할 수 있다. 수많은 애플리케이션에서 취급하는 범용 형식이기 때문에 PDA(personal digital assistant)와 PC 사이에 주소록이나 표의 데이터를 주고 받을 때에도 데이터 파일을 CSV 형식으로 변환해서 송수신하는 경우가 많다.
[네이버 지식백과] CSV [comma separated value] (두산백과)

 

왜 안되는 거지. 모르겠음.
주피터 노트북 폴더에 해당 csv파일을 업로드하였으나 에러가 발생함.( 데이터캠퍼스 교재의 데이터 파일)

 

 

오.. 파일명의 확장자 .csv를 입력하지 않았었음..!

.

같은방식으로 실기 예제 문제파일인 mtcars.csv도 불러보려고 시도하였으나  처음의 에러가 발생함. 어려운 컴퓨터의 세계. 도대체 왜 그러는거지.

 

 

일단은 진도를 나감.

변수명.head() ( 괄호 안은 불러올 행의 개수. 공백시 5개를 불러옴. 앞에서부터 불러옴)
변수명.tail() (괄호 안은 불러올 행의 개수. 공백시 5개를 불러옴. 뒤에서부터 불러옴)
변수명[1:6] (1에서 5행까지 불러옴)

 

 

 

#판다스, 원하는 열 가져오기

:원하는 열은 열의 이름으로도 가져올 수 있고 열의 번호로도 가져올 수 있다. 상황에 맞춰서 쓰면 될듯.

1) 열 이름으로 가져오는 경우

grape[[열 이름]] # 대괄호를 한번만 감싸면 데이터프레임이 아닌 시리지의 형태로 나옴.
grape.열이름  # 따옴표로 감싸지 않음/ 열 이름은 안나오고 값들만나옴.
grape.loc[:,출력을 원하는 시작 열이름: 출력을 원하는 끝 열이름 
    # 콜론 컴마, 형태로보아 loc기능은 loc[ 시작행번호:끝행번호, 시작열이름:끝열이름] 으로 보임. loc 기능은 행번호와 열이름으로 작동함. 열을 번호로 입력하면 작동되지 않음. 시작열이름에 더 나중 열이름을 적으면 행번호만 출력되어 버림.

 

 

 

변수명.열이름을 입력하면 열이름은 나오지 않고 값들만 나오는 모습.
변수명.columns 를 입력하면 열 이름들과 데이터 타입이 나온다.

 

#변수명.loc 기능


#변수명.iloc 기능

loc와의 차이점은 1)열이름을 번호로 쓴다는 것. 2)  출력하고자하는 끝(열,행)번호에 +1을 해주어야 한다는 것

 

#변수명.at[행번호,열이름] 
데이터프레임에서 하나의 값을 가져오기. iloc를 응용해서 iat을 해보니까 됨. iat[행번호,열번호]도 가능함!

반응형