안녕하세요. 삶의질을 높이기 위해 노력하는 영차영차입니다.
빅데이터분석기사 실기 시험을 위한 본인의 메모 및 공부 목적 포스팅입니다.
#pandas 판다스
: 자료 구조 및 데이터 분석 처리 패키지.
판다스에는 자료유형이 2가지가 있음. Series와 DataFrame.
데이타프레임 유형이 흔히 쓰는 테이블(표) 형태의 자료유형이라고 함.
#Series는 Value와 Index로 구성되는 자료유형.
#DataFrame
: 데이터프레임은 2차원 행렬구조의 자료유형.
csv파일 불러오는 법
pd.read_csv('파일경로/파일명.csv')
csv는 데이터베이스나 표 계산 소프트웨어 데이터를 쉼표(comma)로 구분하여 기록하는
파일의 형식.
csv파일을 불러오는 기능은 판다스 기능에서 가능함.
CSV
[ comma separated value ]
요약 쉼표를 기준으로 항목을 구분하여 저장한 데이터를 말한다. 데이터베이스나 표 계산 소프트웨어 데이터를 보존하기 위해 이런 형식을 사용한다.
각 항목이나 판매 내용마다 쉼표(comma)로 구분하여 기록한다. CSV 형식의 파일은 텍스트 파일로 보존하여 문서 처리기나 편집기에서 열람 ·편집할 수 있다. 수많은 애플리케이션에서 취급하는 범용 형식이기 때문에 PDA(personal digital assistant)와 PC 사이에 주소록이나 표의 데이터를 주고 받을 때에도 데이터 파일을 CSV 형식으로 변환해서 송수신하는 경우가 많다.
[네이버 지식백과] CSV [comma separated value] (두산백과)
왜 안되는 거지. 모르겠음.
주피터 노트북 폴더에 해당 csv파일을 업로드하였으나 에러가 발생함.( 데이터캠퍼스 교재의 데이터 파일)
오.. 파일명의 확장자 .csv를 입력하지 않았었음..!
같은방식으로 실기 예제 문제파일인 mtcars.csv도 불러보려고 시도하였으나 처음의 에러가 발생함. 어려운 컴퓨터의 세계. 도대체 왜 그러는거지.
일단은 진도를 나감.
변수명.head() ( 괄호 안은 불러올 행의 개수. 공백시 5개를 불러옴. 앞에서부터 불러옴)
변수명.tail() (괄호 안은 불러올 행의 개수. 공백시 5개를 불러옴. 뒤에서부터 불러옴)
변수명[1:6] (1에서 5행까지 불러옴)
#판다스, 원하는 열 가져오기
:원하는 열은 열의 이름으로도 가져올 수 있고 열의 번호로도 가져올 수 있다. 상황에 맞춰서 쓰면 될듯.
1) 열 이름으로 가져오는 경우
grape[[열 이름]] # 대괄호를 한번만 감싸면 데이터프레임이 아닌 시리지의 형태로 나옴.
grape.열이름 # 따옴표로 감싸지 않음/ 열 이름은 안나오고 값들만나옴.
grape.loc[:,출력을 원하는 시작 열이름: 출력을 원하는 끝 열이름
# 콜론 컴마, 형태로보아 loc기능은 loc[ 시작행번호:끝행번호, 시작열이름:끝열이름] 으로 보임. loc 기능은 행번호와 열이름으로 작동함. 열을 번호로 입력하면 작동되지 않음. 시작열이름에 더 나중 열이름을 적으면 행번호만 출력되어 버림.
변수명.열이름을 입력하면 열이름은 나오지 않고 값들만 나오는 모습.
변수명.columns 를 입력하면 열 이름들과 데이터 타입이 나온다.
#변수명.loc 기능
#변수명.iloc 기능
loc와의 차이점은 1)열이름을 번호로 쓴다는 것. 2) 출력하고자하는 끝(열,행)번호에 +1을 해주어야 한다는 것
#변수명.at[행번호,열이름]
데이터프레임에서 하나의 값을 가져오기. iloc를 응용해서 iat을 해보니까 됨. iat[행번호,열번호]도 가능함!
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅분기] 실기 시험까지 D-25, 넘파이↔ 판다스 변환 (0) | 2021.11.09 |
---|---|
[빅분기] 실기 시험까지 D-27,pandas(데이터프레임 데이터 변환하기) (2) | 2021.11.07 |
[빅분기] 실기 시험까지 D-28,넘파이(2) (0) | 2021.11.06 |
[빅분기] 실기 시험까지 D-28, 파이썬 패키지 리스트 (2) | 2021.11.06 |
[빅분기]실기시험까지 D-28, numpy,넘파이 (2) | 2021.11.06 |