본문 바로가기

Python

(33)
axis 배열의 축(axis) : n차원 배열을 구성하는 요소 1차원 배열(1D array) 2차원 배열(2D array) 예시) axis=0 : 행방향은 양옆인데 0은 위 1은 0밑에 2는1밑에로 쌓이면서 위아래가 된다. axis=1 : 열방향은 위아래인데 0은 첫번 째 1은0 옆에 2는 1옆에로 쌓이면서 양옆이 된다. 내림차순 정렬인 ascending=False 대신에 슬라이싱 정렬인 [::-1]를 써줘도 된다.
인코딩 방식 종류 euc-kr, UTF-8,cp949등이 있으며 파일을 불러왔을때 한국어의 깨짐을 방지 하기위해 한국어 방식으로 만들어준다. 예시로는)
정렬(sort) sort_index() : 인덱스 기준으로 정렬 ascending = True -> 오름차순(기본값) False -> 내림차순 광주->인천(기본값)이고 ascending=False를 할경우 내림차순으로 인천->광주로 가게된다. sort_value() : 데이터 값을 기준으로 정렬 by='열'을 기준으로 오름차순 정렬 그러나 ascending=False를 옆에 넣어주면 내림차순 이중정렬 : 여러 컬럼을 통해 정렬 오름차순정렬을 통해 경상->수도->전라를 중심으로 정렬하고 그 후에 2020년을 기준으로 정렬
DataFrame 인덱싱과 슬라이싱 DataFrame 인덱싱,슬라이싱 DataFrame은 Series의 모임이라고 생각하면 편함 DataFrame 인덱싱 : 하나의 시리즈를 가져옴 DataFrame 슬라이싱 : 여러개의 시리즈를 가져옴 예시) 1.인덱싱 1) 열 접근 2) 행 접근 2.슬라이싱
DataFrame 2차원 데이터에서 사용되는 pandas 자료구조 DataFrame(데이터, index=[인덱스명1,인덱스명2,...], columns=[컬럼명1,컬럼명2,...]) 1번째 방법 data = {'ITPM':[463,9543,57], '업무분석가':[544,11226,68], 'IT아키텍트':[518,10672,64], 'UIUX개발자':[291,6003,36]} ---------------------------------- {'ITPM': [463, 9543, 57], '업무분석가': [544, 11226, 68], 'IT아키텍트': [518, 10672, 64], 'UIUX개발자': [291, 6003, 36]} 2번째 방법 : list를 통한 row(행) 단위 data2 = [[463,544,518,2..
iloc와 loc 속성 iloc, loc : 함수가 아닌 속성 iloc(integer location) : 1."행 번호"를 가지고 값을 인덱싱 하는 방법 2.끝값을 포함하지 않는다. loc(location) : 1."인덱스 이름"을 가지고 값을 인덱싱 하는 방법 2.끝값을 포함한다. iloc와loc의 다중인덱싱 Series boolean 인덱싱 예시1) 인구수가 250만 이상인 데이터를 추출 pop[pop>=2500000] pop>=250000만 나타낼경우 Boolean인덱싱으로 True 혹은 False만 나타내지만 pop을 한개 더 써줌으로써 True에 대한 값이 나타난다. ------------- 도시 서울 9668465 부산 3391946 인천 2642828 Name: 인구, dtype: int64 1. and는 비교연..
Pandas,인덱싱 Pandas(Panel Datas) 다양한 파일 형식 지원 데이터 정제 및 조작에 특화된 라이브러리 데이터 이상치, 결측치, 중복 제거 등 다양한 기능을 제공 데이터 필터링, 병합,피벗 등을 지원하여 복잡한 데이터를 손쉽게 분석 DataFrame, Series 자료 구조 지원 DataFrame : 2차원 이상 Series : 1차원 ndarray를 활용하여 만든 자료 구조이기 때문에 Numpy Library와 상호작용 뛰어남 import pandas as pd 데이터 정제 및 조작 가능 1. 데이터 이상치,결측치,중복제거등 필요한 기능 제공 2. 데이터 필터링,병합,피벗등을 지원하여 복잡한 데이터 쉽게 분석 가능 예시1) pop = pd.Series([9668465, 3391946, 2642828, 14..
ndarray 인덱싱 & 슬라이싱 인덱싱(indexing) : 값을 가리키다->자료 구조 내에서 '1개의 요소'에 접근하는것 슬라이싱(slicing): 값을 잘라오다->자료 구조 내에서 '여러개의 요소'에 접근하는것 슬라이싱 print(arr_1[3:9]) [9 5 7 8 6] 2.numpy sum print(arr.sum()) => 35 print(np.sum(arr)) => 35 3.mean() : 평균 print(arr.mean()) => 3.5 print(np.mean(arr)) => 3.5 4.sqrt() :제곱근(루트) print(np.sqrt(arr)) => [[1.41421356 1. 1.73205081 1.73205081 1.41421356] [2.64575131 2. 2. 2.23606798 2. ]]
ndarray dtype 데이터 타입 바꾸기 1. dtype : 자신이 직접 지정해서 생성가능 2. astype : 만들어진 array요소 데이터 타입 바꾸기 temp1=temp1.astype(np.int64) #즉각적으로 반영이 안되니 temp1 = 을 넣어줘야함 array_info(temp1) ------------------------ [[1 4 3] [4 2 5]] shape(모양) : (2, 3) ndim(차원수) : 2 size(요소 전체 개수) : 6 dtype(데이터 타입) : int64 reshape(array 모양 바꿔주기) temp1 = temp1.reshape(3,2)#즉각적으로 반영이 안되니 temp1 = 을 넣어줘야함 temp1 ---------------- array([[1, 4], [3, 4], [2..
Numpy <- import numpy as np NumPy Library Numerical Python의 약자(numpy) Python에서 수치계산을 위한 핵심 라이브러리 ndarray(N-dimensional array) 자료구조를 지원 numpy 라이브러리 로딩 : import numpy as np ndarray(N-dimensional array) 다양한 수학 함수 및 빠른 연산 속도, 다차원의 배열 지원 브로드 캐스팅(차원을 동일시 하는 기능) NumPy의 N차원 배열 객체 생성하기 : np.array(리스트 or 튜플) 주의사항 : 1.array 내부에는 동일한 자료형을 가짐 2.각 값들은 인덱스(index)가 부여되어 있다.(순서가 있다.) ndarray 생성하기 1차원 1.시퀀스 자료형을 형변환 하는 방법 list1 = [1,2,3,4,5..