본문 바로가기

Python

(33)
시각화 <-- 막대그래프 plt.bar
encoding <- 암호화 encoding : 정보의 형태나 형식을 변환하는 처리 또는 처리 방식 encoding의 종류 1. euc-kr 2. utf-8 3. cp949 1.데이터 로딩(불러오기) pd.read_csv를 통해 '~'앞에는 데이터를 불러오며 encoding을 통해 한국어로 해석해준다. data=pd.read_csv('./Traffic_Accident_2017.csv',encoding='euc-kr') 2.데이터 정보 확인 data.info() 3.데이터 크기 확인 data.shape 예시) (4065, 27)
산점도(scatter)그래프, 막대(bar) 및 수평 막대(barch)그래프 DataFrame 생성
꺽은선 그래프 x=[1,2,3,4] y=[2,4,6,8] z=[3,6,9,12] plt.plot(x, label ='x데이터') plt.plot(y, label ='y데이터') plt.plot(z, label ='z데이터') 범례 설정하기 범례 : 참고사항, 데이터를 식별하기 위한 text plt.legend() 차트 제목 설정 loc : 방향 설정 -> right : 오른쪽, left : 왼족 plt.title('차트제목', loc='right') plt.show() plt.legend를 통해 데이터들의 그림과 이름을 표시 plt.title를 통해 제목을 정해주고 loc를 통해 제목 위치를 바꿈 plt.plot를 통해 데이터를 꺽은선 그래프를 만들어줌
matplotlib matplotlib 2D 그래프로 시각화가 가능한 라이브러리 파이썬에서 데이터를 차트로 그려줌 차트의 종류는 산점도,막대,파이,히스토그램,꺽은선 그래프 등 다양함 데이터 시각화란? 광범위하게 분산된 방대한 양의 자료를 한눈에 볼 수 있도록 도표나 차트 등으로 분리 하는것 시각화를 통해 데이터의 특징을 쉽게 파악할 수 있다 Matplotlib 라이브러리를 이용해서 그래프를 그리는 일반적인 방법 import matplotlib.pyplot as plt 그래프 숫자 표시 범위 지정(xlim, ylim) 1.xlim(x첫,x끝)
카테고리 <- pd.cut pd.cut 카테고리컬 데이터라고도 부름 특정 점수가 부여되고 그 점수를 경계로 성적이 부여되는 절대평가이다. pd.cut([데이터],[범주],labels = [범주 명칭]) 예시 1. 데이터 생성 ages = [0,2,10,15,21,23,37,61,20,41,100,52,78] #2. 범주 생성 : 범위 #0~19, 20~47, 48~60, 61~ 범주는 시작값을 포함하지 않음 bins=[-1,19,47,60,100] 3. 범주 명칭 생성 name = ['미성년자','청년','중년','노년'] pd.cut([데이터],[범주],labels = [범주 명칭]) categori=pd.cut(ages,bins,labels=name) 카테고리 활용 ages데이터를 DataFrame활용 age_df = pd.D..
group by 함수 group by 그룹별로 묶어서 집계를 낼 수 있게 하는 기능 데이터를 그룹화하여 연산을 수행하는 메서드 by : 그룹화할 내용입니다. 함수, 축, 리스트 등등이 올 수 있습니다. axis : 그룹화를 적용할 축입니다. 다중인덱싱 groupby(by="컬럼명") + 집계함수(sum,avg,count,max,min) groupby(by=["컬럼명",~~~])
concat <-- 데이터 병합 concat() -> "이어붙이다"라는 뜻 concat() : 축의 방향(axis)을 기준으로 병합 merge()의 단점은 pandas 객체가 2ea까지만 가능 -> concat는 이를 보완 pd.concat([df1,df2,...],axis=0, join='outer, Ignore_index=False) axis : 병합할 축의 방향(기본값은 0) join : 어떻게 병합할건지 방식지정 inner : 교집합 형태로 반환 outer(기본값) : 합집합 형태로 반환 data3 = { '이름': ['홍길동','이순신'], '나이': ['23','55'], '성별':['남','남'] } data4 = { '이름': ['신사임당','장보고'], '나이': ['48','22'], '성별':['여','남'] } i..
merge merge() -> "병합"이라는 뜻 두개의 pandas 객체를 합칠때 특정 "컬럼"의 값을 기준으로 합치는 함수 pd.merge(left,right, how=inner,on="컬럼명") left, right : 각각의 판다스 객체(DataFrame) how : 어떻게 병합할건지 방식 지정 on='컬럼명' : 어떤 컬럼명을 기준으로 잡을지 지정 data1 = { '이름': ['홍길동','이순신','신사임당'], '나이': ['23','55','48'], '성별':['남','남','여'] } data2 = { '이름': ['홍길동','홍길동','홍길동','신사임당','장보고'], '영화': ['터미네이터','비긴어게인','살인의추억','비긴어게인','살인의추억'], '평점':['5','2','4','5',..
applymap(), apply() applymap(), apply() pandas 객체에 열 혹은 행에 대해 함수를 적용하게 해주는 함수 apply() -> 열 혹은 행에 대해 함수를 적용,데이터프레임과 시리즈를 모두 다룰 수 있다. 조금씩 나눠서 적용 하려면apply 각 원소에 대해 적용되는 함수,데이터프레임 전체 데이터 셀에 적용 전체를 한번에 적용하려면 applymap df.applymap(lambda x: np.log(x))