프로그래머스 AI 데브코스 5기/Data study

프로그래머스 AI 데브코스 5기/Data study

탐색적 데이터 분석 - EDA

EDA? 데이터를 분석하는 기술적 접근은 굉장히 많다. 데이터 그 자체만으로부터 인사이트를 얻어 내는 접근법!(시각화나 통계적 기법을 사용하기도 한다.) EDA의 process 분석의 목적과 변수 확인 데이터 전체적으로 살펴보기(상관관계, NA값 등) 데이터의 개별 속성 파악하기 EDA with Example - Titanic https://www.kaggle.com/c/titanic Titanic - Machine Learning from Disaster | Kaggle www.kaggle.com 1. 분석의 목적과 변수 확인 살아 남은 사람들은 어떤 특징을 갖고 있을까? 라이브러리 준비 import pandas as pd import numpy as np import seaborn as sns imp..

프로그래머스 AI 데브코스 5기/Data study

Seaborn

Seaborn matplotlib을 기반으로 더 다양한 시각화 방법을 제공하는 라이브러리 커널밀도그림 카운트그림 캣그림 스트립그림 히트맵 Seaborn import 하기 import seaborn as sns 커널밀도그림(Kernel Density Plot) 히스토그램과 같은 연속적인 분포를 곡선화해서 그린 그림 # in Histogram x = np.arange(0, 22, 2) y = np.random.randint(0, 20, 20) plt.hist(y, bins=x) plt.show() # kdeplot sns.kdeplot(y, shade=True) plt.show() 카운트그림(Count Plot) 범주형 column의 빈도수를 시각화 -> Groupby 후의 도수를 비교하는 것과 동일 vot..

프로그래머스 AI 데브코스 5기/Data study

Matplotlib의 여러 plot들

1. Matplotlib Case Study 꺾은선 그래프(Plot) x = np.arange(20) # 0~ 19 y = np.random.randint(0, 20, 20) # 0~20까지 난수 20번 생성 plt.xlabel('x value') plt.ylabel('y value') plt.axis([0, 21, 0, 21]) plt.yticks([i for i in range(0, 21, 5)]) plt.plot(x, y) plt.show() 산점도(Scatter Plot) x = np.arange(20) # 0~ 19 y = np.random.randint(0, 20, 20) # 0~20까지 난수 20번 생성 plt.xlabel('x value') plt.ylabel('y value') plt.a..

프로그래머스 AI 데브코스 5기/Data study

Matplotlib으로 데이터 시각화 하기

1. Matplotlib 시작하기 파이썬의 데이터 시각화 라이브러리 cf) 라이브러리 vs 프레임워크 matplotlib pip install matplotlib %matplotlib inline을 통해서 활성화 import numpy as np import pandas as pda import matplotlib as plt %matplotlib inline 2. Case Study with Arguments plt.plot([1,2,3,4,5]) # 꺾은선 그래프. 실제 plotting을 하는 함수 y=x+1 plt.show() #plt를 확인하는 명령 figsize: Figure(도면)의 크기 조절 기본값 가로, 세로 72픽셀이라고 함 plt.figure(figsize=(6,6)) # plottin..

프로그래머스 AI 데브코스 5기/Data study

Pandas 시작하기

⭐ 수업에 사용된 데이터셋 : https://www.kaggle.com/datasets/imdevskp/corona-virus-report?resource=download COVID-19 Dataset Number of Confirmed, Death and Recovered cases every day across the globe www.kaggle.com 1. Pandas 시작하기 prerequisite: table 행과 열을 이용해서 데이터를 저장하고 관리하는 자료구조(컨테이너) 주로 행은 개체, 열은 속성을 나타냄 판다스 설치하기 pip install pandas 판다스 임포트 import pandas as pd 2. Pandas로 1차원 데이터 다루기 - Series 1-D labled arra..

프로그래머스 AI 데브코스 5기/Data study

Linear Algebra with Numpy

영벡터(영행렬) np.zeros(dim) 일벡터(일행렬) np.ones(dim) 대각행렬(diagonal matrix) Main diagonal을 제외한 성분이 0인 행렬 np.diag(main_diagonal) 항등행렬(identity matrix) np.eye(dim, dtype) 행렬곱(dot product) np.dot or @ a = np.array([[1, 4], [2, 3]]) b = np.array([[7, 9], [0, 6]]) print(a.dot(b)) print(a @ b) 트레이스(trace) main diagonal의 합 np.trace() arr = np.array([[1,2,3], [4,5,6], [7, 8, 9]]) print(arr.trace()) print(np.eye(..

프로그래머스 AI 데브코스 5기/Data study

Numpy 연산

Numpy로 연산하기 벡터와 벡터 벡터의 같은 인덱스끼리 연산이 진행된다. y = np.array([1, 3, 5]) z = np.array([2, 9, 20]) print(f'더하기: {y + z}') print(f'빼기: {y-z}') print(f'곱하기: {y*z}') print(f'나누기: {y/z}') 벡터와 스칼라 x = np.array([1,2,3]) c = 5 print(f'더하기: {x + c}') print(f'빼기: {x - c}') print(f'곱하기: {x * c}') print(f'나누기: {x / c}') Array의 Indexing [행, 열] W = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]]) print(W[0,0]) #1행 1열 ..

프로그래머스 AI 데브코스 5기/Data study

시각화 결과로 요약하기 - seaborn

시각화 기초 라이브러리 - Seaborn 여러 기법을 통해서 스크래핑을 진행할 수 있었다. 그런데 스크래핑의 결과가 너무 분산되어있어 한 눈에 보기 어렵다 이를 도와주는 시각화를 진행해보자 matplotlib을 기반으로 하는 시각화 라이브러리 설치하기 pip install seaborn Seaborn Essential import seaborn as sns 꺾은선 그래프(Line Plot) 두 변수 값에 따른 추이를 선으로 이은 그래프 .lineplot()을 이용해서 그릴 수 있음. sns.lineplot(x=[1,2,3,4], y=[0.7,0.2,0.1,0.05]) 막대 그래프(Bar Plot) 범주형 데이터의 "값"과 그 값의 크기를 직사각형으로 나타낸 그림 sns.barplot(x=[1,2,3,4]..

프로그래머스 AI 데브코스 5기/Data study

jupyterlab 시작하기

먼저 본인 pc에 파이썬3이 설치되있는지 확인 pip install jupyterlab pip3 install jupyterlab python -m pip install jupyterlab jupyterlab 실행하기 터미널에서 jupyter lab이라고 입력하면됨 아래와 같은 창이뜨면 성공적으로 설치된것이다. 단축키 dd -> 셀 삭제 코드셀 전환 -> y, 마크다운 셀 전환 -> m 마크다운 Header : 보통 제목 작성할때 사용(h1 부터 h6 까지 있음) 이탤릭체 볼드체 strikethrough(취소선) 마크다운에서 code를 적을때는 백틱(`)을 이용하면 된다. 줄바꿈은 스페이스 두번

한상희
'프로그래머스 AI 데브코스 5기/Data study' 카테고리의 글 목록