728x90

데이터프레임 3

[Python]샘플용 데이터프레임 쉽게 생성하기

간혹 코딩을 하다보면 테스트를 하기 위해서 혹은 샘플이 필요해서 데이터프레임을 만들고 싶을 때가 있다. 그때마다 student_card = pd.DataFrame({'ID':[20190103, 20190222, 20190531], 'name':['Kim', 'Lee', 'Jeong'], 'class':['H', 'W', 'S']}) 이런식으로 만드려고한다면 여간 머리가 지끈지끈해지는게 아니다. 게다가 한번에 대용량의 데이터를 만들 수가 없다. 하지만 아래의 방법을 쓴다면 누구나 쉽게 내가 원하는 크기의 데이터프레임을 만들 수 있다. import pandas as pd import numpy as np size = 10_000 df = pd.DataFrame() df['position'] = np.rand..

Study/Python 2023.11.17

[Python] DataFrame에서 null이 들어있는 행만 보고 삭제하기

데이터를 다루다보면 null값이 들어있는 데이터가 상당히 많습니다. 이 값들을 어떻게 처리할 지에 대해서 항상 고민이 되는데요 이 포스팅에선 Row에 들어있는 null값들만 확인하고 그 행들만 삭제하는 방법을 알아보겠습니다. import pandas as pd import numpy as np dogs = np.random.choice(['labradoodle','beagle','mutt','Golden Retrievers', 'Greyhound','French Bulldog','Shih Tzu',None], size=50_000) smell = np.random.randint(0, 100, size = 50_000) location = np.random.choice(['Korea','China','Un..

Study/Python 2023.02.07

[Python]Sckit-Learn에 있는 데이터를 csv로 만들기

머신러닝 오픈소스 중 하나인 사이킷런에서는 여러가지 머신러닝용 데이터를 제공한다. 그런데 이런 데이터들을 하나의 csv파일로 정리해서 출력할 수는 없을까? 아주 간단한 방법으로 해당 작업을 진행하였다. pandas의 데이터처리 방법도 포함이 되어있기 때문에 일부분 필요한 것만 골라서 사용할 때도 유용할테니 참고 바랍니다. 우선, 이 작업에서 사용할 모듈들입니다. import pandas as pd from sklearn.datasets import load_iris # iris data불러오기 import numpy as np csv로 변환하고 데이터프레임으로 만들어줄 pandas, 사이킷런에서 제공하는 데이터를 받아올 load_iris, array형식으로 되어있는 데이터를 처리해줄 numpy 우선 ir..

Study/Python 2022.03.17
728x90