본문 바로가기

데이터 분석 및 시각화32

[DL] CNN,RNN을 활용한 정확도, 예측도 확인하기 텐서플로우의 예제인 꽃 이미지를 분류하려고 합니다.## cnn2.py# CNN 꽃 이미지 분류def p(str): print(str, '\n')#라이브러리 로딩import matplotlib.pyplot as pltimport numpy as npimport PIL #이미지 처리하는 라이브러리import tensorflow as tffrom tensorflow import kerasfrom tensorflow.keras import layersfrom tensorflow.keras.models import Sequential# 데이터 로딩 : 3670장의 꽃 사진데이터 가져오기# 3670장의 꽃 사진은 daisy, dandelion, roses, sunflowers, tulips 로 5개의 클래스로.. 2024. 11. 22.
[DL] 텐서플로우를 활용한 예제(손글씨, mnist활용) #텐서플로우 기본# tensorbasic.pydef p(str): print(str, '\n')#텐서플로우 라이브로리import tensorflow as tf#텐서플로우 버전 확인# p(f'텐서플로우버전 : {tf.__version__}')#정수형 상수텐서#5의값을 가진 4바이트 정수 상수 텐서tensor_int = tf.constant(5, dtype=tf.int32)p(tensor_int)tensor1 = tf.constant([5,3])p(tensor1)#정수형 변수 텐서tensor2 = tf.Variable(5)p(tensor2)tensor2.assign(10) #변수 텐서 값 변경p(tensor2)#너파이 배열을 텐서로 변환import numpy as npnumpy_arr = np.arra.. 2024. 9. 15.
[DL] basic _딥러닝 기본 ## 딥러닝(Deep Learning)* 머신러닝의 일종* 머신러닝과 달리 다양한 모델(알고리즘)에 대한 학습을 스스로 결정하고 학습해 나가서좀 더 정확한 결과를 예측하는 학문/기술 분야* 딥러닝의 예 - 알파고 (기존의 바둑 기보 데이터들을 모두 학습하고 학습 결과를 통해서 스스로 알고리즘들을 도출해냄)#딥러닝 기법1. 앙상블 기법 - 여러개의 기본 모델을 활용해서 하나의 새로운 모델을 생성해 내는 기법 - 모델의 예측성능을 향상시키기 위해서 사용 1) 보팅(Voting) - 서로 다른 알고리즘을 가진 분류기를 결합하는 방식 - 하드보팅(Hard Voting) 다수결의 원칙 기반, 예측 결과값을 다수 분류기가 결정한 예측값을 최종 보팅 결과값으로 선택함 .. 2024. 9. 14.
[ML] 연관규칙 머신러닝 중 지도학습의 연관규칙입니다. 열대과일을 구매했으면 옆에 터키, 치즈, 포도 등등어떤식으로 어떤 연관이 있는지 확인할 수 있습니다. 각각의 연관도를 따질 수 있습니다 .(장바구니분석 이라고도 불림) 이 부분은 빅데이터분석기사(빅분기) 제 2과목에서도 나오는 항목이기에 좀 더 유심하게 봤습니다.## 연관규칙 학습(Association Rule Learning)* 연관 (Association): 서로 관련이 있다는 뜻* 연관 규칙(Association Rule): 연관에 대한 규칙* 연관 규칙 학습 (Learning): 머신러닝에서 연관규칙을 학습시킴* 연관규칙을 한마디로 정의하면 동시에 발생한 사건(Transaction)들 간의 관계를 정의한 규칙(1)연관규칙 관련 용어 1) itemset(.. 2024. 9. 13.
[ML]K-Means 클러스터링, DBSCAN(밀도기반 클러스터링) ## kmeans.py## K-Means 클러스터링def p(str): print(str, '\n')# 라이브러리 로딩import numpy as npimport pandas as pdfrom sklearn.datasets import make_blobsimport matplotlib.pyplot as pltimport warningswarnings.filterwarnings(action='ignore')# random seed 설정np.random.seed(42)# 중심점이 4개인 150개의 점 데이터를 무작위 생성points, labels = make_blobs( n_samples = 150, # 샘플데이터 수 centers = 4, # 중심점 수 n_featu.. 2024. 9. 12.
[ML]클러스터링_집값 상관관계 분석해보기 [File]assets/rent.csvclustering_df.py (데이터프레임)clustering.py (클러스터링)[Note]clustering.txt클러스터 : 군집화해놓은성질을 이야기 해놓음그냥 단순히 모아놓는것이 아닌 특성이 비슷한 아이들을 모아놓은 작업을 클러스터링이라고 합니다. 하는 이유 : 1. 매번 특성들을 분류하고 작업하기 힘듦2. 연산의 편함을 위함3. 새로운 특성이 있으면 클러스터에 포함가능## 클러스터링(clustering) * 클러스터(Cluster):  특성이 비슷한 것들 * 클러스터링(clustering): 특성이 비슷한 것들을 모은 것(군집) * 클러스터링 목적     - 더 빠른 연산 (매번 모든 데이터의 특성들을 분석해서 분류하고 연산하면 연산비 증가)     - 새로.. 2024. 9. 11.
[데이터분석] ML_머신러닝 모델+의사결정나무 0825# 머신러닝 모델 (Machine Learning Model) * 머신러닝 모델은 현재까지의 데이터로 미래의 데이터를 예측하기 위한 모델* 예측변수(결과를 도출하기 위한 입력데이터)를 통해 타겟변수(결과로 도출된 출력데이터)를 찾아내기 위한 모델* 예측변수(predictor variables) 예측하는데 활용하는 변수 또는 모델에 입력하는 값* 타겟변수(target variables) 예측하고자 하는 변수 또는 모델이 출력하는 값 # 의사결정나무 모델 (Decision Model) * 예/아니오로 2분된 답변을 연속적으로 취득하여 예측하는 모델 (yes/no)* 구조가 단순하고 이해하기 쉬워 많은 예측 모델의 토대가 됨* 타겟변수를 가장 잘 분리해 주는 예측변수에 주목하는 모델 (예를 들어 나이,.. 2024. 8. 30.
[데이터분석]ML_교차검증_타이타닉생존자 데이터셋 0824#교차검증(vaildation)## 교차검증(Cross Validation)1. 교차검증학습 데이터셋을 학습, 검증, 평가 데이터셋으로 분리하는 것으로 검증세트를 학습세트의 부분세트로 교차해가며(학습세트 중 일부를 검증세트로 사용)학습 데이터셋(train): 학습을 위한 데이터검증 데이터셋(validation) : 학습 데이터셋의 일부를 추출한것으로 학습된 모델의 성능을 일차적으로 평가평가 데이터셋(test): 모든 학습과 검증 과정이 완료된 후 최종적으로 성능 평가교차검증 장점: 모든 데이터셋을 훈련(학습)에 활용할 수 있다. 평가에 사용되는 데이터 편중을 막을 수 있다.교차검증 단점: 반복해야하는 횟수가 많아지기 때문에 모델 훈련/평가 시간이 오래걸린다.즉, 교차검증 횟수가 늘어날 수록 전체적.. 2024. 8. 29.
[데이터분석] ML_linearregression(선형회귀) 회귀분석을 배우면 가장 먼저 배우는 선형회귀 입니다.가장 쉽기도 하고 다음으로 배우는것들도 선형회귀가 연관이 되어있기때문이죠. 이번 시간에는 linear 리니어함수에 대해서 배워봤습니다.선형회귀는 분리를 해주는 지도학습 알고리즘 입니다 (빅분기 필기) #linearregression.pydef p(str): print(str, '\n')## 선형회귀# 라이브러리 로딩import pandas as pdimport numpy as npimport matplotlib.pyplot as plt#한글(폰트) 설정plt.rc('font', family='Malgun Gothic')# melon.csv 파일을 활용해서 분류하기#1) DF 생성df =pd.read_csv('../assets/melon.csv').. 2024. 8. 23.
[데이터분석] ML(머신러닝)_basic, 데이터 분리 수업날짜 0818 ##머신러닝 기초 개념 *머신러닝( machine learning) - 기존 데이터나 데이터의 흐름을 머신을 통해 통계적으로 추론해서 미래데이터나 데이터의 흐름을 예측/분석합니다. (기존 데이터나 데이터의 흐름이 있어야함) - 머신이 경험을 통해서 스스로 학습하도록 합니다. # 키워드 정리 * 빅데이터 - 대량의 데이터를 다루는 기술과 방법론을 포함하는 분야 - 데이터 수집, 저장, 처리, 분석, 정보추출 * 인공지능 - 사람과 유사한 지능을 갖도록 컴퓨터프로그램이 설계되는 분야입니다. - 학습, 추론, 자연어처리 등등 수많은 분야에서 인공지능 기술을 사용 합니다. * 머신러닝 - 컴퓨터가 데이터로부터 스스로 학습하고, 패턴을 발견하고, 예측하고 결정하는 능력을 갖추도록 하는 분야입니다.. 2024. 8. 21.
[데이터분석] t-test,상관분석 통계분석을 통한 가설검정 (t-test) 두 변수의 평균에 차이가 있는지 검정 # t-test(t-검정)은 주 변수(데이터군)의 평균에 통계적으로 유의한 차이가 있는지 알아볼 때 사용하는 통계분석 기법- 중요한것은 피벨류의 값이고 유의하다라는것은 우연히 차이날 확률이 작다는것이고 우연이 아니다 라는걸로 해석할 수 있습니다.# scipy패키지의 ttest_ind()를 통해 t-검정을 수행 (scipy라이브러리 설치 필요)# t-test.py# t-test (t-검정)# 두 변수(=두 데이터군)의 평균을 기준으로 유사도를 검증하는 통계분석 기법# scipy 라이브러리를 사용def p(str): print(str, '\n')# compact자동차와 suv자동차의 도시연비 t검정import pandas a.. 2024. 8. 20.
[데이터분석] 넘파이&판다스 판다스 넘파이들 중 간단한것들을 시도해봤습니다.넘파이에서의  axis=0, axis=1이 나오게되는데 0은 열을 의미하고 1은 행을 의미합니다.sort함수는 axis에서 사용하게 됩니다.(0은 열과 비슷하니 0=열, 1은 행으로 외우려고 합니다) #넘파이#numpy&pandas.pydef p(str): print(str, '\n')##넘파이 배열import numpy as np# 파이썬 리스트로 넘파이 배열 만들기ar1 = np.array([1, 2, 3, 4 ,5]) #1차원 배열p(ar1) #리스트로 나오지만 넘파이 배열임ar2 = np.array([[1,2,3],[4,5,6]]) #2차원 배열p(ar2) #리트스 안의 리스트로 감싸주면 2차원 배열이됨#크기가 3인 1차원 난수 배열ar3= np.. 2024. 8. 19.
[데이터분석]텍스트마이닝 , 워드클라우드, 지도시각화 ## 기사댓글 가져오기# textmining2.pydef p(str): print(str, '\n')## 기사 댓글import pandas as pddf = pd.read_csv("../assets/news_comment_BTS.csv")#df.info()# 한글이 아닌 모든 문자 제거import redf["reply"] = df["reply"].str.replace("[^가-힣]", " ", regex=True)#p(df["reply"])# kkma 형태소 분석기를 통해 명사 추출import konlpykkma = konlpy.tag.Kkma()nouns = df["reply"].apply(kkma.nouns)#p(nouns)# 리스트 분해nouns = nouns.explode()p(nouns)#.. 2024. 8. 14.
[데이터분석] 인터렉티브, 마크다운 실습 인터렉티브 그래프 #마우스의 움직임에 따라 실시간으로 모양이 변하는 그래프 * plotly  외부 라이브러리 필요 #plotly를 활용한 산점도, 막대, 선, 박스 그래프 그리기 #파이참에서 plotly 실행 시 HTML로 컨버팅   # interactivegraph.pydef p(str): print(str, '\n')#필요한 라이브러리 로딩import pandas as pdmpg = pd.read_csv('../assets/mpg.csv')p(mpg)#산점도 그래프import plotly.express as pxfig = px.scatter(data_frame=mpg, x='cty', y='hwy', color='drv')fig.write_html('scatter.html', auto_open=.. 2024. 8. 13.
[데이터분석] 텍스트마이닝 실습 텍스트마이닝 실습을 해보았습니다. # 실습 내용# * 텍스트 데이터 로딩# * 한글 추출# * 명사 추출# * 글자수 2개 이상인 단어 추출# * 단어별 빈도 수 구하기# * 빈도 수 상위 10개 막대그래프 생성# * 워드클라우드 생성# * 구름모양 워드클라우드 생성import pandas as pdimport reimport konlpydef p(str): print(str, '\n')# 텍스트 파일 오픈text = open('../assets/gimi.txt', encoding='utf-8').read()# p(gimi)#한글이 아닌 모든 데이터 제거text = re.sub("[^가-힣]", " ",text)# p(text)#명사 추출hannanum = konlpy.tag.Hannanum()no.. 2024. 8. 12.
[데이터분석] 텍스트마이닝 Contents# 텍스트 마이닝# 지도 시각화# 인터랙티브 그래프# 마크다운 분석보고서 # 텍스트마이닝(Text Mining) 문자데이터에서 정보를 추출하는 분석 기법 # 형태소 분석(Morphology Analysis) 문자데이터에서 명사, 동사, 형용사 등 의미 있는 품사를 추출하는 분석 기법 # konlpy 라이브러리를 이용하여 한글텍스트 형태소 분석을 수행 (Java 필요, JPype1 라이브러리 필요) # speech_moon.txt를 assets에 복사 (문재인 대통령 연설문) # 워드클라우드 (Word Cloud) :단어 빈도를 구름모양 이미지로 표현한 그래프* wordcloud 라이브러리 필요* 구름이미지 cloud.png, 한글처리 DoHyeon-Regular.ttf를 assets에 복사.. 2024. 8. 11.
[데이터분석] 데이터 정제(전처리), 그래프 종류 확인 및 실습해보기 Contents# 데이터 정제# 그래프 만들기# 데이터 정제 및 그래프 만들기 실습 데이터 정제 결측치, 이상치, 극단치 정제 # 결측치(missing value)는 측정되지 않은 값, 또는 누락된 값# 이상치(anormaly value)는 이상한 값, 또는 범위를 크게 벗어난 값# 극단치(outlier value)는 극단적으로 크거나 작은 값# 결측치, 이상치, 극단치가 수집데이터에 있는 경우는 분석결과가 왜곡될 수 있으므로 적절한 기준을 세워 제거하거나 대체하는 전처리 작업이 필요함 #실습#datacleaning.pydef p(str): print(str, '\n')# 결측치 : 값이 측정되지 않았거나 빠져있는 데이터를 의미함# 결측치 생성할 때 : np.nanimport pandas as p.. 2024. 8. 5.
[데이터분석] 판다스 활용하기, json파일 가져와서 데이터 나눠보기 #판다스pandas - Python Data Analysis Library (pydata.org) pandas - Python Data Analysis Librarypandas pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language. Install pandas now!pandas.pydata.orgpandas documentation — pandas 2.2.2 documentation (pydata.org) pandas documentation — pandas 2.2.2 documentation.. 2024. 8. 3.
[ML] 랜덤 포레스트를 이용한 호텔 데이터 다루기 1.hotel 데이터셋-이번에는 호텔정보를 가지고 취소를 할 것 같은 고객인지 분류해보는 프로젝트를 진행해보려고 합니다.import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as plthotel_df = pd.read_csv('/content/drive/MyDrive/컴퓨터 비전 시즌2/3. 데이터 분석/data/hotel.csv')hotel_df.head()hotel_df.info()여기서 is_canceled는 종속변수로 둘거고 필요하지 않은 데이터들은 나누면서 데이터 전처리를 해보도록 하겠습니다.여기서 디타입을 보면 오브젝트가 보이는데 이제는 오브젝트를 보면 데이터 전처리 해.. 2024. 7. 14.
[ML] 서포트 벡터 머신(SVM),스케일링을 통한 손글씨 데이터셋만들어보기 1. 손글씨 데이터셋from sklearn.datasets import load_digits사이킷런 안에 데이터셋 안에 load_digits가 있습니다.데이터셋안에 많은것들이있고 그 중에 아이리스도 있습니다.load_dighits은 사람이 손으로 쓴 글씨를 이미지로 저장해놓은 데이터셋입니다. #객체 확인digits = load_digits() digits.keys()#dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])key들은 딕셔너리구조로 되어있습니다.data = digits['data']data.shape#(1797, 64)컬럼은 64개가 있다는것을 확인할 수 있습니다.target = dig.. 2024. 7. 8.
[ML] 의사 결정 나무(decision tree)_bike 데이터 활용(2) 이번에는 선형회귀와 의사결정나무를 좀 비교해보는 글 입니다.3. 선형회귀 vs 의사 결정 나무from sklearn.linear_model import LinearRegression #클래스를 이용하는것 lr = LinearRegression()선형회귀를 이용해보겠습니다. 객체는 lr로 했습니다.lr.fit(X_train, y_train)학습을 하고 완료가 되면 예측을 해야합니다.pred2 = lr.predict(X_test)예측을 학습했습니다. 이후에 scatterplot으로 실행해보겠습니다.sns.scatterplot(x=y_test, y=pred2)mean_squared_error(y_test, pred2, squared=False)#221.1987722244733예측을 후 rmse를 출력해보면서 .. 2024. 7. 6.
[ML] 의사 결정 나무(decision tree)_bike 데이터 활용 트리구조로 도식화한 의사 결정 지원 도구의 일종입니다. (알고리즘이름임) 결정 트리는 3가지 종류의 노드로 구성됩니다.이름표시방법이미지결정 노드(decision node)사각형으로 보통 표시함기회 노드(chance node)원으로 보통 표시함- 종단 노드(end node) 삼각형으로 보통 표시함- 의사 결정 나무(Decision Tree)데이터를 분석하고 패턴을 파악하여 결정 규칙을 나무 구조로 나타낸 기계학습 알고리즘간단하고 강력한 모델 중 하나로, 분류와 회귀 문제에 모두 사용엔트로피 : 데이터의 불확실성을 측정. 특정 속성으로 데이터를 나누었을 때 엔트로피가 얼마나 감소하는지를 계산하여 정보를 얻음. 정보 익득이 높은속성을 선택하여 데이터를 나누게 됨 (= 확실하게 나누는 기준으로 사용됨)지니계수 .. 2024. 7. 5.
[ML] 사이킷런(Scikit-learn) 이번챕터는 많이 딥하게 알 필요는 없지만 전반적인 줄거리를 볼 수 있습니다.1. 사이킷런(Scikit-learn)대표적인 파이썬 머신러닝 모듈안에는 다양한 머신러닝 알고리즘을 제공다양한 샘플 데이터를 제공머신러닝 결과를 검증하는 기능을 제공합니다.BSD(무료) 라이선스이기 때문에 무료로 사용 및 배포가 가능합니다.사이킷런 공식 홈페이지2. LinearSVC(사이킷런의 알고리즘 중 하나입니다)클래스를 구분으로 하는 분류 문제에서 각 클래스를 잘 구분하는 선을 그려주는 방식을 사용하는 알고리즘지도학습 알고리즘을 사용하는 학습 전용 데이터와 결과 전용 데이터를 모두 가지고 있어야 사용할 수 있음.이렇게 2차원적으로 한번에 되지는 않고 압축을 한 것으로 알고리즘이 됩니다. 3.사이킷런 사용해보기#구글은 pip할.. 2024. 6. 30.
[데이터 시각화] 떡볶이 프렌차이즈의 입점전략은 바로 이것. 호호 강사님이 아주 재미있는 썰을 말씀해주셨다.떡볶이집는 파리바게트 근처에 오픈해야 장사가 잘 된다는 썰인데 떡볶이를 그닥 좋아하진 않지만이런 썰이 진짜인지 확인하는것을 좋아하는편.. 꽤 흥미로운 주제였다.그래서 정말 열심히 들으려고 노력했지만 오우 이번은 아주 어려웠던.......그래도 프로젝트 기록을 하겠습니다.import pandas as pddf = pd.read_csv('소상공인시장진흥공단_상가(상권)정보_서울_202303.csv')dfdf.info()서울시 값이고 대부분이 null값이 없이 잘 들어가있는걸 확인할 수 있습니다. 떡볶이집 선택하기 shop변수에 들어갈 떡볶이집 5곳을 선택했습니다. 신전, 죠스, 엽떡, 청년다방, 감탄떡볶이를.. 2024. 6. 29.
[ML] 머신러닝(Machine Learning) 1. 머신러닝(Machine Learning)인공지능: 인공(Artificial) + 지능(Interlligence)1956년 : 인간의 지능을 복제하거나 능가할 수 있는 지능형 기계를 만들고자하는 컴퓨터 과학 분야개발자에 의한 인공지능, 데이터에 의한 인공지능지금 내가 공부하는건 데이터에 의한 인공지능이것이 바로 머신러닝이라고 합니다.머신러닝 : 데이터를 기반으로 한 학습(learning)하는 기계(machine)1997년 : 기계가 기존 데이터에서 학습하고 해당 데이터를 개선하여 의사결정 또는 예측을 할 수 있도록 하는 ai의 하위 집합.딥러닝 : 깊은(deep) 신경만 구조의 머신러닝2017년 신경망 레이어를 사용하여 데이터를 처리하고 결정을 내리는 기계 학습 기술Generative AI2021년 .. 2024. 6. 28.
[데이터 시각화] 서울시 따릉이 API를 이용한 실시간 잔여 자전거 대수 확인하기 실시간으로 서울시에 있는 역에 따릉이가 몇 대 대여됐는지 잔여 자전거 대수를 확인해보려고 합니다.1. 따릉이 api(https://www.bikeseoul.com/app/station/getStationRealtimeStatus.do)형태는 JSON형태로 되어있습니다.필요한것들을 임포트 하겠습니다.import requestsimport foliumimport jsonimport pandas as pdimport warningswarnings.filterwarnings('ignore')warnings.filterwarnings('ignore') == warnings을 안뜨게하는 명령어입니다.데이터 값내용stationName 대여소 이름stationId 고유한 대여소 번호stationLongitude 대여소.. 2024. 6. 27.
[데이터 시각화] 전국 도시공원 데이터 활용 이번에는 다양한 도시공원데이터들을 활용해서 얼마나 퍼져있는지 확인하려고 합니다 임포트해보겠습니다.import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snspark = pd.read_csv('전국도시공원표준데이터.csv', encoding='ms949')park여기서 encoding='ms949'로 윈도우즈에 맞게 인코딩까지 해준 후 데이터를 뽑아봅니다.park.shape#(18137, 20)이번에도 값들이 굉장히 많이있다는것을 볼 수 있습니다.한글도 사용할 것이라 한글폰트도 설치 해줍니다.#한글폰트 설치!sudo apt-get install -y fonts-nanum!sudo.. 2024. 6. 23.
[seaborn] 상권별 업종 밀집 통계 데이터(2) [Matplotlib] 상권별 업종 밀집 통계 데이터 (tistory.com) 위 데이터를 이어서 다른 모듈을 사용해 보았습니다. shop_seoul 이라는 변수가 있다는 점을 참고하기seaborn 모듈이란?- 데이터 시각화를 위해 사용되는 라이브러리- Matplotilib를 기반으로 구축되었으며 그래프가 더 간단하고 직관적인 API를 제공하여 복잡한 그래프를 쉽게 생성할 수 있게 합니다.- seaborn 공식 홈페이지 https://seaborn.pydata.org/ seaborn: statistical data visualization — seaborn 0.13.2 documentationseaborn: statistical data visualizationseaborn.pydata.org이것도 마찬.. 2024. 6. 22.
[Matplotlib] 상권별 업종 밀집 통계 데이터 이번에는 상권별 업종 밀집 통계자료를 가지고와서 데이터를 시각화해보려고 합니다.이번에는 pandas, numpy, matplotib모두를 이용할것입니다.shop = pd.read_csv('경로')위 데이터는 굉장히 많아서 가로로 봤을때 columns들이 다 보이지 않습니다.#생략된 부분을 펼쳐서 보기pd.set_option('display.max_columns', 40)shop화면이 작아서 다 보이진 않지만 스크롤바가 생기면서 모든 컬럼을 다 볼 수 있는것을 확인할 수 있습니다.물론 info를 통해서 확인할 수도 있습니다.shop.info()shop.columns남겨둘 컬럼만 남기겠습니다.view_columns= ['상호명', '지점명', '상권업종대분류명', '상권업종중분류명','상권업종소분류명', '.. 2024. 6. 21.
[Matplotlib] 가상 온라인 쇼핑몰 데이터 다루기 이번에는 54만개 이상 되는 많은 양의 데이터양의 CSV파일을 가져와서 다루어보려고 합니다.이번 데이터 csv는 retail에 대한 값입니다.  1.데이터 분석 2. 시각화 표현 아래에있는 내용의 기본정보입니다.InvoiceNo: 주문 번호StockCode: 상품 코드Description: 상품 설명Quantity: 주문 수량InvoiceDate: 주문 날짜UnitPrice: 상품 가격CustomerID: 고객 아이디Country: 고객 거주지역(국가)가장먼저 pandas로 임포트를 해주고저는 구글드라이브에있는 파일연동을 시켜줍니다.import pandas as pdfrom google.colab import drivedrive.mount('/content/drive')retail = pd.read_cs.. 2024. 6. 20.