본문 바로가기

전체 글208

[ML/DL] 파이토치,텐서,GPU 에서는 용어 정말 중요하니까 용어!!!꼭!!! 숙지해두기1. 파이토치(Pytorch)텐서플로우와 함께 머신러닝, 딥러닝에서 가장 널리 사용되는 프레임워크초기에는 Torch라는 이름으로 Lua언어 기반으로 만들어졌으나, 파이썬기반으로 변경한 것이 파이토치입니다.뉴욕대학교와 페이북(메타)이 공동으로 개발하였고, 현재 가장 대중적이고 사용자가 많은 머신러닝, 딥러닝 프레임워크 입니다.import torchprint(torch.__version__) #파이토치 버전확인방법#2.3.0+cu1211-1. 스칼라(Scalar)하나의 상수를 의미 var1 = torch.tensor([10]) #텐서함수의 표현방법var1# tensor([10])type(var1)# torch.Tensorvar2 = torch.tenso.. 2024. 7. 18.
[ML/DL] 파이토치로 구현한 선형회귀_단항,최적화, 다중 선형회귀 1.단항 선형 회귀한 개의 입력이 들어가서 한 개의 출력이 나오는 구조import torchimport torch.nn as nn import torch.optim as optimimport matplotlib.pyplot as plttorch.manual_seed(2024)파이토치에서 토치 변수가 랜덤한값을 2024로 고정하는 것입니다 .데이터를 3개를 만들었습니다. 3번들어가는겁니다. 레이블이 3개! 1->2 2->43->6 이렇게 되는거죠x_train = torch.FloatTensor([[1], [2], [3]])y_train = torch.FloatTensor([[2] ,[4], [6]])print(x_train, x_train.shape)print(y_train, y_train.shape)시각.. 2024. 7. 18.
[ML] kMeans_비지도학습, 마케팅데이터셋 활용 import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.datasets import make_blobs필요한것들을 먼저 임포트해줬습니다.1. Clusters(클러스터)유사한 특성을 가진 개체들의 집합고객분류, 유전자 분석, 이미지 분할X, y = make_blobs(n_samples=100, centers=3, random_state=2024)X,y를 리턴받을거고 100개의 데이터를 값을 랜덤하게 만든다음에 센터스를 3으로 하면 정답(클래스)를 3가지로 만듭니다랜덤스테이트는 2024로 줍니다.X = pd.DataFrame(X)X  sns.catterplot(x=X[0], y=X[.. 2024. 7. 16.
[ML] 랜덤 포레스트를 이용한 호텔 데이터 다루기 1.hotel 데이터셋-이번에는 호텔정보를 가지고 취소를 할 것 같은 고객인지 분류해보는 프로젝트를 진행해보려고 합니다.import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as plthotel_df = pd.read_csv('/content/drive/MyDrive/컴퓨터 비전 시즌2/3. 데이터 분석/data/hotel.csv')hotel_df.head()hotel_df.info()여기서 is_canceled는 종속변수로 둘거고 필요하지 않은 데이터들은 나누면서 데이터 전처리를 해보도록 하겠습니다.여기서 디타입을 보면 오브젝트가 보이는데 이제는 오브젝트를 보면 데이터 전처리 해.. 2024. 7. 14.
[DL] 역전파, 순전파, 딥러닝 학습관련 시청자료 https://www.youtube.com/watch?v=Ilg3gGewQ5Uhttps://www.youtube.com/watch?v=573EZkzfnZ0https://www.youtube.com/watch?v=d14TUNcbn1khttps://taeu.github.io/cs231n/deeplearning-cs231n-Backpropagation/ [CS231n] 강의노트 : 역전파(Backpropagation) 이해목표 역전파 (Backpropagation)에 대한 직관적인 이해를 바탕으로 backprop의 과정과 세부요소들을 살펴보는 것taeu.github.io 2024. 7. 9.
데이터셋 추가이미지 생성(필터변경) https://huggingface.co/spaces/IliaLarchenko/albumentations-demo Albumentations Demo - a Hugging Face Space by IliaLarchenko huggingface.co 2024. 7. 9.
[ML] 서포트 벡터 머신(SVM),스케일링을 통한 손글씨 데이터셋만들어보기 1. 손글씨 데이터셋from sklearn.datasets import load_digits사이킷런 안에 데이터셋 안에 load_digits가 있습니다.데이터셋안에 많은것들이있고 그 중에 아이리스도 있습니다.load_dighits은 사람이 손으로 쓴 글씨를 이미지로 저장해놓은 데이터셋입니다. #객체 확인digits = load_digits() digits.keys()#dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])key들은 딕셔너리구조로 되어있습니다.data = digits['data']data.shape#(1797, 64)컬럼은 64개가 있다는것을 확인할 수 있습니다.target = dig.. 2024. 7. 8.
[ML]로지스틱 회귀_승진 될지 안 될지 분류해보기 1. hr 데이터셋이번에는 승진관련(임의)데이터이고 여기서 이런 정보를 주면 is_promoted 분류를 해보려고 합니다.import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as plthr_df = pd.read_csv('hr.csv')hr_df.head()hr_df.info()hr_df.describe()간단하게  데이터를 확인할 수 있습니다. 이렇게 표로 보다는 barplot으로 한번 확인해보도록 하겠습니다.즉 독립변수들이 is_promoted에 영향을 받는지 안 받는지를 확인하기 위해서 확인해보도록 하겠습니다.sns.barplot(x='previous_year_rating', y=is_promoted, .. 2024. 7. 7.
[ML] 의사 결정 나무(decision tree)_bike 데이터 활용(2) 이번에는 선형회귀와 의사결정나무를 좀 비교해보는 글 입니다.3. 선형회귀 vs 의사 결정 나무from sklearn.linear_model import LinearRegression #클래스를 이용하는것 lr = LinearRegression()선형회귀를 이용해보겠습니다. 객체는 lr로 했습니다.lr.fit(X_train, y_train)학습을 하고 완료가 되면 예측을 해야합니다.pred2 = lr.predict(X_test)예측을 학습했습니다. 이후에 scatterplot으로 실행해보겠습니다.sns.scatterplot(x=y_test, y=pred2)mean_squared_error(y_test, pred2, squared=False)#221.1987722244733예측을 후 rmse를 출력해보면서 .. 2024. 7. 6.
[ML] 의사 결정 나무(decision tree)_bike 데이터 활용 트리구조로 도식화한 의사 결정 지원 도구의 일종입니다. (알고리즘이름임) 결정 트리는 3가지 종류의 노드로 구성됩니다.이름표시방법이미지결정 노드(decision node)사각형으로 보통 표시함기회 노드(chance node)원으로 보통 표시함- 종단 노드(end node) 삼각형으로 보통 표시함- 의사 결정 나무(Decision Tree)데이터를 분석하고 패턴을 파악하여 결정 규칙을 나무 구조로 나타낸 기계학습 알고리즘간단하고 강력한 모델 중 하나로, 분류와 회귀 문제에 모두 사용엔트로피 : 데이터의 불확실성을 측정. 특정 속성으로 데이터를 나누었을 때 엔트로피가 얼마나 감소하는지를 계산하여 정보를 얻음. 정보 익득이 높은속성을 선택하여 데이터를 나누게 됨 (= 확실하게 나누는 기준으로 사용됨)지니계수 .. 2024. 7. 5.
[ML] 선형 회귀_Rent값 예측 모델 만들기(2) Rent값 예측 모델 만들기전체 과정데이터 분할: 데이터를 훈련 데이터와 테스트 데이터로 나누기.모델 학습: 훈련 데이터를 사용해 모델을 학습시키기.모델 평가: 테스트 데이터를 사용해 모델이 얼마나 잘 예측하는지 평가하기.예측: 학습된 모델을 사용해 새로운 데이터의 임대료를 예측하기.으로 구성되어있고 이번 글은  2번~4번에 해당하는 글 입니다. 2. 선형 회귀(Linear Regression)기법*리니어=Linear데이터를 통해 데이터를 가장 잘 설명할 수 있는 직선으로 데이터를 분석하는 방법단순 선형 회기분석(단일 독립변수를 이용)-사실 잘 사용하지 않음(독립변수가 하나인경우는 거의 없기에..)다중 선형 회기분석(다중 독립변수를 이용)from sklearn.linear_model import Line.. 2024. 7. 4.
[Linux] 리눅스 기본 사용_추출,정렬,파일내용,링크파일,압축/해제 목차1. What is Linux?2. Linux Basic Command3. Linux System Management Command4. Shell & Process & File System Management5. Linux Testing [LPIC, Linux Master]1-1. cut(컷)명령어설명cut [필드] [파일명]추출을 하게만들어줍니다  / tap로 단어 구분cut -f1 passwd첫 번째 필드 문자열 추출cut -f1,3 hjl.txt(띄어쓰기 하지 않음) 첫 번째, 세번째 문자열 추출cut -d; -f1 passwd-d는 구분자를 의미합니다. 파일을 세미콜론으로 구분된 필드들로 나누고, 그 중 첫 번째 필드만을 추출한다는 의미cut -f1-f4 hjl.txt첫번째에서 네번쨰 문자열 .. 2024. 7. 3.
[ML] 선형 회귀_Rent값 예측 모델 만들기(1) 머신러닝을 공부했다면! 이정도 알고리즘을 알아야하는것들을 학습&반복했습니다.솔직히 데이터시각화까지는 바지밑단잡고 질질 끌려가는느낌이었지만 ML들어가면서 수학적인부분이 확실히 들어가다보니 많이 이해하기가 힘들었습니다.그래서 수업에 그치지않고 유튜브, GPT을 이용해서 조금 더 공부를 해보려고 노력했습니다. Rent값 예측 모델 만들기전체 과정데이터 분할: 데이터를 훈련 데이터와 테스트 데이터로 나누기.모델 학습: 훈련 데이터를 사용해 모델을 학습시키기.모델 평가: 테스트 데이터를 사용해 모델이 얼마나 잘 예측하는지 평가하기.예측: 학습된 모델을 사용해 새로운 데이터의 임대료를 예측하기.으로 구성되어있고 이번 글은 1번에 해당하는 글 입니다.1. Rent 데이터셋(따로 받은 데이터셋입니다. 데이터를 이용해서.. 2024. 7. 2.
[ML] 아이리스 데이터셋(Iris DataSet) 1. Iris DataSetDataSet : 특정한 작업을 위해 데이터를 관련성 있게 모아놓은 것사이킷런 데이터셋 페이지from sklearn.datasets import load_irisiris = load_iris()irisprint(iris['DESCR'])class는 3가지 독립변수는 4가지 입니다. data =iris['data']data한 줄이 값이고 그게 150개가 있다는것2.레이블 확인target = iris['target']target0번꽃, 1번꽃, 2번에대한 부분 출력을 확인할 수 있음 150개컬럼명으로 쓸만한 이름이 4가지가 있다는것을 확인할 수 있습니다.feature_names = iris['feature_names']feature_names  3. padnas를 이용 및 확인im.. 2024. 7. 1.
[ML] 사이킷런(Scikit-learn) 이번챕터는 많이 딥하게 알 필요는 없지만 전반적인 줄거리를 볼 수 있습니다.1. 사이킷런(Scikit-learn)대표적인 파이썬 머신러닝 모듈안에는 다양한 머신러닝 알고리즘을 제공다양한 샘플 데이터를 제공머신러닝 결과를 검증하는 기능을 제공합니다.BSD(무료) 라이선스이기 때문에 무료로 사용 및 배포가 가능합니다.사이킷런 공식 홈페이지2. LinearSVC(사이킷런의 알고리즘 중 하나입니다)클래스를 구분으로 하는 분류 문제에서 각 클래스를 잘 구분하는 선을 그려주는 방식을 사용하는 알고리즘지도학습 알고리즘을 사용하는 학습 전용 데이터와 결과 전용 데이터를 모두 가지고 있어야 사용할 수 있음.이렇게 2차원적으로 한번에 되지는 않고 압축을 한 것으로 알고리즘이 됩니다. 3.사이킷런 사용해보기#구글은 pip할.. 2024. 6. 30.
[데이터 시각화] 떡볶이 프렌차이즈의 입점전략은 바로 이것. 호호 강사님이 아주 재미있는 썰을 말씀해주셨다.떡볶이집는 파리바게트 근처에 오픈해야 장사가 잘 된다는 썰인데 떡볶이를 그닥 좋아하진 않지만이런 썰이 진짜인지 확인하는것을 좋아하는편.. 꽤 흥미로운 주제였다.그래서 정말 열심히 들으려고 노력했지만 오우 이번은 아주 어려웠던.......그래도 프로젝트 기록을 하겠습니다.import pandas as pddf = pd.read_csv('소상공인시장진흥공단_상가(상권)정보_서울_202303.csv')dfdf.info()서울시 값이고 대부분이 null값이 없이 잘 들어가있는걸 확인할 수 있습니다. 떡볶이집 선택하기 shop변수에 들어갈 떡볶이집 5곳을 선택했습니다. 신전, 죠스, 엽떡, 청년다방, 감탄떡볶이를.. 2024. 6. 29.
[ML] 머신러닝(Machine Learning) 1. 머신러닝(Machine Learning)인공지능: 인공(Artificial) + 지능(Interlligence)1956년 : 인간의 지능을 복제하거나 능가할 수 있는 지능형 기계를 만들고자하는 컴퓨터 과학 분야개발자에 의한 인공지능, 데이터에 의한 인공지능지금 내가 공부하는건 데이터에 의한 인공지능이것이 바로 머신러닝이라고 합니다.머신러닝 : 데이터를 기반으로 한 학습(learning)하는 기계(machine)1997년 : 기계가 기존 데이터에서 학습하고 해당 데이터를 개선하여 의사결정 또는 예측을 할 수 있도록 하는 ai의 하위 집합.딥러닝 : 깊은(deep) 신경만 구조의 머신러닝2017년 신경망 레이어를 사용하여 데이터를 처리하고 결정을 내리는 기계 학습 기술Generative AI2021년 .. 2024. 6. 28.
AI 학습 데이터 관련 사이트 보호되어 있는 글 입니다. 2024. 6. 27.
[데이터 시각화] 서울시 따릉이 API를 이용한 실시간 잔여 자전거 대수 확인하기 실시간으로 서울시에 있는 역에 따릉이가 몇 대 대여됐는지 잔여 자전거 대수를 확인해보려고 합니다.1. 따릉이 api(https://www.bikeseoul.com/app/station/getStationRealtimeStatus.do)형태는 JSON형태로 되어있습니다.필요한것들을 임포트 하겠습니다.import requestsimport foliumimport jsonimport pandas as pdimport warningswarnings.filterwarnings('ignore')warnings.filterwarnings('ignore') == warnings을 안뜨게하는 명령어입니다.데이터 값내용stationName 대여소 이름stationId 고유한 대여소 번호stationLongitude 대여소.. 2024. 6. 27.
[Linux] 파일,디렉터리 확인,찾기 #ls [옵션]ls 명령어는 디렉터리의 파일 및 디렉터리 목록을 확인할 때 사용됩니다.명령어설명ls -a모든 파일/디렉터리 출력(숨김파일/디렉터리 포험)ls -A현재 디렉터리와 상위 디렉터리(. 및 ..)를 제외한 모든 파일 출력ls -lF파일/디렉터리를 심볼로 출력(실행파일(*), 디렉터리(/),링크파일(@),ls -l상세히 목록 출력 (파일 권한, 소유자, 크기, 수정 시간 등)ls -ld directory_name(시험용 실제로 잘 쓰진 않음)  지정된 디렉터리의 정보만 출력ls -lh사람이 읽기 편한 크기(kb, mb. gb)로 보여줌ls -ii-node 번호 출력ls -R하위 디렉토리안의 와 파일/디렉터리 목록까지 표시됩니다.ls -m가로로 출력ls -lr역순으로 출력ls -lnUID, G(gr.. 2024. 6. 26.
[Linux] 파일, 디렉토리 명령어 목차명1. What is Linux?2. Linux Basic Command3. Linux System Management Command4. Shell & Process & File System Management5. Linux Testing [LPIC, Linux Master] 관리자 아이디 :: root관리자 비밀번호  :: 12356리눅스에서는 기본편집기(vi)라는 편집기로 작성을해야합니다.vi는 일반적으로 사용하는 화면 편집기입니다. 명령이 단순하지만 개발자환경과는 많이 달라서 적응하는데 시간이 조금 걸렸습니다. #file [파일명]예시)#file file.txt 파일설명- d(일반)파일d디렉터리l심볼릭링크c문자 장치 파일b블록 장치 파일>> 모드형 편집기1) 명령 모드2) 편집 모드3) 실행 모.. 2024. 6. 25.
[데이터 시각화] 전국 도시공원 데이터 활용 이번에는 다양한 도시공원데이터들을 활용해서 얼마나 퍼져있는지 확인하려고 합니다 임포트해보겠습니다.import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snspark = pd.read_csv('전국도시공원표준데이터.csv', encoding='ms949')park여기서 encoding='ms949'로 윈도우즈에 맞게 인코딩까지 해준 후 데이터를 뽑아봅니다.park.shape#(18137, 20)이번에도 값들이 굉장히 많이있다는것을 볼 수 있습니다.한글도 사용할 것이라 한글폰트도 설치 해줍니다.#한글폰트 설치!sudo apt-get install -y fonts-nanum!sudo.. 2024. 6. 23.
[seaborn] 상권별 업종 밀집 통계 데이터(2) [Matplotlib] 상권별 업종 밀집 통계 데이터 (tistory.com) 위 데이터를 이어서 다른 모듈을 사용해 보았습니다. shop_seoul 이라는 변수가 있다는 점을 참고하기seaborn 모듈이란?- 데이터 시각화를 위해 사용되는 라이브러리- Matplotilib를 기반으로 구축되었으며 그래프가 더 간단하고 직관적인 API를 제공하여 복잡한 그래프를 쉽게 생성할 수 있게 합니다.- seaborn 공식 홈페이지 https://seaborn.pydata.org/ seaborn: statistical data visualization — seaborn 0.13.2 documentationseaborn: statistical data visualizationseaborn.pydata.org이것도 마찬.. 2024. 6. 22.
[Matplotlib] 상권별 업종 밀집 통계 데이터 이번에는 상권별 업종 밀집 통계자료를 가지고와서 데이터를 시각화해보려고 합니다.이번에는 pandas, numpy, matplotib모두를 이용할것입니다.shop = pd.read_csv('경로')위 데이터는 굉장히 많아서 가로로 봤을때 columns들이 다 보이지 않습니다.#생략된 부분을 펼쳐서 보기pd.set_option('display.max_columns', 40)shop화면이 작아서 다 보이진 않지만 스크롤바가 생기면서 모든 컬럼을 다 볼 수 있는것을 확인할 수 있습니다.물론 info를 통해서 확인할 수도 있습니다.shop.info()shop.columns남겨둘 컬럼만 남기겠습니다.view_columns= ['상호명', '지점명', '상권업종대분류명', '상권업종중분류명','상권업종소분류명', '.. 2024. 6. 21.
CSS란 CSS란?CSS는 Casecading Style Sheets의 약자이다. CSS는 HTML 요소들이 각종 미디어에서 어떻게 보이는 가를 정의하는데 사용한다. 스타일을 html문서로부터 분리하는 것이 가능해진다. CSS를 사용하는 이유는? HTML만으로 웹 페이지를 제작하는 경우, HTML요소의 세부 스타일을 일일이 따로 지정해주어야 하기 때문에 많은 시간이 소요되고, 완성한 후에도 스타일의 변경 및 유지보수가 매우 힘들어진다. 이 문제점을 해결하기 위해서 만든 언어가 CSS이다. CSS문법 p             {text:aign : center; color: blue;} [선택자] {속성명 : 속성값; 속성명 : 속성값}  CSS 선택자 1. 전체 선택자 -스타일을 모든요/소에 적용할 때 사용한다... 2024. 6. 21.
프론트엔드 개발_HMTL_(3) 1. semantic시멘틱 태그(Semaintic tag) -의미가 있는 태그들로, html 문서 내의 가독성 개선과 외부검색엔진(SEO)에도 내 문서내의 어떤 부분이 메인인지 보여줄 수 있도록 최적화 시켜줄 수 있는 부분을 담당한다. 또한 개발자의 유지보수 및 웹페이지를 시각적이 아니라, 음성으로 읽어주는 '스크린리더'를 이용하거나 웹 접근성에 유용하다. 시멘틱 태그의 종류 -header : 상단, 헤더를 의미한다.-nav : 메뉴, 네비게이션을 의미한다. -section : 여러 중심 내용을 감싸는 공간을 의미한다 -main : 내용의 중심을 의미한다. -article : 글자가 많이 들어간 부분을 의미한다. -aside : 사이드에 위치하는 공간을 의미한다. -footer: 하단, 푸터를 의미한다 .. 2024. 6. 21.
데이터파일_csv인코딩 오류 전국 도시공원 데이터('링크첨부')항상 똑같이 구글드라이브에서 데이터를 가져오는데 처음보는 에러코드가 발생했다.  오류코드park = pd.read_csv('/content/drive/MyDrive/컴퓨터 비전 시즌2/3. 데이터 분석/data/전국도시공원표준데이터.csv')오류UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb0 in position 0: invalid start byte원인- utf-8의 코덱이 아님- csv파일 속성에 인코딩에보면 ANSI로 되어있음*ANSI : 내 운영체제가 한글Windows를 사용하고 있기때문에 그에 맞게 변경됨그래서 구글코랩에서 호환되지않음구글코랩은 리눅스.. 2024. 6. 21.
[Matplotlib] 가상 온라인 쇼핑몰 데이터 다루기 이번에는 54만개 이상 되는 많은 양의 데이터양의 CSV파일을 가져와서 다루어보려고 합니다.이번 데이터 csv는 retail에 대한 값입니다.  1.데이터 분석 2. 시각화 표현 아래에있는 내용의 기본정보입니다.InvoiceNo: 주문 번호StockCode: 상품 코드Description: 상품 설명Quantity: 주문 수량InvoiceDate: 주문 날짜UnitPrice: 상품 가격CustomerID: 고객 아이디Country: 고객 거주지역(국가)가장먼저 pandas로 임포트를 해주고저는 구글드라이브에있는 파일연동을 시켜줍니다.import pandas as pdfrom google.colab import drivedrive.mount('/content/drive')retail = pd.read_cs.. 2024. 6. 20.
[Matplotlib] 파이썬을 이용하여 그래프 만들기 1. Matplotlib 파이썬 기반 시각화 라이브러리한글에 대한 지원이 완벽하지 않음pandas와 연동이 용이함Matplotlib 공식 홈페이지 리디렉션 알림 www.google.com설치하기- 구글코랩에는 기본적으로 설치되어있지만 주피터를 사용할때는 또 따로 설치를 해야하기때문에 기록.!pip install matplotlib#MATLAB과 비슷하게 명령어 스타일로 동작하는 함수들의 모음import matplotlib.pyplot as pltplot는 선 그래프를 넣어주는그래프입니다.plt.plot([1,2,3,4]) #하나만 넣는다면 리스트의 값들은 y값들이며, x값은 자동으로 만들어줌plt.show()plt.plot([1,2,3,4],[1,2,3,4])plt.show 넘파이를 이용할 수도있습니다... 2024. 6. 19.
뇌의 기억력 오류 1. [ ], ( ) Python에서 [] (대괄호)와 () (소괄호)는 서로 다른 용도로 사용되며, pandas에서 이 두 가지를 사용하는 방식은 다음과 같이 요약할 수 있습니다:대괄호 [ ]리스트 정의: my_list = [1, 2, 3, 4]python코드 복사인덱싱과 슬라이싱:리스트, 튜플, 문자열 등에서 특정 요소를 선택하거나 부분 집합을 선택할 때 사용합니다.python코드 복사my_list[0] # 첫 번째 요소 my_list[1:3] # 두 번째부터 세 번째 요소까지pandas 데이터프레임에서 열 선택:특정 열이나 열들을 선택할 때 사용합니다.python코드 복사df['column_name'] # 단일 열 선택 df[['col1', 'col2']] # 여러 열 선택조건부 필터링:불리언 인덱.. 2024. 6. 18.