[작업형3] 일원분산분석 실습 + 심화실습
💬 일원 분산 분석 주어진 데이터는 4가지 다른 교육 방법을 적용한 대학생들의 학점 결과이다. 이 실험에서는 비슷한 실력을 가진 학생 40명을 무작위로 4개(A, B, C, D)그룹으로 나누었고, 각 그룹은 다른 교육 방법을 적용했다. 학생들의 학점 결과에는 교육 방법에 따른 차이가 있는지 유의수준 0.5하에서 검정하시오.귀무가설(H0): 네 가지 교육 방법에 의한 학생들의 학점 평균은 동일하다.대립가설(H1): 적어도 두 그룹의 학점 평균은 다르다. import pandas as pddf = pd.DataFrame({ 'A': [3.5, 4.3, 3.8, 3.6, 4.1, 3.2, 3.9, 4.4, 3.5, 3.3], 'B': [3.9, 4.4, 4.1, 4.2, 4.5, 3.8, 4..
2024. 11. 17.
[작업형3] 다선형회귀, 범주형이 섞여있다면?
😊 다중선형회귀를 예측해보고 싶습니다. 일단 간단한 데이터를 만들었습니다. 아래의 데이터로 최종예측까지 해보려고합니다.import pandas as pddf = pd.DataFrame({ '매출액': [300, 320, 250, 360, 315, 328, 310, 335, 326, 280, 290, 300, 315, 328, 310, 335, 300, 400, 500, 600], '광고비': [70, 75, 30, 80, 72, 77, 70, 82, 70, 80, 68, 90, 72, 77, 70, 82, 40, 20, 75, 80], '플랫폼': [15, 16, 14, 20, 19, 17, 16, 19, 15, 20, 14, ..
2024. 11. 14.
[작업형3] 회귀분석-단순 선형 회귀 분석 (3)
💛 단순 선형 회귀 분석 주어진 키와 몸무게 데이터로 회귀모델을 구축하고 각 소문제의 값을 구하시오.키: 종속변수몸무게: 독립변수💛 시험에서는 물론 csv파일로 하나의 변수에 담기겠지만 일단 연습용으로 데이터를 구축했어요. import pandas as pddf = pd.DataFrame({ '키': [150, 160, 170, 175, 165, 155, 172, 168, 174, 158, 162, 173, 156, 159, 167, 163, 171, 169, 176, 161], '몸무게': [74, 50, 70, 64, 56, 48, 68, 60, 65, 52, 54, 67, 49, 51, 58, 55, 69, 61, 66, 53]}) 💛 최소제곱법인..
2024. 11. 13.
[작업형3] 회귀분석- 상관관계 (2)
🌚 이번에는 상관관계 데이터를 연습해보려고 합니다.상관관계는 말 그대로 그 둘사이의 관계 라고 생각하고있다.상관관계두 변수 간의 선형적인 관계두 변수 간의 선형 관계의 강도와 방향 (-1 ≤ r ≤ 1)여기서는 상관계수가 중요한데 (r)로 표현을 하고 r = 1: 강한 양의 선형관계r = 0: 선형 관계 없음r = -1: 강한 음의 선형관계1이면 강한 양의 선형, 0은 없음, -1은 음의 선형관계를 뜻합니다. 🌚 데이터 준비# 데이터import pandas as pddf = pd.DataFrame({ '키': [150, 160, 170, 175, 165], '몸무게': [42, 52, 75, 67, 56]}) 상관계수에 대한 t검정귀무가설: 두 변수 간에 상관관계가 없다.대립가설: 두 변..
2024. 11. 12.
[작업형3] 범주형 데이터 분석 - 적합도검정
범주형 데이터분석에는 카이제곱, 적합도, 독립성 검정 이렇게 3가지 가있습니다. 🔶 1. 적합도 검정 [문제] 지난 3년간 빅데이터 분석기사 점수 분포가 60점 미만: 50%, 60-70점 35%, 80점이상 15%로였다. 이번 회차부터 단답형을 제외하고, 작업형3을 추가하여 300명을 대상으로 적용한 결과 60점 미만: 150명, 60-70점: 120명, 80점이상: 30명이었다. 유의수준 0.05일 때, 새로운 시험문제 유형과 기존 시험문제 유형은 점수에 차이가 없는지 검정하시오.귀무가설(H0): 새로운 시험문제는 기존 시험문제 점수와 동일하다.대립가설(H1): 새로운 시험문제는 기존 시험문제 점수와 다르다.#관찰ob = [150, 120, 30]# 기대ex = [0.5*300, 0.35*300, ..
2024. 11. 9.
[작업형3] 독립표본검정 + 심화
💙독립표본검정을 공부했습니다. 두 그룹의 차이를 통계적으로 검증합니다.💙독립표본검정다음은 빅데이터 분석기사 실기 시험 점수이다. A그룹과 B그룹의 평균 점수가 차이가 있는지 유의수준 0.05하에서 가설 검정하시오. (데이터는 정규분포를 따르고 분산이 동일하다고 가정한다.)귀무가설(H0): 그룹별 시험 평균 점수는 차이가 없다. (μ1 = μ2)대립가설(H1): 그룹별 시험 평균 점수는 차이가 있다. (μ1 ≠ μ2)💙데이터는 아래와 같습니다.# 데이터A = [85, 90, 92, 88, 86, 89, 83, 87, 84, 50, 60, 39, 28, 48, 38, 28]B = [82, 82, 88, 85, 84, 74, 79, 69, 78, 76, 85, 84, 79, 89]여기서 A..
2024. 11. 7.
[작업형3] 단일표본검정 심화
# 데이터 (정규성에 만족하지 않게 일부 변경)import pandas as pddf = pd.DataFrame({ '무게':[219, 121, 121, 119, 125, 115, 121, 118, 117, 127, 123, 129, 119, 124, 114, 126, 122, 124, 121, 116, 123, 123, 127, 118, 122, 117, 124, 125, 123, 121],})💜이번에는 정규분포를 따르지않게 숫자 한개를 219로 굉장히 크게 바꿨습니다.이럴때는 어떻게 단일표본검정(ttest)를 해야할까요? 할 수 없쥬..그래서 정규분포를 따르는지 확인하고 따른다면 ttest진행해도 되지만 아니라면 윌콕으로 비모수 검정으로 대체합니다. 💜그래..
2024. 11. 5.
[작업형1] print(df) vs df
판다스를 이용해서 데이터를 불러오는것 vs print문을 이용해서 데이터 불러오기 # 학습 전 실행: csv파일 (data.csv) 생성import pandas as pdimport numpy as npdata = { "메뉴":['아메리카노','카페라떼','카페모카', '바닐라라떼', '녹차', '초코라떼', '바닐라콜드브루'], "가격":[4100, 4600, 4600, 5100, 4100, 5000, 5100], "할인율":[0.5, 0.1, 0.2, 0.3, 0, 0, 0], "칼로리":[10, 180, 420, 320, 20, 500, 400], "원두":['콜롬비아', np.NaN, '과테말라', np.NaN, '한국', '콜롬비아', np.NaN], "이벤트가"..
2024. 10. 3.
[작업형1] 판다스 loc, iloc 개념 및 에러정리
loc, iloc 둘 다 모두 인덱싱을 위한 것인데loc는 라벨을 기반으로 하는 인덱싱 번호입니다예를들어서 행 이름이나 열 이름을 사용할떄 쓰입니다.data = { "메뉴":['아메리카노','카페라떼','카페모카', '바닐라라떼', '녹차', '초코라떼', '바닐라콜드브루'], "가격":[4100, 4600, 4600, 5100, 4100, 5000, 5100], "할인율":[0.5, 0.1, 0.2, 0.3, 0, 0, 0], "칼로리":[10, 180, 420, 320, 20, 500, 400],}data = pd.DataFrame(data)data.to_csv('data.csv', index=False)를 가정한다고 하면 판다스로 표가 그려지겠죠 메뉴가격할인율칼로리0아메리카노..
2024. 10. 1.