본문 바로가기

분류 전체보기211

한국어 BERT 를 이용한 네이버 영화 리뷰 분류 (36) KoBERT를 이용한 네이버 영화 리뷰 분류를해보려고 합니다.import pandas as pdimport numpy as npimport urllib.requestimport osfrom tqdm import tqdmimport tensorflow as tffrom transformers import BertTokenizer, TFBertModel 기본임포트를 해주고 링크에서 받아온것을 파일로 다운받도록 하겠습니다.# 네이버 영화 리뷰 데이터 학습을 위해 훈련 데이터와 테스트 데이터를 다운로드합니다.urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt", .. 2025. 1. 8.
BERT 의 MLM, NSP (35) 1. 구글 BERT의 MLM1.마스크드 언어 모델과 토크나이저- 기본 임포트!pip install transformersfrom transformers import TFBertForMaskedLMfrom transformers import AutoTokenizermodel = TFBertForMaskedLM.from_pretrained('bert-large-uncased')tokenizer = AutoTokenizer.from_pretrained('bert-large-uncased')https://huggingface.co/google-bert/bert-large-uncased영어에 대한 사전 학습된 모델로, 마스크 언어 모델링(MLM) 목적을 사용합니다. 소개된 논문: https://arxiv.org/.. 2025. 1. 7.
BERT(Bidirectional Encoder Representations from Transformers)_(34) ■ BERT(Bidirectional Encoder Representations from Transformers)BERT는 트렌스포머에서 인코더쪽의 구조를 사용해서 만든 구조입니다.결국 트랜스포머의 파생입니다. ▶ NLP에서의 사전 훈련(Pre-training)- 사전 훈련된 모델에 약간의 조정해서 TASK에 사용할 수 있는 모델입니다- 요즘 보통은 다 사전모델을 사용하고 있습니다.  ▶사전 훈련된 워드 임베딩- 워드 임베딩 방법론들 (Word2Vec, FastText, GloVe...)어떤 테스크를 수행할때 임베딩을 사용하는 방법으로는 크게 두가지가있다.1. 임베딩 층을 랜덤 초기화해서 처음부터 학습하기2. 방대한 데이터로 word2vec등과 같은 임베딩 알고리즘으로 '사전훈련된' 임베딩 벡터들을 가져.. 2025. 1. 6.
Transformer (33-4 한국어 챗봇 구현하기) ■ 트랜스포머를 이용한 한국어 챗봇(Transformer Chatbot Tutorial)앞서 구현한 트랜스포머 코드를 사용하여 일상 대화 챗봇을 구현해보려고합니다.물론 성능이나 대화흐름이 엄청 자연스럽지는않지만 어느정도 트랜스포머로 구현하는것이 목표입니다.데이터로더 & 전처리import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport reimport urllib.requestimport timeimport tensorflow_datasets as tfds ## !! -> 파이토치중 데이터로더를 통해서 테스트,학습 분리해주는것인데 그런 비슷한것.import tensorflow as tfurllib.request.urlretrieve.. 2025. 1. 3.
Transformer (33-3) Position-wise FFNN포지션 와이즈 FFNN은 인코더와 디코더에서 공통적으로 가지고 있는 서브층입니다.FFNN은 완전연결(Fully-connected FFNN)입니다.식으로 표현하면 아래 그림과 같습니다.여기서 x 는 앞서 멀티 헤드 어텐션의 결과로 나온 (seq_len,dmodel) 의 크기를 가지는 행렬을 말합니다.가중치 행렬 W1 은 (dmodel,dff) 의 크기를 가지고가중치 행렬 W2 은 (dff,dmodel) 의 크기를 가집니다.논문에서 은닉층의 크기인 dff 는 앞서 하이퍼파라미터를 정의할 때 언급했듯이 2,048의 크기를 가집니다.여기서 매개변수 W1 , b1 , W2 , b2 는 하나의 인코더 층 내에서는 다른 문장, 다른 단어들마다 정확하게 동일하게 사용됩니다.하지만 인코더.. 2025. 1. 2.
Transformer (33-1) 지난 33번에 이어~스케일드 닷-프로덕트 어텐션을 구현해보겠습니다.  5) 스케일드 닷-프로덕트 어텐션 구현하기위의 식을 이용해서 구현해본 함수는 아래에있습니다.def scaled_dot_product_attention(query, key, value, mask): # query 크기 : (batch_size, num_heads, query의 문장 길이, d_model/num_heads) # key 크기 : (batch_size, num_heads, key의 문장 길이, d_model/num_heads) # value 크기 : (batch_size, num_heads, value의 문장 길이, d_model/num_heads) # padding_mask : (batch_size, 1.. 2025. 1. 1.
[낙상 감지 프로젝트] 2024년 12월 31일(화) 지난 회의..https://so-fast.tistory.com/entry/%EB%82%99%EC%83%81-%EA%B0%90%EC%A7%80-%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8-2024%EB%85%84-12%EC%9B%94-20%EC%9D%BC%EA%B8%88 전체 요약 12.31(화)-  위 3가지 클래스 정의를 코드로 구현 후 영상에서 확인할 수 있도록 시각화해보기- 결론은 성공은 못했기에 1차 지정 및 낙상조건 결정으로 했다.▶ 임계값 1차 지정 및 낙상조건 결정 → 이전에 관절값 데이터를 통해 분석했던 박스플롯을 기준으로 1차 임계값을 지정해 주었다.→ '일반': 0.01보다 느린 속도라면 일반적인 움직임으로 본다.→ '위험': 0.02보다 빠른 속도라면 일반적인 움.. 2024. 12. 31.
Transformer (33) ▶ Transformer 트랜스포머-2017년 구글브레인이 발표한 논문인 "ATTENTION is all you need"에서 나온 모델입니다.https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf - 트랜스포머는 RNN을 사용하지않고 '인코더'와 '디코더'를 설계하였고 성능도 RNN보다 우수합니다.처음에는 자연어 처리 분야에서만 사용되었으나 이후에는 컴퓨터비전분야까지 확정되고있고 지금은 다양한 분야에서 채택되고있음! - 기존의 seq2seq의 구조인 인코더-디코더를 따르면서도 논문의 이름처럼 (attention)만으로 구현한 모델입니다.- 이후 등장한 BERT , GPT, AlphaFold2 등이 .. 2024. 12. 31.
[AI활용 자연어처리 챗봇프로젝트] 인코더 디코더 Seq2Seq 여러개 인풋 -> 1개 ,  여러개 인풋 - >여러개의 아웃풋sequence to sequence 는 many to many에 대한 모델입니다.Sequence-to-sequence(Seq2Seq)-입력도 sequence고 출력도 sequence인것을 seq2seq라고 합니다.-새로운 모델이 아니라 2개의 RNN 모델이라는점! Sequence-to-sequence(Seq2Seq)는 입력된 시퀀스로부터 다른 도메인의 시퀀스를 출력하는 모델 대표적인 응용분야 1.기계번역 (machine translation) '한국어 도메인' 을 가지는 문장을 입력하면 '영어 도메인' 에 해당하는 문장을 얻을수 있다. 구글 번역기, 파파고... 2.내용 용약 (Text Summarization) : 상대적으로 큰 원문의 핵심.. 2024. 12. 30.
[캐글활용] bank_marketing_result 텔레마케팅 효과 이번에는 처음으로 캐글 데이터셋을 활용해보려고합니다. 항상 캐글을 이용하면 좋다~ 라는 말은 많이 들었는데 수업시간 외에는 한 번도 활용해본적이 없어서실력도 키우고 다양한 데이터셋을 경험해보기 위해서 하나하나씩 나눠서 실행해보려고 기록을 남깁니다! 이번 처음으로는 캐글에 bank-marketing을 활용했습니다.https://www.kaggle.com/datasets/henriqueyamahata/bank-marketing Bank Marketingsource: https://archive.ics.uci.edu/ml/datasets/bank+marketingwww.kaggle.com                 Error-shooting (1)처음 마주한 에러는 바로 라벨인코딩이었습니다. 나는 분명 La.. 2024. 12. 29.
추천하는 공부사이트! 파이썬 기초 부터 데이터분석, 머신러닝 딥러닝, 컴퓨터 비전, 자연어 처리까지..  강의들이 있는 이수안 채널 추천 합니다https://www.youtube.com/@suanlab  이수안컴퓨터연구소이수안컴퓨터연구소는 YouTube에서 운영되는 컴퓨터 교육 채널로, 컴퓨터 과학, 특히 인공지능, 빅데이터, 데이터과학, 자연어처리, 음성처리 등 다양한 주제를 다루고 있습니다. 이수안 교수는www.youtube.com 혹시 PyTorch 로 자연어 처리 도전하신다면돈주고 책사기 전에 https://wikidocs.net/book/2788 함 보세요 2024. 12. 29.
YOLO TRACKER 문서 및 실험&구현해보기 YOLO TRACKER이란? Ultralytics YOLO문서에 확인이 됩니다.다중객체추적 Ultralytics YOLO이라고불리는것같습니다.Ultralytics Tracker의 출력은 표준 객체 감지와 일치하긴 하지만 객체id를 따로 부여합니다.이것을 통해 스트림에서 객체를 쉽게 추적하고 후속 분석까지지 진행할 수 있습니다.  너 이거 왜 공부하는데? 사실 지금 프로젝트를 진행하면서 yolo pose를 사용하고있는데 사람이 1명밖에 없음에도 불구하고 2명으로 잡는 현상이 나타나고 있습니다.그래서 이 부분을 해결하기 위해서 1명만 잡는걸 어떻게 해야할까? 라는 고민을 하다가 yolopose + tracker까지 하면 보다 잘 잡을 것 같아서 트래커도 공부하게 되었습니다.https://docs.ultral.. 2024. 12. 24.
[AI활용 자연어처리 챗봇프로젝트] bi-LSTM, bi-LSTM 실습 LSTM GRU bi-LSTM 데이터가 앞,뒤 에서 필요한 경우도 있습니다. 그럴때 사용할 수 있는 양방향  LSTM이 bi-LSTM입니다. RNN 이나 LSTM 은 일반 신경망과 다르게 시퀀스 또는 시계열 데이터 처리에 특화되어 은닉층에서 과거의 정보를 기억할 수 있습니다.   그러나, 순환 신경망의 구조적 특성상 데이터가  입력 순 으로 처리되기 때문에 이전 시점의 정보만 활용할 수 밖에 없는 단점이 존재합니다.   문장이 길어 질수록(시퀀스가 길어질수록) 성능이 저하될 수 밖에 없습니다. 다음 예문을 봅시다 > ios 앱 [   ]은 맥북이 필요합니다 > ios 앱 개발은 맥북이 필요합니다 한국어를 사용하는 우리에겐 어렵지 않게 빈칸에 들어가는 단어를 유추해낼수 있다.  그러나 일반적인 RNN 이나.. 2024. 12. 23.
[AI활용 자연어처리 챗봇프로젝트] GRU, GRU실습 LSTM GRU bi-LSTM이번엔 LSTM보다 좀 더 가벼운 GRU모델에 대해서 학습해보겠습니다.LSTM을 좀 더 간소화 한 버전이라고 볼 수 있습니다. LSTM 보다 가중치가 적어서 '계산량'이 적지만, LSTM 못지 않은 좋은 성능을 내는것으로 알려져 있습니다.    텐서플로의 기본적으로 구현된  GRU는 GRU 초기 버전입니다 '이론' vs. '구현'TF 가 이와 같은 계산 방식을 사용하는 이유는  GPU를 좀더 잘 활용하기 위함.그러나, 대부분 GRU셀을 소개할때는 전자의 그림을 사용합니다널리 통용되는 '이론'과  실질적인 '구현' 에는 차이 나는 경우가 종종 있습니다.이로 인해 GRU 층의 모델 파라미터 개수를 혼동하진 맙시다GRU 신경망# ■ GRU 신경망Gated Recurrent Unit.. 2024. 12. 20.
[낙상 감지 프로젝트] 2024년 12월 20일(금) https://so-fast.tistory.com/entry/%EB%82%99%EC%83%81-%EA%B0%90%EC%A7%80-%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8-2024%EB%85%84-12%EC%9B%94-17%EC%9D%BC%ED%99%94?category=1215557 [낙상 감지 프로젝트] 2024년 12월 17일(화)https://so-fast.tistory.com/entry/%EB%82%99%EC%83%81-%EA%B0%90%EC%A7%80-%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8-2024%EB%85%84-12%EC%9B%94-16%EC%9D%BC%EC%9B%94 [낙상 감지 프로젝트] 2024년 12월 16일(월)전체 요약 12.16.. 2024. 12. 20.
[AI활용 자연어처리 챗봇프로젝트] LSTM 실습 이번 실습은 GPU사용 권장합니다.LSTM GNN bi-LSTM LSTM (Long Short-Term Memory)  기본임포트 + 데이터 준비!import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport osimport tensorflow as tffrom tensorflow import kerastf.keras.utils.set_random_seed(42) # 랜덤 시드 사용tf.config.experimental.enable_op_determinism() 이번에도 IMDB를 사용할것입니다.!# 이전 예제 처럼 IMDB 리뷰 데이터를 로드하고 훈련세트와 검증세트로 나눔from tensorflow.keras.datasets.. 2024. 12. 19.
[yolo]욜로활용한 도로 포트홀 구분프로젝트 (2) 포트홀 구분프로젝트(1) https://so-fast.tistory.com/entry/yolo%EC%9A%9C%EB%A1%9C%ED%99%9C%EC%9A%A9%ED%95%9C-%EB%8F%84%EB%A1%9C-%ED%8F%AC%ED%8A%B8%ED%99%80-%EA%B5%AC%EB%B6%84%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8⭐지난시간의 결론이번 실험에서는 정밀도와 mAP가 개선된것을 확인했지만 재현율의 한계로인해 탐지되지 않은 객체가 있었습니다.데이터가 많이 부족했던 탓도 있기때문에 데이터 증강, 에포크 추가 학습을 통해 성능개선을 시도해 볼 계획입니다.  ⭐개선사항세부사항1. 데이터 증강 (서치)2. 에포크 70~100으로 늘려서 성능 안정화를 시도해보려고합니다.위처럼 결.. 2024. 12. 18.
[낙상 감지 프로젝트] 2024년 12월 17일(화) https://so-fast.tistory.com/entry/%EB%82%99%EC%83%81-%EA%B0%90%EC%A7%80-%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8-2024%EB%85%84-12%EC%9B%94-16%EC%9D%BC%EC%9B%94 [낙상 감지 프로젝트] 2024년 12월 16일(월)전체 요약 12.16(월)   - YOLOv8-pose와 미디어파이프 두가지 모델을 사용하여 낙상감지 프로젝트 구상   - 우선 YOLOv8n-pose로 관절값(코, 양쪽 어깨)을 json파일로 뽑아서 속도 임계값을 so-fast.tistory.com전체 요약 12.17(화)  -  처음 잡힌 사람을 기준으로 하기 위해서 트래커를 적용 지난 회의때는 2명으로 잡히는 부분이 있었기.. 2024. 12. 17.
[AI활용 자연어처리 챗봇프로젝트] LSTM이란? LSTM GNN bi-LSTM 이번에는 위 모델에 관해서 학습을 했습니다. 사람같은경우는 빈칸이나 다음 말 자체를 빠르게 예측할 수 있습니다. 기계같은경우는 한 문장이 있으면 한 토큰단위로 기계?모델에 쭉쭉 들어가게되겠죠?그렇지만 지금 전에 배운 기본 RNN의 한계는 먼저 입력했었던 입력값들이 계산이 되면서 희미해지는 단점이 있습니다.즉 타임스텝이 길어질수록! 중요한 정보가 앞쪽에있을경우에는 시퀀스 학습이어려워지게되겠죠? 일반적으로 기본 순환층은 '긴 시퀀스'를 학습하기 어렵고시퀀스가 길어질수록 순환되는 은닉상태에 담긴 정보가 희석되기때문입니다.따라서 멀리 떨어져있는 단어 정보를 인식하는데 어려울 수 있습니다. 그래서 등장한것이 LSTM, GRU셀 입니다. 위 두 모델은 SimpleRNN보다 훨씬 계싼이.. 2024. 12. 17.
[낙상 감지 프로젝트] 2024년 12월 16일(월) 전체 요약 12.16(월)   - YOLOv8-pose와 미디어파이프 두가지 모델을 비교하여 낙상감지 프로젝트 구상   - 우선 YOLOv8n-pose로 관절값(코, 양쪽 어깨)을 json파일로 뽑아서 속도 임계값을 구해보려고 함   - 그런데 속도값이 너무 높게나와 시각화를 해보니   - 한 사람에게 바운딩 박스가 2개 잡히고(심지어 틀리게 잡힌것이 conf값이 더 높게 나옴)   - 순간 잡히는 정확도가 떨어짐   ➡ json파일 뽑는 코드는 확정됨 🚩현재 이상이 생긴 박스플롯(아래 영상)의 문제 해결 후 위와 다른 박스플롯이 나오면 문제 해결된 것으로 판단예정입니다.yolov8n-pose에서 두 바운딩 박스가 잡히는건 (값을 출력해 봐야겠지만)  한 명만 고정해서 트랙커하는걸로하려고 합니다.YOL.. 2024. 12. 16.
[yolo]욜로활용한 도로 포트홀 구분프로젝트 프로젝트 개요* 사진출처: - 구글링, 네이버를 통한 직접수집(커스텀)- pothole 37, nonpothole 37- 반수동 어노테이션 (roboflow)   * 데이터 준비:-roboflow를 활용하여 반수동으로 어노테이션 작업 수행- 데이터 증강(grayscale, saturation, Exposure)을 통해 총 352장의 데이터 생성- 데이터 분할 [train 306 // Validation 30 // Test 16]  모델 학습 결과- 사용 모델 : YOLOv8n- 주요 지표 설명 ↓Precision: 탐지한 것 중 올바른 비율(높을수록 오탐지가 적음).Recall: 전체 객체 중 탐지한 비율(높을수록 탐지 성능이 좋음).mAP: 탐지 정확도를 종합적으로 나타냄.Speed: 학습 및 추론 속.. 2024. 12. 16.
[AI활용 자연어처리 챗봇프로젝트] 순차데이터, 순환데이터 댓글을 분석하면서 긍정인지 부정인지 딥러닝을 통해서 판단해보려고 합니다!글(텍스트 or 자연어)를 분석하는것은 순환신경망을 통해서 알 수 있습니다. 만약 회사라면? 하나하나 다 읽을 수 없겠죠? 그럴때 쓰기 좋을것같았습니다.이런걸 활용해서 사람들의 평가를 미리 확인해볼수있겠죠?  순차 데이터(Sequential Data) : 순서에 의미가 있는 데이터를 의미한다. 예를들면 텍스트나 시계열 데이터!텍스트 : i am a girl, girl am i 시계열 데이터 (time series data): 내일의 온도를 예측하기 위해서 온도 날짜 가 순서대로 있어야하고 주가를 예측하기 위해서 일별로 주가순서가 있어야된다! 만약 순서가 뒤죽박죽이라면...내일의 값을 예측할 수 없겠죠?근데 지금까지 했던 CNN이랑MN.. 2024. 12. 13.
YOLO의 한계점 실험 및 분석 - 작은객체탐지와 공간적 제약 1. 실험배경 · 목적실험배경 : yolo논문에서 제시된 한계점이 실질적 영향을  확인하고자 하였습니다.목적 : yolo의 한계점인 작은객체 탐지와 공간적 제약을 실험적으로 분석하고 개선 가능성을 탐구해보는것입니다.  2. 실험 목표와 한계점 정의실험에서 확인할 한계점1. 작은객체 탐지가 어렵습니다.=> 작은 객체를 정확히 로컬라이즈하는데 어려움을 느끼며, 근접한 여러 객체를 탐지하는데도 제한이 있습니다. 2. 공간적 제약이 있습니다=> 각 그리드 셀의 2개의 바운딩 박스만 예측하고 한 가지 클래스만 처리할 수 있기때문에 근접한 객체를 탐지하기 어렵습니다. 3. 손실함수의 한계가 있습니다. (이번실험에서는 제외되었음)=> 손실함수는 작은 바운딩 박스와 큰 바운딩박스에서 발생하는 오류를 동일하게 처리하여 .. 2024. 12. 12.
[AI활용 자연어처리 챗봇프로젝트] Word2Vec, 단어유사도 확인 / 완료 Word2Vec란?단어의 의미나 연관성을 벡터로 표현하는것을 의미합니다.단어의 의미를 벡터로 표현하면 연관된 단어나 단어의 유사도에게 확인할 수 있어요.그리고 의미 선형관계를 계산할 수 있기때문에 왕자-남성 + 여성=>공주 와 같은 계산을 할 수 있습니다. Word2Vec는 즉! 문장 내부의 단어를 벡터로 변환해주는 도구이고,단어의 연결을 기반으로 단어의 연관성을 벡터로 만들어줍니다 결국! 단어를 벡터로 표현해주는거죠유사도를 쉽게확인하기 위해서도 쓰입니다. 아래처럼 어떤 txt를 가져오고 보면어떤 txt를 가져오고 보면 \n제1편 어둠의 발소리\n서(序)\n1897년의 한가위.\n까치들이 울타리 안 감나무에 와서 아침 인사를 하기도 전에, 무색 옷에 댕기꼬리를 늘인 아이들은 송편을 입에 물고 마을길을 쏘.. 2024. 12. 11.
순환신경망을 이용한 IMDB 리뷰 분류해보기(28) CNN에서의 대표적인 실습 할 수 있는것이 MNUST같은건데!RNN으로 가장 대표적인 데이터셋은 IMDB 영화리뷰입니다. https://www.imdb.com/ IMDb: Ratings, Reviews, and Where to Watch the Best Movies & TV ShowsIMDb is the world's most popular and authoritative source for movie, TV and celebrity content. Find ratings and reviews for the newest movie and TV shows. Get personalized recommendations, and learn where to watch across hundreds of stream.. 2024. 12. 10.
[AI활용 자연어처리 챗봇프로젝트] Padding, 원핫인코딩 ■ padiing(패딩)문자마다 인코딩된길이가 다르고, 우리는 입력데이터에 대한 쉐이프를 정해놓기때문에 그 모양을 맞추어야합니다.그래서 비워있는 부분들을 다른 숫자로 채워넣는데 그 과정을 padding이라고 합니다.왼쪽은 패딩이 뒤쪽, 오른쪽은 앞쪽! 즉! 앞쪽 뒤쪽 모두 다 붙이기 가능하다는점 기억해야합니다~ 그러면 케라스로 패딩하는것을 한번 해봤는데preprocessed_sentences를 하게되면 지난번에 했던 변수를 가져오게 됩니다. 이런식으로 구성이 되어있고 케라스 그리고 pad_sequences는 앞으로도 많이 사용될 예정이기에 꼭 숙지해둬야한다고 했습니다. # 파라미터 https://www.tensorflow.org/api_docs/python/tf/keras/utils/pad_sequenc.. 2024. 12. 9.
[AI활용 자연어처리 챗봇프로젝트] OOV란? oov인덱스 번호는? OOV란? (Out Of Vocbulary)- 단어 집합에 존재하지 않는 단어- 이것 또한 정수인코딩을 할 필요가 있을 수 있다! 숫자 0과 oov토큰을 고려하여 단어 집합의 크기를 +2함oov_token = 단어집합에 없는 단어들을 OOV로 간주하여 보존합니다.vocab_size = 5tokenizer =Tokenizer(num_words = vocab_size + 2, oov_token='OOV')tokenizer.fit_on_texts(preprocessed_sentences)Keras의 Tokenizer은 'OOV'를 인덱스 1로 합니다.그래서 한번 출력해보자면tokenizer.word_index출력결과{'OOV': 1, 'barber': 2, 'secret': 3, 'huge': 4, 'kept.. 2024. 12. 6.
[AI활용 자연어처리 챗봇프로젝트] 케라스를 이용한 전처리 ■ keras의 텍스트 전처리 케라스에서도 텍스트에 대한 전처리가 가능합니다. https://www.tensorflow.org/api_docs/python/tf/keras/preprocessing/text/Tokenizertf.keras.preprocessing.text.Tokenizer( num_words=None, filters='!"#$%&()*+,-./:;?@[\\]^_`{|}~\t\n', lower=True, split=' ', char_level=False, oov_token=None, analyzer=None, **kwargs)  역시나 먼저 임포트를 해줍니다.위에있는 매개변수들은 자연어처리하면서 굉장히 많이 봐야하는 것들임으로 눈.. 2024. 12. 5.
[9회 실기] 네?? 이거 맞아요?? 일단 결론부터 정리하자면 9회 실기는 전혀 자신없다.. 다시 타임라인순으로 이야기해보면 시험시간이 10시라서 아침일찍 준비해서 일층 카페에가서 3시간동안 집중해야하니 속 부담스럽지않은 아침간단히 + 녹차라떼마시면서 총 정리를 하고있었다. 기출유형1은 범위가 너무 넓기때문에 사실 보다 적은 2과목과 3과목중 2과목은 순서가 정해져있기때문에 무난히 할것같고 제일 자신없었던 3과목중 LOGIT함수랑 OLS다중을 외워갔다. 임포트부터 어떻게 보는지 어떻게 하는지를 봤는데 긴장을 해서 정말 머리에 안들어오더라. 쨌든 약 1시간조금 넘게 공부좀 하다가 시험장 입장 #시험장 입장감독관분들이 곳곳에 배치되어있었고, 일단 처음에 들어가서 컴퓨터 못킴! 안내가 다 끝난다음에 하라고 하셨다쨌든 그게중요한게아니라 일단 전략으.. 2024. 12. 5.
[AI활용 자연어처리 챗봇프로젝트] 정제 · 정규화 ■ 정제(cleaning), 정규화(normalizing)* 정제: 갖고있는 코퍼스로부터 노이즈 데이터를 제거한다* 정규화 : 표현방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다. 영어로 보면 USA , US '하나의 단어'로 보는것이 정규화 라고 합니다~ 어간추출하거나 표제어 추출할때는 대소문자를 통합해주어야합니다! 대소문자 통합Automobile, automobile  무조건 통합도 안됨 -> 'US', 'us'영어권같은경우는 단어의 개수를 확 줄일 수 있습니다. 대표적인 정규화 방법중 하나입니다.대문자는 문장의 앞이나 특정한 상황에서 쓰기때문에 대체로 소문자로 통합합니다!불용어(stop word)제거- 불필요한 단어를 제거합니다.영향없고 노이즈를 줄주는것! 그런것들은 예를들어서 등장빈도가 .. 2024. 12. 4.