KBS 한국어능력시험 2주 자율학습 3+ 성취도 검토 및 파트별 학습방법2주 자율학습 편성일지 공개 방대한 내용을 탐색하고 여러 자료를 검토한 결과 2주간의 자율학습으로 KBS 한국어능력시험에서 3점을 얻을 수 있다는 결론을 내렸습니다. 이 과정에서는 현실적인 학습 구성 계획과 효과적인 학습 방법, 그리고 지속적인 노력이 필수적이었습니다. 정식으로 공부를 시작하기 전에는 시험 구조를 철저하게 이해했고, 각 파트에서 어떤 유형의 문제가 출제되는지 알고 있었습니다. 이는 제가 공부에 집중하고 제 시간에 요청을 충족하는 데 도움이 되었습니다. 또한 학습 목표를 구체적이고 스마트하게 설정하여 달성 가능한 단계로 구분합니다. 나는 매일 최소 5시간 동안 공부하는 엄격한 일정을 따랐습니다. 각 부분에 집중하면서 한 부분씩 실력을 키워 나갔습니다.
이미지 디블러링
모델이 흔들린 이미지를 더 잘 학습할 수 있도록 Image Deblurring 기술을 사용했으며, 여기에는 Wiener Filter가 사용되었습니다. 이미지 디블러링(Image Deblurring)은 이미지에서 발생하는 흐릿함을 제거하는 기술로, 고전적인 컴퓨터 비전 기술과 딥러닝 기술로 구분됩니다. 본 연구에서 사용된 Wiener 필터는 본질적으로 주파수 노이즈를 줄이는 것으로 나타난 고전적인 컴퓨터 비전 기술이며, 컴퓨터 비전에서 이미지 노이즈를 줄이는 데에도 사용됩니다. 왼쪽부터 하나씩: 1 원본 이미지에 흔들기 기법을 적용한 이미지, 2 흔들기 기법을 적용한 이미지에 DeblurGAN 모델을 적용한 이미지, 3 원본 이미지에 Wiener 필터를 적용한 이미지 쉐이킹 기술을 적용했습니다.
데이터세트
Pretrain 데이터셋으로는 COCO Captioning 한국어 번역 데이터를 사용하였고, FineTuning 데이터셋으로는 AI Hub의 시각정보 기반 질의응답 데이터와 생활 및 주거환경 기반의 VQA 데이터를 사용하였습니다. 모델링 시 컴퓨팅 파워의 한계로 인해 원본 데이터의 이미지 수를 줄여 실험을 진행했습니다. COCO 데이터의 경우 Train, Test 이미지를 약 30,000, 10,000개로 축소하고, AI Hub 데이터의 경우 Train, Validation, Test 이미지를 약 20,000, 4,000, 4,000개로 축소하여 실험에 사용했습니다.
제안된 방법론
본 연구에서 제안한 모델의 아키텍처는 다음과 같다. 먼저 시각장애인의 시각정보를 반영하기 위해 영상에 흔들기 기법을 적용한 후 모델 학습을 수행한다. 둘째, 모델이 흔들림 기법을 활용하여 이미지를 잘 학습할 수 있도록 Image Deblurring을 적용하여 시각장애인을 위한 시각적 정보 학습을 더욱 잘하였습니다. 셋째, 한국어 질의응답 성능 향상을 위해 한국어 사전 학습 모델인 KoBERT와 KLUERoBERTa를 텍스트 인코더로 사용한다. 다른 기술은 과거 METER 모델의 방법론을 사용했습니다.
미세 조정
사전 훈련된 모델을 사용하여 미세 조정을 수행했습니다. 처음에는 데이터 AI 허브 1이 10 에포크(Epoch)로 진행됐지만, 컴퓨팅 파워의 한계로 인해 데이터 AI 허브 2는 5 에포크(Epoch)로 두 번 진행됐다. 필터가 있는 실험과 없는 실험에서 약 3세대에 걸쳐 성능을 비교했습니다. FineTuning 성능 비교 두 종류의 데이터를 이용한 FineTuning 결과가 기존 모델보다 좋은 결과를 보였습니다. 본 연구에서 테스트한 모델의 성능이 좋은 것을 확인할 수 있다. 일반적으로 초기 예측에서는 KoBERT보다 낫습니다. 성능이 좋은 것으로 알려진 KLUERoBERTa를 사용한 모델의 결과가 모두 좋을 것으로 예상했지만, 두 데이터 세트에서는 KoBERT 모델의 성능이 더 높은 것으로 나타났습니다. 본 연구에서는 METER 모델의 구조를 바탕으로 시각장애인의 시각정보와 한국형 NLP 모델을 활용하여 국내 시각장애인에게 도움이 될 수 있는 VQA 모델을 제안한다. 시각장애인의 시각정보를 이해하기 위해 흔들림 기법과 Wiener 필터를 적용하였고, 한국형 NLP 모델로는 KoBERT와 KLUERoberta를 사용하였다. 과거 VQA 모델과 비교. 기반이 된 METER 모델보다 더 나은 성능을 발휘했습니다. 평균 9.97 정도의 높은 성능을 보여줬습니다.
자주 묻는 질문
영상
모델이 흔들린 이미지에 대해 더 잘 학습할 수 있도록 Image Deblurring 기술을 사용했으며, 여기에는 Wiener Filter가 사용되었습니다. 더 알고 싶으시면 본문을 클릭해주세요.
데이터세트
Pretrain 데이터셋으로는 COCO Captioning 한국어 번역 데이터를 사용하였고, FineTuning 데이터셋으로는 AI Hub의 시각정보 기반 질의응답 데이터와 생활 및 주거환경 기반의 VQA 데이터를 사용하였습니다. 궁금하신 점은 본문을 참고해주세요.
제안된 방법론
본 연구에서 제안한 모델의 아키텍처는 다음과 같다. 궁금하신 점은 본문을 참고해주세요.