데이터 생성

과제에서 특정 도메인 벤치마크 데이터 세트를 제작하고 있다.

바이브 코딩으로 초기 구축을 부실하게 했었고, 초기 설계가 부실하면 마지막까지 도달할 수 없다.

그래서 파이프라인과 세부 생성 과정은 구체화하였고, 데이터 다양화를 위해 프롬프트 엔지니어링을 적용하고 있다.

현재는 멀티모달에 사용할 이미지를 생성하고 있는데, 생성된 이미지의 다양성이 부족한데, 특정 객체만 비교적 많이 생성하는 문제가 있다.

이와 이미지 세부 퀄리티 개선을 위해 수정을 진행하고 있다.

텍스트 생성에 Gemma4 31B IT 모델을 사용하고 있는데, 성능이 매우 괜찮다.

이미지 생성에는 Flux2-dev 모델을 사용하고 있는데, 성능은 매우 괜찮지만, 이미지 내부에 한글 생성이 불확실 한데, 이를 개선하기 위해서 유료 API 모델 사용 예정이다.

비용을 산정하고 타당성 검증해서 적용할 예정이다.

컨택

현황

현재 컨택중인 대학교는, KAIST, POSTECH, UNIST, DGIST이다.

하면서 느낀점

  1. 좋은 대학교는 입시가 어렵고, 컨택과 함께 병행해야해서 더 어렵다.
  2. 특히 석사 및 석박사 진학은 학부 성적이 4점이상여야 안전하게 입시가 가능할 것이다.
  3. 박사는 석사 성적과 학사 성적을 함께 고려하기 때문에 더 어려울 수 있지만, 석사 성적은 학사에 비해서 비교적으로 얻기 쉽다고 생각하기 한다.
  4. 컨택은 미리미리 1년전부터 다 해두자.

6월 말에 POSTECH을 제외한 IST에서는 입시가 시작된다.

박사과정은 교수를 미리 정해서 입시를 시작해야하고, 교수님에게 추천서를 받을 수 있다면 더 좋을 것이다.

입시 시스템에서 추천인 총 세분을 선택할 수 있기에, 최소 한달전에 추천서를 받을 교수님, 기타 추천인에게 연락을 드리고 준비하도록 하자.

TMI

KAIST EE에서 세 교수님들에게 긍정적인 평가를 얻었고, 한분은 추천서를 작성해주신다는 매우 긍정적인 의견을 주셨다.

하지만 모든 교수들의 공통된 걱정이, 학부와 석사 성적이 좋지 않다는 것이다.

나의 학부 성적은 3.51 / 석사 성적은 3.93이다.

충분히 공부할 시간도 많았고, 열심히 안살았던것도 아니였는데, 학교 성적을 챙기지 않았던 내가 후회스럽다.

앞으로 기본적인것들에 충실해야함을 더 간절히 느끼게 되었다.

아무튼 KAIST 입시에서 떨어질 확률이 높다는 의견이 많았고, 매우 어려울것으로 예상하고 있다.

이를 위해서 POSTECH에도 컨택을 진행하였는데, POSTECH AI 대학원 교수님 한분과 긍정적으로 컨택이 되었고, 입시시 추천서 작성도 확정 받았다.

하지만 POSTECH에도 성적이 중요하다는 이야기가 많아서, DGIST, UNIST도 추가적으로 컨택을 진행하고 있다.

어제 교수님들에게 메일을 돌렸는데 너무 일정이 빠듯해서 좋은 답변을 기대하지는 않고있다.

다음주 계획

  • 논문 3개 이상 리뷰
  • 과제 - (벤치마크) API 퀄리티 테스트 검수 및 마무리
  • 과제 - 벤치마크 용역 계획
  • VLM Jailbreak Attack research