2022 네이버 여름 인턴

네이버 인턴 1~2주차 후기

DGUKBS 2022. 8. 12. 00:35

어느새 금요일이다. 네이버에서 인턴을 시작한 지 벌써 2주가 되어간다. 이런 좋은 기회를 준 네이버에게 다시 한번 감사하고 있다!

자세한 내용을 작성하기에는 정보보호서약이 존재하기에, 짧은 후기만 작성해야 할 것 같다.

 

1주차

 

1주차는 정말 정신없었다. 앞으로 어떻게 진행될 지에 대해 이야기를 듣고, 과제를 받았다. 보통 인턴은 3달 정도 일한다고 하는데, 이번에 나는 4주의 시간밖에 없기에 많은 시도를 하고 갈 수는 없다. 최대한 열심히 하는 수밖에 없을 것 같다.

네이버에서 느낀 장점은 다음과 같다.

 

1. 밥이 맛있다. 다음 사진들은 내가 네이버에서 먹은 점심/저녁들이다.

가장 맛있게 먹은 밥들로 올렸다. 비록 출퇴근 왕복이 3시간 가량 걸리지만, 이곳의 밥이 힘을 나게 해준다.

 

2. 슬리퍼 사용 가능하다. 출근 하고 나서 신발을 벗고 슬리퍼로 갈아신으면 매우 쾌적하게 일을 할 수 있다. 사무실 뿐만이 아니라 사옥 내부를 돌아다닐 때에도 매우 자연스럽게 돌아다닌다.

 

3. 편의시설 또한 많다. 사옥 내에 식당을 물론이고 카페(스타벅스), 편의점, 우체국, 은행, 병원, 수면실 및 안마의자 등등 많이 존재한다. 워크맨에서 네이버 그린팩토리를 방문한 영상이 있는데, 비슷한 느낌이라 보면 된다.

https://www.youtube.com/watch?v=JaBWrrQkRHg 

 

4. 팀원들이 매우 친절하시다. 아무것도 모르는 인턴에게 정말 잘 대해주시고, 잘 알려주신다.

 

첫 주는 이것저것 신청해야 하는 내용도 많았고, 적응을 하는 데에 시간을 많이 보내서 일을 거의 하지 못했다..

 

2주차

 

1주차에 비해 익숙해진 2주차였고, 본격적으로 과제에 착수했다. 그러나 아쉽게도 내 생각만큼 진도를 많이 빼지 못한 것 같다. 내 목표는 수요일까지 데이터셋을 구축하고, 목요일부터 모델링을 해보는 것이였지만 현실은 2주차까지 데이터셋을 만들어야 할 것 같다.

또한, 이번 주에 폭우가 내리면서 중간에 재택근무를 하였다. 요새 재택근무를 하는 회사가 많아지는고 있지만, 어쨋든 재택이 가능하다는 것 또한 네이버의 장점이라 할 수 있다.

 

이제 인턴 기간의 절반 가량이 지났는데, 지금까지 느낀 점은 다음과 같다.

 

먼저, 공부할 때의 개발 환경과 회사에서의 개발 환경은 확연한 차이가 있다. 공부할 때에는 주로 로컬에서 하거나, 코랩을 사용하였다. 그나마 학교 연구실이나 부스트캠프에서처럼 서버를 제공하는 경우도 존재하긴 했지만, 비교적 간단한 편이였다.

반면에 회사에서는 보안사항이 매우 많다. 업무용 기기에는 보안 프로그램도 상당수 존재하고, 사내 이메일과 메신저를 사용하고, 서버도 기존과는 다르게 ssh 1번으로 들어갈 수 없고 보안상 여러 가지를 거쳐서 접속해야 한다.

 

그 다음은 제일 차이가 크다고 느낀 것인데, 바로 데이터다. 지금까지 AI를 공부할 때에는 모델링이 주가 되었다. 그 외에도 학습 방법이나 모니터링, 데이터 전처리를 어떤 식으로 할 지 등이 중요했다. 여기서는 데이터셋이 주어졌다.

그러나, 실제 회사 일에서는 데이터셋이 없다.... 우선적으로 데이터를 구하는 것부터가 어려운 문제이다. 어떤 일이 주어졌을 때, 어디에서 데이터를 가져올 지부터가 머리 아픈 문제이다. 그나마 네이버는 회사가 크기도 하고, 데이터 뽑아내기도 비교적 좋은 환경이라고 한다. 나는 다행히도 데이터 자체는 준비해주셨다.

하지만 데이터를 뽑아와도, 그 데이터는 raw data이다. 이 raw data를 가공해서 내가 레이블링도 진행해야 한다. 중요한 것은 내가 풀어야 하는 문제를 위해서 어떻게 가공해야할 지 생각해내야하고, 그리고 그 기준에 근거가 있어야 하는 것이다. 명확한 근거를 가지고 만들지 않은 데이터셋은 후에 모델의 훈련 결과가 좋더라도, 신뢰성을 얻기 힘들다. 이 논란의 여지를 없애는 것이 매우 어렵다. 실제로 멘토님께 들은 이야기로는 데이터 처리하는 것이 전체 과정에서 9할이라고 할 정도이다..

 

마지막은 위에 언급한 것과 같은 흐름인데, 명확한 정답이 없다는 점이다. 내가 기존에 했던 프로젝트는 Relation Extraction, Open Domain Question Answering, Sentiment Analysis 등등 task를 명확히 정의할 수 있었다.

하지만 지금 맡은 과제는 이런 식으로 task를 명확히 정의하기 어렵다. 데이터셋도 정의 되어 있지 않다. 어쩌면 내가 해왔던 딥러닝으로 애초에 해결 가능한 과제가 아닐 수도 있다. scikit-learn을 통한 기존의 머신러닝 방법론을 사용하거나, 정교한 Rule-Based 방식이 오히려 더 적합할 수도 있는 것이다. 정말 어쩌면 현존하는 방법들로는 해결이 불가능한 문제일 수도 있다.

그렇기에, 내 목표는 이 과제에 대한 baseline을 만드는 것이다. 시간이 부족하기에 고도화를 하기는 어렵지만, 내가 했던 시도들(성공이든 실패이든)을 통해서 그 이후에 다른 사람들이 이를 참고삼아서 더 좋은 방법을 찾는 데에 도움이 될 수 있을 것이다.

 

이제 기간이 약 2주가 남았지만, 마지막 주는 발표 준비를 해야하기에 편히 개발할 수 있는 시간은 사실상 1주밖에 남지 않았다. 어떻게든 이번 주 내에 데이터셋을 완성하고 모델링에 착수하도록 노력해야겠다.