파이썬 몰라도~ AI 몰라도 AI글쓰기 가능?
가능! 오늘 사용할 기술 세트는~ SKT에서 만든 kogpt 데이터 입니다.
글쓰기 모델은 한글 GPT-2 인데요.
이미 국내외에서 최고의 AI 모델로 호평을 받고 있는 OpenAI의 GPT-2는 방대한 양의 DataSet으로 훈련된 매우 정밀한 언어 모델입니다.
조리있고 구성력있는 에세이를 쓸 수 있을 정도로 평가받기도 하죠.
물론 이 GPT-2는 특별히 새로운 아키텍처나 모델은 아닙니다.
사실 AI 모델 관련 논문을 읽어보면 좀 더 좋겠지만…… 정말 많은 걸 생략해보자면
방대한 언어 데이터를 학습시킨 ‘언어 모델’이 박스형태로 수백 수천개가 쌓여 있는 것을 ‘정규화’ 라는 작업을 통해 ‘읽을 수 있는’ 문서
그리고 여기서 명령 Prompt 의 ‘의도‘나 ‘맥락‘을 파악하여 ‘의미를 수용한 문서’로 만드는 작업을 대신 수행해주는 것이죠.
AI 기술을 당장 배우지 않아도 사용할 수 있는 이유
바로 transformer 입니다. 트랜스포머 라이브러리는 오늘 실행할 SKT / kogpt2 모델을 아무런 조건 없이 사용할 수 있게 만들어주죠. 원래라면 우리는 수 많은 라이브리러리들과 의존성 파이썬 파일들과 씨름해야 하지만…… 뛰어난 개발자분들의 덕분에 정말 쉽게 파이썬으로 AI기반 문서를 출력할 수 있죠.
로컬에서 사용하는 파이썬도 똑같은 결과물을 얻을 수 있지만 여러분을 위해 클라우드에서 바로 활용이 가능한 구글 ‘코랩’으로 작성하였습니다.
코드가 몇 줄 안되지만 타이핑 하기 귀찮잖아요…?
그래서 링크를 준비했습니다.
파이썬 구글 코랩 링크 :
링크에서 바로 실행하지 마시고 꼭 'Drive로 복사'를 눌러 본인 드라이브로 가져와서 사용하시는걸 추천 드립니다. 드라이브로 가져오신 뒤로는 블럭을 하나씩 실행해주면 됩니다.
실행버튼을 누르면 알아서 필요한 패키지들이 설치 됩니다.
원래 Tensorflow 기본 모델은 구글 코랩에 기본적으로 설치가 되어 있지만 가끔 충돌이 나서 한 줄 더 추가해 놓았습니다.
두번째 블럭은 text = '' 부분만 수정하시면 됩니다. 초기엔 토큰 설정 등을 기다려야 해서 대기시간이 좀 깁니다.
아무래도 참고 모델이 한국어 위키 백과, 모두의 말뭉치 v1.0, 청와대 국민청원 등의 다소 '정적인'? 모델이라 그런지 한계가 조금은 있어 보입니다.
SKT-AI 공식문서에서는 '근육이 커지기 위해서는' 이라는 문장으로 테스트 했고 결과 값은 훌륭한 편입니다. 이게 바로 AI의 특성 중에 하나인데요.
바로 "훈련된 편향성' 이라는 녀석입니다. 말 그대로 '훈련된' 내용이 무엇이냐에 따라 도출 할 수 있는 결과값 또한 정해지게 되죠. 그래서 정말 많은 AI 모델들이 다른 것보다 데이터 전처리에 심혈을 기울이는 이유가 바로 이것 때문이죠.