파이썬 몰라도~ AI 몰라도 AI글쓰기 가능?
가능! 오늘 사용할 기술 세트는~ SKT에서 만든 kogpt 데이터 입니다.
글쓰기 모델은 한글 GPT-2 인데요.
이미 국내외에서 최고의 AI 모델로 호평을 받고 있는 OpenAI의 GPT-2는 방대한 양의 DataSet으로 훈련된 매우 정밀한 언어 모델입니다.
조리있고 구성력있는 에세이를 쓸 수 있을 정도로 평가받기도 하죠.
물론 이 GPT-2는 특별히 새로운 아키텍처나 모델은 아닙니다.
사실 AI 모델 관련 논문을 읽어보면 좀 더 좋겠지만…… 정말 많은 걸 생략해보자면
방대한 언어 데이터를 학습시킨 ‘언어 모델’이 박스형태로 수백 수천개가 쌓여 있는 것을 ‘정규화’ 라는 작업을 통해 ‘읽을 수 있는’ 문서
그리고 여기서 명령 Prompt 의 ‘의도‘나 ‘맥락‘을 파악하여 ‘의미를 수용한 문서’로 만드는 작업을 대신 수행해주는 것이죠.
AI 기술을 당장 배우지 않아도 사용할 수 있는 이유
바로 transformer 입니다. 트랜스포머 라이브러리는 오늘 실행할 SKT / kogpt2 모델을 아무런 조건 없이 사용할 수 있게 만들어주죠. 원래라면 우리는 수 많은 라이브리러리들과 의존성 파이썬 파일들과 씨름해야 하지만…… 뛰어난 개발자분들의 덕분에 정말 쉽게 파이썬으로 AI기반 문서를 출력할 수 있죠.
![](https://ga4.kr/wp-content/uploads/2022/11/스크린샷-2022-11-11-오후-8.33.19-1024x876.png)
로컬에서 사용하는 파이썬도 똑같은 결과물을 얻을 수 있지만 여러분을 위해 클라우드에서 바로 활용이 가능한 구글 ‘코랩’으로 작성하였습니다.
코드가 몇 줄 안되지만 타이핑 하기 귀찮잖아요…?
그래서 링크를 준비했습니다.
파이썬 구글 코랩 링크 :
링크에서 바로 실행하지 마시고 꼭 'Drive로 복사'를 눌러 본인 드라이브로 가져와서 사용하시는걸 추천 드립니다. 드라이브로 가져오신 뒤로는 블럭을 하나씩 실행해주면 됩니다.
![](https://ga4.kr/wp-content/uploads/2022/11/스크린샷-2022-11-11-오후-8.50.03.png)
실행버튼을 누르면 알아서 필요한 패키지들이 설치 됩니다.
원래 Tensorflow 기본 모델은 구글 코랩에 기본적으로 설치가 되어 있지만 가끔 충돌이 나서 한 줄 더 추가해 놓았습니다.
![](https://ga4.kr/wp-content/uploads/2022/11/스크린샷-2022-11-11-오후-8.53.00.png)
두번째 블럭은 text = '' 부분만 수정하시면 됩니다. 초기엔 토큰 설정 등을 기다려야 해서 대기시간이 좀 깁니다.
![](https://ga4.kr/wp-content/uploads/2022/11/스크린샷-2022-11-11-오후-8.53.27.png)
아무래도 참고 모델이 한국어 위키 백과, 모두의 말뭉치 v1.0, 청와대 국민청원 등의 다소 '정적인'? 모델이라 그런지 한계가 조금은 있어 보입니다.
SKT-AI 공식문서에서는 '근육이 커지기 위해서는' 이라는 문장으로 테스트 했고 결과 값은 훌륭한 편입니다. 이게 바로 AI의 특성 중에 하나인데요.
바로 "훈련된 편향성' 이라는 녀석입니다. 말 그대로 '훈련된' 내용이 무엇이냐에 따라 도출 할 수 있는 결과값 또한 정해지게 되죠. 그래서 정말 많은 AI 모델들이 다른 것보다 데이터 전처리에 심혈을 기울이는 이유가 바로 이것 때문이죠.