• 최종편집 : 2019.8.26 월 11:29
상단여백
HOME 사회
ETRI, 최첨단 한국어 언어모델 ‘코버트(KorBERT)’ 공개
  • 글로벌코리아
  • 승인 2019.06.11 12:18
  • 댓글 0
구글 언어모델과 엑소브레인 한국어 언어모델 비교(ETRI 제공)© 뉴스1


(대전ㆍ충남=글로벌코리아)= 한국전자통신연구원(ETRI)은 최첨단 한국어 언어모델 ‘코버트(KorBERT)’를 공개했다고 11일 밝혔다.

구글의 언어표현 방법을 기반으로 더 많은 한국어 데이터를 넣어 만든 언어모델과 교착어 특성까지 반영해 만든 언어모델이다.

연구진은 한국어에 최적화된 언어모델이 Δ전처리 과정에서 형태소를 분석한 언어모델 Δ한국어에 최적화된 학습 파라미터 Δ방대한 데이터 기반 등이 구글과 차별성 있는 특징이라고 설명했다.

연구진에 따르면 이 언어모델은 성능을 확인하는 5가지 기준에서 구글이 배포한 한국어 모델보다 성능이 평균 4.5% 가량 우수했다. 특히 단락 순위화(Passage Ranking) 기준에서는 7.4%나 높은 수치를 기록했다.

언어모델을 활용하면 서비스 성능 및 경쟁력을 높일 수 있어 딥러닝 연구, 교육 등의 목적으로 대학, 기업, 기관의 개발자들의 많은 활용이 이뤄질 것으로 전망된다.

언어모델은 대표적인 딥러닝 프레임워크인 파이토치(PyTorch)와 텐서플로우(Tensorflow) 환경 모두에서 사용 가능하며 공공인공지능 오픈 API?데이터 서비스 포털에서 쉽게 찾아볼 수 있다.

현재 구글과 연구진이 언어모델 개발에 활용한 BERT 방식은 약 512개 이상의 단어가 들어간 문서를 한 번에 처리하지 못한다.

때문에 연구진은 한 번에 더욱 많은 언어 데이터를 처리하고 검증 방법을 고도화한 모델을 개발할 계획이다.

ETRI는 2017년도부터 언어지능 기술 오픈 API 및 기계학습 데이터를 공개했다. 지금까지 1300만 건 이상 활용됐고 산업체(42%), 대학교(34%), 개인(20%), 기타(4%)의 개발자들이 사용하고 있다.

이 밖에도 ETRI는 은행권·지자체를 대상으로 인공지능 대국민 서비스 등을 개발하며 국내 인공지능 분야의 산업화 촉진을 추진하고 있다.

엑소브레인 사업의 총괄책임자인 ETRI 김현기 박사는 “한국어에 최적화된 언어모델을 통해 한국어 분석, 지식추론, 질의응답 등의 다양한 한국어 딥러닝 기술의 고도화가 가능할 것으로 기대된다”고 말했다.

과학기술정보통신부 인공지능정책팀 김지원 팀장은 “AI 허브를 통해 정부 R&D를 통해 개발되는 양질의 인공지능 SW API 및 데이터를 공개함으로써 개방형 혁신을 촉진할 수 있도록 노력하겠다”고 밝혔다.

뉴스1 <뉴스커넥트>를 통해 제공받은 컨텐츠로 작성되었습니다.

글로벌코리아의 다른기사 보기
icon인기기사
기사 댓글 0
전체보기
첫번째 댓글을 남겨주세요.
여백
여백
여백
Back to Top