연합뉴스 본문 바로가기 메뉴 바로가기

연합뉴스 최신기사
뉴스 검색어 입력 양식

인공지능용 한국어 말뭉치 155억어절 구축…5년간 175억 지원

송고시간2017-10-09 08:31

문체부·국립국어원, 2018~2022년 '2차 세종계획' 추진

한국어 지원하는 IBM의 인공지능 로봇 왓슨
한국어 지원하는 IBM의 인공지능 로봇 왓슨

[연합뉴스 사진자료]

(서울=연합뉴스) 이웅 기자 = 4차 산업혁명의 기반인 인공지능(AI)의 핵심 중 하나는 사람과 기계의 자유로운 의사소통이다.

컴퓨터가 인간의 말이나 글을 제대로 이해하고 반응하려면 인간이 말하고 쓰는 자연언어를 처리할 수 있는 방대한 언어 데이터베이스가 필요하다.

이러한 언어 데이터베이스를 말뭉치(corpus)라고 한다. 최근 빠르게 보급되는 음성인식 인공지능의 정확도는 이러한 말뭉치가 얼마나 풍부하게 정교하게 구축돼 있느냐에 달려있다.

문화체육관광부와 국립국어원은 한국어 인공지능 기술의 발전을 위해 2018~2022년 총 154억7천만 어절의 말뭉치를 구축하는 국어 정보화사업 계획을 마련했다고 9일 밝혔다.

이를 위해 5년 동안 총 175억원의 예산을 투입하기로 했으며, 우선 내년도 예산 11억5천700만원을 편성했다.

이마트 인공지능 로봇 '띵구'
이마트 인공지능 로봇 '띵구'

[연합뉴스 사진자료]

이 계획은 기초 언어자원으로 시기·매체·장르별로 다양한 한국어 말뭉치 152억7천만 어절과 구성·형식·분석체계 등이 정제돼 준거가 될 수 있는 표준 말뭉치 1억3천700만 어절을 구축·보급하는 것이 골자다.

언어처리 성능 평가의 객관적 기준이 될 평가용 말뭉치 6천만 어절과 번역·사전편찬 등에 활용하기 위한 한국어-외국어 대역 말뭉치 4종(몽골어·베트남어·인도네시아어·태국어) 각 10만 어절을 구축·보급하는 내용도 포함됐다.

아울러, 언어자원의 구축·연계·배포 전 과정을 효율적으로 지원하고 통합하기 위한 시스템도 구축하기로 했다.

SK텔레콤의 '누구'를 이을 차세대 인공지능
SK텔레콤의 '누구'를 이을 차세대 인공지능

[연합뉴스 사진자료]

이번 사업은 문체부와 국립국어원이 1998~2007년 10년간 추진한 '21세기 세종계획'의 후속 사업이다. 1차 세종계획은 총 150억원의 예산을 들여 소설 4천권 분량인 2억 어절의 말뭉치를 구축하고 60만개 어휘를 담은 전자사전과 다양한 언어 정보화 검색 프로그램을 개발하는 성과를 남겼다.

국립국어원 관계자는 "이번 사업을 통해 한국어 언어처리 기술개발을 위한 기반을 다지는 것은 물론, 외국의 왜곡된 한국어 자료 활용을 차단하고 언어자원 공동 구축으로 사회적 비용도 절감할 수 있을 것으로 기대한다"고 말했다.

인공지능 로봇 페퍼
인공지능 로봇 페퍼

[연합뉴스 사진자료]

abullapia@yna.co.kr

댓글쓰기
에디터스 픽Editor's Picks

영상

뉴스
댓글 많은 뉴스