기술-IT-인터넷 동향

컴퓨터의 언어 이해능력을 향상시키는 새로운 알고리즘

지구빵집 2015. 6. 8. 14:29
반응형




컴퓨터의 언어 이해능력을 향상시키는 새로운 알고리즘


http://mirian.kisti.re.kr/futuremonitor/view.jsp?record_no=256325&cont_cd=GT

KISTI 미리안 글로벌동향브리핑 2015-05-19


구글 번역기를 사용해 보거나 또는 다른 기계번역기를 사용해본 사람들이라면 컴퓨터가 사람의 언어를 번역하는데 능숙하지 않다는 것을 알게 된다. 우리는 여전히 일반적으로 사용되고 있는 보편적인 번역기를 여전히 사용하고 있다. 


사람의 언어를 컴퓨터가 이해하는데 있어서 가장 큰 문제점은 한 단어가 다양한 의미나 느낌을 가지는 동의성(synonymy)과 다의성(polysemy)이다. 크다(big)와 크다(large)는 동의어이며, 바람(wind)은 다의성을 가진다. 


상해에서 석사학위를 마친 Congle Zhang는 현재 CSE(Computer Science & Engineering) 학과에서 박사 학위를 위한 마지막 해를 보내고 있다. 그는 컴퓨터가 도전적인 단어들과 구문을 학습하고 처리할 수 있는 방법이 향상되기를 바라고 있다. 그래서 컴퓨터가 주제와 사물들 간의 관계를 이해하고 관계를 얻어낼 수 있게 될 것으로 예상하고 있다. 



Congle Zhang

Sixth year CSE Ph.D student Congle Zhang's research focuses primarily on the intersection of natural language processing and machine learning.



현재 텍스트를 읽은 알고리즘에 그들의 표현 능력 이상을 입력하도록 결정함으로써 Zhang은 뉴스파이크-RE(NewsSpike-RE (Relation Extractor))의 발전을 이끌어가고 있다. 이것은 새로운 단어들과 의미를 더욱 효율적으로 학습하도록 디자인된 새로운 프로그램이다. 


간단한 사실을 분석하는 것이 더 쉬워짐에 따라서 뉴스파이크는 이해하기 더 어려운 사실에 초점을 맞추고 있다. 


이것은 다양한 미디어 사이트에 의해서 취재된 사건 뉴스를 찾기 위해서 인터넷과 결합하는 것이다. 각 기사들은 같은 사건들을 설명하기 위해서 약간 다른 언어를 사용하기 때문에 뉴스파이크는 그것을 찾아내는 학습을 실행하도록 디자인되었다. 


뉴스파이크는 기계학습 알고리즘으로서 주어진 유사한 입력에서 결과를 예측하기 위해서 대규모의 데이터 셋을 훈련하는 것을 의미한다. 이러한 대규모의 데이터셋은 코퍼스(corpus)라는 용어를 가지게 되며, 뉴스파이크의 경우에 10~20Gbyte의 텍스트를 가지게 된다. 


표면적으로 뉴스파이크가 검색엔진과 유사하게 보일지라도, 연구원들은 그것을 빨리 구별하게 된다.“그것들은 기능적으로 다른 것이다. 검색엔진은 AI(artificial intelligence)적인 성격이 약하기 때문에 키워드에 기반한 검색을 실행하거나 사람들이 클릭하는 것에 기반하여 검색을 수행하게 된다. 그러나 우리의 연구는 더 인공지능적인 것이기 때문에 텍스트가 말하고 있는 것을 이해하게 된다”고 Zhang이 말했다. 


그러나 CSE의 Dan Weld 교수는 뉴스파이크나 다른 기계학습 알고리즘을 인공지능으로서 명확하게 설명하는 것에 주의를 주고 있다. “다른 사람들은 당신에게 다른 대답을 주게 될 것이기 때문에 이것은 역사적으로 AI의 일부가 될 것이다. 만약 이것이 거기에 있었다고 그들이 말하는 기계학습을 통해서 당신이 교수에게 말하게 된다면, 이것은 자신만의 주제가 된다. 그러나 나는 이것을 AI의 하위 분야로서 생각하고 있다”고 Weld가 말했다. 


기계학습 알고리즘의 특징 중 하나는 자기 개선이다. 각각의 것들이 구동된 후에 이러한 프로그램들은 다시 되돌아가서, 다음에 결과가 더 좋아지도록 시도를 하게 된다. 이것은 중요한 능력이며, 이러한 복잡한 알고리즘을 향상시키기 위한 핵심이다. “기계 학습에 관한 마법은 없다. 당신이 해야 될 모든 것은 컴퓨터가 적절한 패턴을 자동적으로 학습할 수 있는 충분한 사례를 제공하는 것이다. 종종 당신은 수십만 개의 사례를 필요로 한다. 이것은 직접 그것들을 금지된 것으로 라벨링하도록 만들게 된다”고 CSE 연구과학자인 Stephen Soderland가 말했다. 


만약 컴퓨터가 생일 관계를 찾아낼 수 있기를 바란다면, 출생이나 고향이 사용하기에 좋은 구문이라는 것을 배우게 된다. 출생지와 같이 간단하고 사실적인 관계는 위키피디아와 같이 많은 코포라가 많은 사례를 가지기 때문에 특히 사용하기가 쉽다. 


장소를 방문하거나 종업원을 해고하는 것과 같은 다른 관계들은 해석하는 것이 점점더 어려워지고 있다. 왜냐하면 그것들은 같은 언어를 사용하여 항상 설명되지 않기 때문이다. “현재 대부분의 연구원들은 정적인 관계에 초점을 맞추고 있다. Congle은 텍스트로부터 얻어진 정보의 범위를 확장시켜가고 있다”고 Soderland가 말했다. 


뉴스파이크는 다른 자연어 알고리즘 중에서 가장 돋보인다. 왜냐하면, 새로운 기사들에서 의미상으로 관련 있는 단어들을 식별하는 능력이 있기 때문이다. 지금까지 이것은 200가지 이상의 관계를 알아내도록 학습되었으며, 매일매일 그 수가 증가하고 있다. 예를 들어, 오바마(Obama)와 백악관(the White House)이라는 구문은 계속하여 미디어에서 공정하게 사용될 것이지만, 오바마(Obama)와 포트랜드(Portland)는 5월 7일에 로즈시를 방문했던 것처럼 동일한 사건을 언급할 가능성이 크다. 


오바마와 포트랜드라는 단어를 사용하는 많은 이야기들이 어떠한 날에 발생하게 될 때, 문장이 관련되는 더 강력한 가정을 만들어낼 수 있을 것이다. 그러면 컴퓨터는 오바마가 포트랜드를 방문한다(Obama visits Portland)와 오바마가 포트랜드를 여행한다(Obama travels to Portland)와 같은 구문이 의미적으로 유사하게 여겨지며, 방문한다와 여행한다가 동의어로서 이해되게 된다. 


Zhang의 시스템은 또한 요구된 데이터가 직접 수고스럽게 라벨링되지 않는 장점을 가지고 있다. “다른 시스템들은 수년 동안 수작업을 거쳐왔으며, 기계 학습 알고리즘을 위해 훈련된 데이터만을 만들어냈다. Congle의 연구가 좋은 점은 훈련된 데이터를 만들기 위해서 사람이 필요하지 않다는 것”이라고 Weld가 말했다. 


Zhang과 Weld는 이 프로그램의 미래에 대하여 낙관적으로 생각하고 있으며, 뉴스파이크가 대중적으로 사용될 수 있는 바람을 나타내고 있다. “다음으로 할 일은 성능을 향상시키는 것이다. 그 다음으로는 사람들이 뉴스파이크를 사용할 수 있는 좋은 방법을 발견해내는 것”이라고 Zhang이 말했다. 


기계 번역 문제에 대하여 기계학습 알고리즘을 적용하는 방법을 어느 누구도 이해하지 못했을지라도, 뉴스파이크는 정확한 컴퓨터 번역에 대한 문제를 풀기 위한 최고의 기술이 되고 있다. 



기사 원문 출처 : http://www.dailyuw.com/science/article_dcbd0dda-f9e3-11e4-acaa-7fe1e9969595.html


출처 KISTI 미리안 글로벌동향브리핑




반응형