▶ Laboratory
AI 대화 시스템에는 추임새를 넣거나 말을 끊는 등의 능동적인 참여 기능이 구현되지 않아서 AI와 음성으로 대화하면 부자연스럽고 기계적인 느낌을 먼저 받는다. 그런데 AI와의 음성 대화가 자연스러워질 날이 머지 않았다. 단순히 문장을 이어 붙이지 않고 말을 끊는 타이밍, 감정이 섞인 반응, 무의식적 추임새 등을 복제해 사람처럼 말하는 AI 대화 생성 모델이 탄생한 덕분이다.
말버릇·추임새를 사람처럼 따라 하는
AI 대화 생성 모델 개발
컴퓨터공학부 김건희 교수팀
사람 사이의 대화는 단순한 문장 교환만으로 이뤄지지 않는다. “음… 그니까…”로 시작하는 말버릇, “맞아”, “응”하며 건네는 추임새, 말을 끊고 치고 들어가는 등 미묘한 대화 습관에서 분위기를 읽고 감정을 나누고 관계를 만들어간다. 하지만 지금까지 AI는 아무리 유창한 문장을 말해도 부자연스럽고 기계적이라는 느낌을 지우지 못했다.
컴퓨터공학부 김건희 교수팀은 한계에 도전했다. 사람이 실제로 대화하는 방식을 AI가 이해하고 모방하도록 세계 최대 규모의 음성 기반 대화 행동 데이터셋 ‘Behavior-SD’를 구축하고 학습시킨 AI 대화 생성 모델 ‘BeDLM(Behaviorally Aware Spoken Dialogue Model)’을 제안했다.
Behavior-SD는 약 2,000시간 분량의 대화 음성을 10만 개의 패턴으로 정리하고, 말버릇·추임새·끼어들기·감정 표현 등 구체적인 대화 행동까지 정교하게 주석 처리한 데이터셋이다. 기존 대화 데이터는 실제 음성 대화의 리듬과 감정, 반응을 반영하는 부분들은 충분히 고려하지 않았다. 연구팀은 한계를 극복하고자, 화자의 발화 구조와 대화 습관이 함께 반영되는 ‘행동 기반 대화 모델’을 구현했다.
단순히 ‘무엇을 말할지’만 예측하는 것이 아니라, 언제 말을 끊고 어떤 추임새를 넣고 어떤 감정으로 반응할지를 종합적으로 판단해 자연스럽게 이어지는 음성 대화를 생성한다. 실제 사람 간 대화를 듣고 학습한 AI가 상대 화자의 반응을 고려하며 말하는 것이다.
AI가 자연스럽게 말하며 사람과 감정을 나누는 대화가 가능해졌다는 뜻이다. 기술은 앞으로 상담, 돌봄, 음성 비서, 콘텐츠 제작 등 인간 중심의 정서적 대화가 필요한 분야에 응용될 것으로 기대된다. Behavior-SD 데이터셋과 BeDLM 모델은 모두 오픈소스로 공개해 후속 연구와 상용화 기반이 마련됐다.
김건희 교수는 “대화하는 사람은 보통 말하는 중에도 귀를 열고 상대방의 음성 반응과 시각 반응에 적응하고 맞춰가며 대화를 이끄는데, 지금까지 개발된 AI 대화 생성 모델은
이를 반영하지 못해서 한계를 넘고자 했다”며 “AI가 사람처럼 자연스럽게 대화하는 기술을 한 단계 더 발전시킨 의미있는 연구다”라고 밝혔다.