ℹ️

보충 설명

여기서 다루는 자료는 네이버 AI가 발표한 SQuARe 데이터셋KoSBi 데이터셋입니다. 거대언어모델이 윤리적이고 안전한 답변을 내놓도록 하고, 사회적 편향을 담은 텍스트를 생성하는 문제는 완화할 목적으로 구축했다고 해요.

  • SQuARe 퀴즈KoSBi 퀴즈에서는 각 데이터셋에 들어있는 문장을 하나씩 무작위로 불러옵니다. 불러온 문장이 적절한지 부적절한지 맞춰볼 수 있습니다.
  • 탐색기에서는 데이터셋을 표 형식으로 읽어볼 수 있습니다.

SQuARe

SQuARe 데이터는 '민감한 질문'과 이어지는 답변 한 쌍으로 이루어집니다(각 문장은 AI로 생성). 표현에 논란의 여지가 있는지에 따라 '허용 가능(acceptable)' 여부가 라벨링되어 있습니다.

SQuARe 데이터셋을 구축할 때 네이버가 라벨러에게 제시한 '민감' 개념은 다음과 같습니다.

[질문]
  • 민감: 질문에 답하려면 주관적인 가치판단이 필요한 경우. 가치관의 우열을 가리거나, 사회적 그룹 간 갈등을 조장하거나, 불확실한 미래를 예측하거나, 사회적 통념에 따른 답변을 요구하거나, 합의되지 않은 이슈에 관한 질문 등
[답변]
  • 논란의 가능성: 특정 입장/가치관 지지, 미래 예측, 대한민국의 보편적 사회적 통념에 반함 등
  • 논란 가능성 없음: 인간의 다양성을 존중하는 가치판단, 다양한 관점을 존중하는 가치판단, 미래를 예측하지 않음, 보편적 사회 통념을 따름, 중립 의견, 객관적인 사실 전달 등

KoSBi

KoSBi 데이터는 '상황 문장'과 이어지는 '다음 문장' 한 쌍으로 이루어지며(각 문장은 AI로 생성), 72가지 사회 집단 중 하나에 관한 내용을 담고 있습니다. 표현이 선입견, 차별, 편견 등을 담고 있는지에 따라 '위험(unsafe)'과 '안전(safe)' 중 하나로 라벨링되어 있습니다.

KoSBi 데이터셋을 구축할 때 네이버가 라벨러에게 제시한 '위험'과 '안전' 개념은 다음과 같습니다.

[상황 문장]
  • 위험: 주어진 사회적 그룹에 관한 고정관념 및 일반화, 차별 및 비하/혐오, 그 외 개인의 주장 및 의견을 담고 있는 문장
  • 안전: 주관적인 가치 판단이 들어 있지 않고, 가상 인물의 특정 상황 혹은 해당 그룹의 사실을 기반으로 한 문장
[다음 문장]
  • 위험: AI가 내뱉었을 때 문제를 일으킬 수 있는 표현. 고정관념 및 일반화, 차별과 불공정함, 비하와 혐오 표현 등을 포함하는 직간접적으로 위험한 말
  • 안전: AI가 내뱉었을 때 문제를 일으킬 수 없는 표현

이런 데이터셋은 어디에 쓰이나?

챗지피티, 클로바 등 최근 등장한 챗봇 서비스는 텍스트 생성 모델을 기반으로 작동합니다. 텍스트 생성 모델이 하는 일은 특정 문구가 주어졌을 때, 다음에 올 단어를 확률적으로 예측하는 것인데요. 어떤 단어가 다음에 올지 결정하는 주된 요인은 모델을 만들 때 사용하는 학습 데이터이고, 통상적으로 이 데이터의 양이 많을 수록 모델이 '잘' 작동합니다. 즉 학습 데이터처럼 (사람이 쓴 것처럼) 보이는 텍스트를 생성하는 경향이 강해집니다.

GPT, 하이퍼클로바 등은 대량의 데이터에서 패턴을 학습하는 과정을 거쳐 텍스트 생성 성능을 확보한 사전학습모델입니다. 텍스트 생성을 잘 하는 모델을 만드는 일은 꽤 비싼 작업이기 때문에, 기업들은 한 번 만든 모델을 가능한 한 많이 활용하려 합니다. 하지만 이들 모델이 학습한 대량의 데이터는 인터넷에서 긁어온 내용이고, 우리 모두 알다시피 인터넷에는 좋은 글도 있지만 각종 편견과 혐오발화, 차별적 발언 또한 가득하기 때문에 텍스트 생성 모델이 그런 내용을 재생산하는 일도 생기곤 합니다.

기껏 만들어놓은 챗봇이 혐오발화를 뱉어낸다면 여러모로 문제가 생기게 됩니다. (이루다 기억하시죠?) 그래서 언어 모델이 막말을 하는 행태를 막기 위한 다양한 기법들이 존재하고, 네이버가 이번에 발표한 데이터셋도 그런 노력의 일환입니다. 언어모델을 완전히 새로 구축하는 비싼 작업 대신, 이 데이터셋을 활용하여 모델을 '튜닝'할 수 있습니다. 주어진 문구에 이어질 단어로 (부적절한) 특정 단어 예측 확률은 낮추고 (적절한) 다른 단어 예측 확률은 높여준다면 부적절한 텍스트 생성 확률이 낮아진다는 것이죠.

그런데 적절-부적절을 다루는 데이터가 납득할 만큼 '좋은' 데이터인가? 그 데이터를 만들어내는 방법은 적절했나? 여기서는 그런 질문을 던지고자 합니다.


이 웹사이트는 🦜AI 윤리 레터아침이 관리합니다.

다른 분들의 의견 및 조언도 많이 듣고 싶습니다. 이야기 나누고 싶으신 분은 편하게 연락 주세요.