본문 바로가기
Study/paper

[BCI/논문/리뷰/Nature Neuroscience] Shared computational principles for language processing in humans and deep language models

by favorcat 2024. 3. 13.
반응형

Shared computational principles for language processing in humans and deep language models

2022, Nature Neuroscience

https://www.nature.com/articles/s41593-022-01026-4


Abstract

  • 기존의 언어 모델에서 벗어나 딥 러닝의 발전으로 새로운 유형의 예측(자동 회귀) 심층 언어 모델(DLM)이 나옴
  • 인간의 뇌와 자동 회귀 DLM이 동일한 자연 내러티브를 처리할 때 세 가지 기본 계산 원리를 공유함
  • 자동 회귀 DLM은 언어의 신경 기반을 연구하는 데 새롭고 생물학적으로 실현 가능한 계산 프레임워크를 제공

Goal

인간과 자동 회귀 딥 언어 모델(autoregressive deep language models, DLMs)이 동일한 자연 서사를 처리하면서 공유하는 세 가지 기본 계산 원리를 밝히는 것


Motivation

  • 전통적인 심리언어학 모델과 다른 과학적 패러다임에서 나온 이 모델들은 언어 구조에 대한 명시적 또는 최소한의 사전 지식 없이 실제 세계 텍스트 예제에서 언어를 학습
  • 자동 회귀 DLMs는 언어 구조를 포착하는 데 매우 효과적이지만, 이러한 모델의 핵심 계산 원리가 인간 뇌의 언어 처리 방식과 관련이 있는지 여부는 명확하지 않음

Contribution

  • 신경세포 수준에서는 자연어를 처리하는 동안 단어가 시작되기 전에 뇌가 자발적으로 다음 단어 예측에 관여한다는 새로운 증거를 제시
    • 자동 회귀 DLM과 마찬가지로 뇌가 자연어를 처리할 때 단어가 시작되기 전에 다음 단어 예측에 지속적으로 관여한다는 누락된 증거를 제공
    • 연속적인 문맥 의존적 다음 단어 예측에 관여

Data

  • 9명의 참가자
  • 30분짜리 팟캐스트를 들으며 뇌 반응을 기록한 실험
  • ECoG

Data availability

The dataset will become available 6 months after paper publication. Pending anonymization process

Code availability

https://github.com/orgs/hassonlab/repositories/


Methods

Fig. 1: Shared computational principles between the brain and autoregressive deep language models in processing natural language.

Transcription and alignment

  • "So a Monkey and a Horse Walk Into a Bar: Act One, Monkey in the Middle" 이야기에서 추출한 텍스트 사용
  • 정렬의 정확도를 높이기 위해 웃음, 숨소리, 입술 부딪치는 소리, 박수 소리, 침묵 시간 등의 소리도 표시
  • 11kHz로 다운샘플링해서 오디오를 대본에 자동으로 정렬

Behavioral word-prediction experiment

  • 예측의 연속적인 측정을 위해 건강한 성인 참가자들이 이야기에 나오는 각 단어를 예측하는 슬라이딩 윈도우 행동 패러다임 개발
  • 총 300명의 참가자가 10달러의 수수료를 내고 Mechanical Turk에서 행동 실험을 완료
  • 스토리를 6개의 세그먼트로 나누고 50명의 참가자로 구성된 6개의 중복되지 않는 그룹을 모집하여 각 세그먼트에서 앞으로 나올 모든 단어를 예측
  • 첫 번째 그룹(50명)은 스토리의 처음 두 단어를 노출한 후 다음 단어를 예측
  • 예측을 입력한 후 실제 다음 단어가 공개되었고, 참가자들은 다시 스토리에서 다음 단어를 예측
  • 화면에 10개의 단어가 표시되면 가장 왼쪽에 있는 단어가 제거되고 다음 단어(정답)가 제시
  • 첫 번째 그룹이 이야기의 첫 번째 부분에 있는 각 단어를 예측할 때까지 슬라이딩 창을 사용하여 이 절차를 반복
  • 나머지 다섯 그룹은 이야기의 이전 부분을 중단 없이 듣고 각자에게 할당된 부분의 시작 부분에서 다음 단어를 예측

슬라이딩 윈도우 실험 결과

  • 이와 같은 실험을 GPT에게도 똑같이 실험해서 그 다음 단어를 예측하게 함

뇌전도 실험

  • 10명의 참가자(여성 5명, 20~48세)가 처음부터 끝까지 동일한 이야기 자극
  • 참가자들은 후속 분석에서 단어 예측을 조사할 것이라는 사실을 명시적으로 인지하지 못함
  • 단어를 예측하기 전후의 뇌 활동을 이용해서 신경학적으로 어떻게 구현되는지 파악함
    • 피험자가 단어가 들리기 전에는 어떤 예측을 하는지 보고
    • 실제 단어를 주고 예측과 차이가 뇌 활동에 어떤 영향을 미치는지
    • 맥락에 따른 단어 의미가 뇌에서 어떻게 인코딩 되는지

Preprocessing

Despike

  • 전극의 평균값에서 사분위수 범위의 3배 이상 벗어난 레코딩을 제거
  • 제거된 값은 큐빅 보간을 사용하여 보간

Detrend

  • 공통 평균을 참조하거나 독립적인 구성 요소 분석 구성 요소를 제거

Broadband power

  • 6주기 웨이브렛을 사용하여 60 및 180Hz를 제외한 70-200Hz 대역의 전력을 계산
  • 자연 로그 변환
  • Z-점수 변환

Temporal smoothing

  • 필터를 사용해 커널 크기가 50ms인 해밍 윈도우로 데이터를 평활화합니다. 필터를 정방향과 역방향으로 적용하여 시간적 구조, 특히 인코딩 피크 시작(제로 위상)을 유지

Encoding analysis

  • 각 전극과 지연 시간에 대해 구현된 선형 모델을 사용하여 단어 임베딩으로부터 신경 신호를 예측
  • 200ms의 윈도우를 사용한 실행 윈도우 평균과 10배 교차 검증 절차를 통해 평가되며, 훈련과 테스트 세트로 나누어진 신경 데이터를 기반
  • 분석은 -2000ms에서 2000ms까지의 지연 시간에 대해 반복되며, GloVe와 GPT-2 임베딩을 포함한 단어들을 사용하여 인코딩 분석

Decoding analysis

  • 신경 데이터는 각 지연 시간마다 625ms를 포괄하는 62.5ms의 구간으로 평균화
  • 디코더는 특정 지연 시간에서 신경 신호로부터 단어의 임베딩을 예측하도록 훈련
  • 데이터는 5개의 겹치지 않는 시간적 폴드로 나누어져 교차 검증 절차에 사용
  • 디코더의 성능은 ROC-AUC를 사용하여 평가
  • 이 절차를 통해 얻어진 전극 수는 114에서 132개
  • 예측된 임베딩과 각 고유 단어 레이블의 임베딩 사이의 코사인 거리를 계산하여 ROC-AUC 점수를 생성
  • 디코더의 성능 향상을 위해 모델 앙상블을 구현했으며, 이를 통해 더 정확한 ROC-AUC 점수를 얻을 수 있었음

Results

인간

  • 인간의 평균 예측 정확도는 28%로, 무작위 추측(6%)보다 훨씬 높았으며, 약 600개의 단어는 70% 이상의 예측 정확도
  • 뇌 신호 데이터는 뇌가 예측하기 전과 예측이 틀렸을 때 단어에 대한 정보를 포함하고 있음을 보여줌
    • 이는 인간이 자연스러운 맥락에서 미리 단어를 예측하고, 이러한 예측이 실제로 들리는 단어의 처리와 어떻게 연결되는지 보여줌
    • 단어 시작 전에 신뢰도가 높을수록 활성화 수준이 높고, 단어 시작 후에는 예측을 못한 수준이 활성화와 관계가 있었음

GPT

  • autoregressive 모델이라 단어 시퀀스에 기반해 다음 단어를 예측하는데, 이때 gpt feature로부터 뇌파를 예측하게 하고, 뇌파와 같이 ERP 분석
  • 예측하기 전후 결과를 가지고 비교하니 GPT도 단어가 나타나기 전에 다음 단어를 예측하려는 경향이 있었음

 

GPT vs. 인간

  • GPT-2와 같은 자동 회귀형 DLM과 인간의 예측은 높은 상관관계(r=0.79, P<0.001)를 보임
  • 49.1%의 경우에서 인간과 GPT-2의 가장 가능성 있는 예측이 일치
  • GPT-2와 인간은 27.6%의 단어를 함께 정확히 예측했고, 54.7%의 단어에서 함께 잘못 예측
  • 인간이 정확히 예측한 단어 중 GPT-2가 틀린 단어는 9.2%에 불과했고, GPT-2가 정확히 예측한 단어 중 인간이 틀린 단어는 8.4%
  • GPT-2와 인간의 예측의 신뢰도와 정확도 수준이 유사함을 확인
  • 특히, 40% 이상의 확률을 가진 예측은 95% 이상 정확
  • 맥락 윈도우 크기가 증가함에 따라 GPT-2와 인간 예측 사이의 상관관계가 개선되었으며, 이는 자연 언어 이해에서 다양한 시간 스케일에 걸쳐 축적된 정보가 중요함을 시사

Fig. 8: Using a decoding model for classification of words before and after word onset.
Extended Data Fig. 2: Figure S2. Comparing GPT-2 predictions and human predictions.

  • 위 그래프는 문장들이 주어지면 그 다음에 올 단어를 예측한 결과를 비교한 것
  • 오른쪽 위로 갈수록, 모델과 인간이 예측한 것이 일치
  • 가로: 인간이 예측한 확률, 세로: GPT가 예측한 확률
  • 5113개의 단어 각각에 대해 50개의 예측 (단어에 대해서는 공개되지 않음)
  • GPT는 다양하게 맞출 수 있는데, 사람은 GPT보다 더 넓게 맞추기가 어려워 보임(내 생각)

인간/gpt 예측의 상관관계, 인간/n-gram 모델의 예측 상관관계

  • 파이썬 패키지랑 brown corpus 사용해서 2~5-gram 모델을 훈련시켜서 팟캐스트에서 n-1 문맥이 주어졌을때의 단어 확률을 추출
  • 컨텍스트 윈도우 크기에 따라서 인간의 예측 확률이랑 얼마나 맞는지 correlation 확인
    • 예측 확률: 다음에 올 단어 예측 정도
  • GPT에서는 일정 수준의 컨텍스트 윈도우 크기를 넘어서면 저렇게 비슷한 상관관계 수준을 보여줌

Conclusion

  • 이 연구는 인간과 자동 회귀형 DLM이 자연 언어 처리에서 비슷한 예측 메커니즘을 사용한다는 것을 보여주며, 인간의 언어 처리 방식과 DLM의 예측 성능 간의 중요한 연결 고리를 제시
  • DLMs는 문법적, 의미적, 심지어 상황적으로도 표면적으로 잘 형성된 새로운 문장을 생성할 수 있는 좁은 의미에서 생성적
  • 언어가 인지에서 중심적 역할을 할 수는 있지만, 언어 능력만으로는 사고를 포착하기에 충분하지 않음
  • DLMs는 인간처럼 생각하거나 이해하거나, 기존 지식을 통합하여 새롭고 의미 있는 아이디어를 생성할 수 없음
  • DLMs는 언어가 인지에서 중심적 역할을 한다 하더라도, 언어 능력이 사고를 포착하는 데 충분하지 않다는 것을 시사

내 생각...

GPT-2가 인간의 신경 신호를 추적하고, 특히 인간이 DLM과 유사하게 문맥에 의존적인 방식으로 단어를 표현한다는 점에서 흥미로웠고, 언어모델이랑 인간의 뇌가 작동하는 원리 중에 공통점을 찾아낸게 매우 재밌었다


A. Goldstein et al., “Shared computational principles for language processing in humans and deep language models,Nature Neuroscience, Vol. 25, No. 3, 2023, pp. 369-380.

 

 

반응형

Comment