본문 바로가기
Study/paper

[BCI/논문/리뷰/TNSRE] Aligning Semantic in Brain and Language: A Curriculum Contrastive Method for Electroencephalography-to-Text Generation

by favorcat 2024. 2. 22.
반응형

Aligning Semantic in Brain and Language: A Curriculum Contrastive Method for Electroencephalography-to-Text Generation

2023, IEEE Transactions on Neural Systems and Rehabilitation Engineering

https://ieeexplore.ieee.org/abstract/document/10248031


Abstract

  • 피험자 의존적 뇌파 표현을 의미 의존적 뇌파 표현으로 효과적으로 재보정하여 불일치를 줄이는 커리큘럼 의미 인식 대조 학습 전략(C- SCL) 제안
    • 의미적으로 유사한 뇌파 표현을 하나로 모으고 서로 다른 뇌파 표현을 분리
    • 보다 의미 있는 대조 쌍을 도입하기 위해 커리큘럼 학습을 신중하게 적용하여 의미 있는 대조 쌍을 만들 뿐만 아니라 학습을 점진적으로 진행

Goal

뇌파에서 자연어 텍스트를 생성하는 EEG-to-Text에서 뇌 신호 표현을 의미론적 텍스트와 일치시키기 위해 의미론적 정렬 개선


Motivation

  • 피험자에 의존하는 뇌파 표현과 의미에 의존하는 텍스트 표현 사이의 현저한 불일치
  • 피험자에 의존적인 뇌파 표현은 두 가지 관점에서 뇌파-텍스트 모델의 성능에 부정적인 영향

(a) 동일한 피험자가 이끌어낸 뇌파 표현은 문장 자극이 무엇이든 간에 비슷한 방향으로 치우쳐 있어, 동일한 피험자가 다른 문장 자극에 직면했을 때 유사한 인지 패턴을 선호하는 경향이 있음을 보여줌. 네 개의 서로 다른 문장에 대한 반응으로 동일한 피험자가 이끌어낸 뇌파 표현 (b) 동일한 문장 자극에 대해 피험자마다 다르게 행동 동일한 문장에 대응하는 네 개의 서로 다른 피험자가 이끌어낸 EEG 표현

  • "다대일" 생성 문제(여러 개의 뇌파 신호가 동일한 문장에 해당) 발생
  • 시퀀스 간 생성 모델을 훈련하는 데 어려움
  • 피험자 의존적인 원래의 뇌파 표현을 보이지 않는 피험자로 옮기는 것이 어렵기 때문에 피험자 간 일반화 가능성을 크게 저해

Contribution

  • 피험자 의존적 뇌파 표현을 의미 의존적 뇌파 표현으로 효과적으로 재보정하여 불일치를 줄이는 커리큘럼 의미 인식 대조 학습 전략(C- SCL) 제안
  • C- SCL은 의미적으로 유사한 뇌파 표현을 하나로 모으고 서로 다른 뇌파 표현을 분리
    • C- SCL의 핵심은 시맨틱 인식 대조 학습 전략(SCL)으로, 동일한 문장 자극(긍정적 쌍)에 대해서는 피험자 간 EEG 표현의 유사성을 최대화하고, 다른 문장 자극(부정적 쌍)에 대해서는 EEG 표현의 유사성을 최소화하는 것을 목표
    • 성공적인 대조 학습을 위한 핵심 요소는 하드 포지티브와 네거티브 쌍을 구성

Data

  • 총 구축된 대비 쌍의 약 45.93%가 이미 최종 목표인 '긍정 쌍은 유사하고 부정 쌍은 서로 다른 조건을 만족
    • EEG 신호 간의 유사도(예: 하드 포지티브 쌍은 처음에는 유사도가 낮고 하드 네거티브 쌍은 유사도가 높음)를 미리 계산하고 커리큘럼 학습의 지원을 받아 다양한 난이도의 대비 쌍을 제작하여 하드 대비 쌍을 도입할 뿐만 아니라 쉬운 쌍에서 하드 쌍으로 학습하는 점진적인 학습 과정을 가능하게 함

ZuCo (Zurich Cognitive Language Processing Corpus)

  • 자연스러운 독서 중 뇌파 신호와 시선 추적 데이터의 코퍼스
  • 읽기 자료는 영화 리뷰와 위키피디아 기사에서 수집
  • 데이터 세트의 각 뇌파-텍스트 쌍에 대해, 뇌파 신호는 일련의 단어 수준 뇌파 특징 E 로 구성
  • 각 단어 수준 특징 E에 대해 8개의 주파수 대역이 기록
    • 세타1(4-6Hz), 세타2(6.5-8Hz), 알파1(8.5-10Hz), 알파2(10.5-13Hz), 베타1(13.5-18Hz) 베타2(18.5-30Hz), 감마1(30.5-40Hz) 및 감마2(40-49.5Hz)로 표시
  • feature의 각 대역은 고정된 105차원
  • 8개의 feature band를 모두 연결하여 840(e∈R^840) 크기의 최종 단어 수준 feature 벡터를 구성
  • ZuCo 2.0 버전의 코퍼스를 활용하여 일반 읽기와 과제별 읽기라는 두 가지 읽기 패러다임을 구분하기 위한 주제 간 분류가 포함
    • 이 데이터는 사람들이 자연스럽게 읽으면서 정보를 처리하는 방식에 대한 인사이트를 제공함으로써 인지 과학 및 언어 처리 연구에 중추적인 역할
  • train(80%), vaild(10%), test(10%)

  • "#쌍"은 뇌파-텍스트 쌍의 수
  • "#유니크_센트"는 고유 문장 수
  • "#주제"는 피험자 수
  • "평균 단어"는 문장의 평균 단어 수

Data availability

 

ZuCo 2.0: A Dataset of Physiological Recordings During Natural Reading and Annotation

Hosted on the Open Science Framework

osf.io

Code availability


Methods

ZuCo(Zurich Cognitive Language Processing Corpus) 벤치마크

  • 영어 문장을 자연스럽게 읽는 피험자의 EEG(뇌파 검사)와 시선 추적 기록을 결합한 고유한 데이터 세트를 기반으로 함
    • 성인 영어 원어민을 중심으로 인간의 읽기 과정을 조사하기 위해
  • (a) EEG-텍스트 생성 작업에서 피사체 의존적 뇌파 표현과 의미 의존적 텍스트 표현 사이의 불일치 문제를 완화하기 위한 첫 번째 단계를 밟고
  • (b) 의미 의존적 뇌파 표현을 성공적으로 산출하는 커리큘럼 의미 인식 대조 학습 전략 고안
  • (c) ZuCo 벤치마크에서 광범위한 실험을 수행하여 우리 방법의 효과와 견고성 및 우수한 일반화 가능성 입증

A. Semantic-Aware Contrastive Learning

  1. Motivation
    • 피험자 의존적인 뇌파 표현과 의미 의존적인 텍스트 표현 사이의 불일치를 줄이는 것
    • 의미적으로 유사한 뇌파 표현을 한데 모으고(포지티브 쌍), 그렇지 않은 표현을 밀어내는(네거티브 쌍) 의미 인식 대조 학습 전략(SCL)을 제안
  2. Positive Pairs
    • 해당 문장 Si가 있는 앵커 뇌파 표현 Ei가 주어지면 모든 뇌파 신호가 서로 다른 피험자에서 동일한 문장 자극 Si에 대응하는 양성 집합 E+i에서 하나의 뇌파 E+i를 임의로 선택
    • positive pair는 의미적으로 유사한 뇌파 신호의 클러스터링을 촉진
  3. Negative Pairs
    • 원래의 배치 내 네거티브 샘플은 대조 학습에 대한 약한 감독을 충분히 제공하지 못함
    • pi와 해당 문장 Si에 의해 유도된 앵커 뇌파 표현 Ei가 주어지면
      • (1) E-i가 Si를 제외한 문장에 해당
      • (2) E-i가 pi를 제외한 피험자에 의해 유도되는 두 가지 조건을 만족하는 네거티브 쌍 (Ei,E-i)을 구성
      • 두 조건을 모두 만족하는 모든 E-i 는 그림 3(b)와 같이 음의 집합 E-i 를 형성

B. Curriculum Learning

  1. Motivation
    • 학습 효율을 조사하기 위해 ZuCo 훈련 세트에서 10회에 걸쳐 SCL을 실행하여 한 번의 예비 실험을 수행
      • 145670개(14567×10 )의 대조적 삼중합이 생성
    • 긍정과 부정 쌍의 45.93%(66906145670=45.93% )가 같은 문장에 대한 뇌파 표현이 이미 유사하고 의미적으로 다른 뇌파 표현은 대조 학습 없이도 이미 다르다는 조건을 만족하기 때문에 학습 과정의 효율성이 심각하게 떨어짐
    • 이 문제를 극복하기 위해 커리큘럼 학습을 도입하여 하드 콘트라스트 쌍을 도입할 뿐만 아니라 모델 학습의 효율성을 보장함으로써 커리큘럼 의미 인식 콘트라스트 학습 전략(C- SCL)을 완성
  2. Curriculum Criterion (순서 정하기)
    • 사이의 코사인 유사도를 미리 계산하고 유사도를 고려하여 다양한 난이도의 대비 쌍을 생성
    • 양수 쌍을 구성하기 위해 앵커 EEG 표현 Ei 가 주어지면, Ei와 모든 E+i∈E+i 사이의 유사도를 계산한 다음 E+i를 내림차순으로 정렬하여 E`+i 를 생성
    • 음의 집합 E-i 의 경우 오름차순으로 정렬하여 E´-i
    • 앵커 Ei에 대한 하드 포지티브 샘플과 네거티브 샘플은 각각 E`+i와 E´-i의 끝에 위치
    • E`+i와 E´-i의 샘플은 이제 쉬운 순서에서 어려운 순서로 배치
  3. Curriculum Level (레벨 정하기)
    • 레벨의 수를 2에서 5까지 설정하여 예비 실험을 수행한 후 최종적으로 E`+i와 E´-i를 더 나은 성능으로 인해 3 레벨로 분할
    • 세부적으로는 정렬된 E`+i를 [Eeasy+i,Emedium+i,Ehard+i]와 같은 길이의 세 부분으로 나눔
    • E´-i는 [Eeasy-i,Emedium-i,Ehard-i]와 같은 길이의 세 부분으로 나눔
    • 정렬된 E`+i 와 E´-i 의 길이에 따라 서로 다른 난이도의 커리큘럼을 얻을 수 있음

서로 다른 난이도의 대조적인 쌍의 두 가지 예

  • 쉬운 대비 쌍은 양수 쌍은 비슷하고 음수 쌍은 다르다는 조건을 이미 만족하고 있음
  • 어려운 대비 쌍은 양의 쌍은 유사하지만 음의 쌍은 유사하지 않다는 조건을 만족하지 못함

4. Curriculum Scheduler (언제 업데이트?)

  • 선형 속도의 원패스 스케줄러를 채택하여 모델을 쉬운 순서에서 어려운 순서로 점진적으로 훈련
  • 원패스 스케줄러는 커리큘럼당 한 번만 모델을 학습시키는 반면, 선형 속도는 각 커리큘럼에 동일한 학습 시간이 걸리도록 함
  • 앵커 뇌파 Ei 가 주어졌을 때 하드 레벨에 도달하면 Ehard+i 와 Ehard-i 에서 각각 양성 샘플과 음성 샘플을 선택

C. Backbone Model

  • 일반적인 인코더-디코더 프레임워크를 계승하는데, 먼저 일련의 단어 수준 뇌파 특징 E를 분산 표현으로 인코딩한 다음 디코더를 통해 목표 문장 S를 생성
  • 단어 수준의 EEG 특징을 입력으로 받아 해당 문장을 생성
  • 구조
    1. 한 단어의 서로 다른 대역의 특징을 연결하여 최종 단어 수준의 뇌파 특징을 형성하는 단어 수준 뇌파 특징 구성(Word-Level EEG Feature Construction)
    2. 원본 EEG 특징을 사전 학습된 Seq2Seq 임베딩 공간으로 변환하는 사전 인코더
    3. 변환된 임베딩 시퀀스를 가져와 최종 출력 문장을 생성하는 사전 학습된 Seq2Seq

D. Learning Procedure

  1. 사전 인코더의 사전 학습을 목표로 하는 C- SCL
    • C- SCL을 채택하여 프리 인코더를 훈련
    • 공식적으로, 앵커 Ei와 하나의 특정 커리큘럼 레벨 c_level이 주어지면, 우리는 대조적인 삼중(Ei,Ec_level+i,Ec_level-i) 알고리즘 1이 구성 과정을 보여줌
    • 프리 인코더를 변환한 후 (hi,h+i,h-i) 를 구할 수 있는데, 여기서 hi는 프리 인코더 출력의 평균 벡터
    • 대조 프레임워크에 따라 (N은 미니 배치 크기)로 정의되는 교차 엔트로피 손실 ℓi를 최소화
      • C- SCL은 온라인 방식으로 작동하므로 양수 및 음수 쌍을 오프라인(훈련 전에 쌍이 결정됨)으로 구성하는 것이 아니라 훈련 과정(훈련 중에 쌍이 결정됨)에 따라 동적으로 구성
      • 대비되는 쌍의 분포가 증가하여 학습 효율이 향상
  2. 전체 뇌파-텍스트 생성 모델을 공동으로 최적화하는 것을 목표로 하는 언어 모델링
    • 대조적으로 훈련된 사전 인코더를 기반으로, 병렬 훈련 말뭉치(E,S)에서 교차 엔트로피 손실을 최소화하기 위해 BrainTranslator의 모든 매개 변수를 공동으로 미세 조정

Experiments

A. Baseline Models

B. Evaluation Protocol

  • ROUGE와 BLEU 를 채택
  • 보다 세분화된 생성 성능을 검토하기 위해 단어 오류율(WER)을 측정 지표로 채택

C. Implementation Details

  • 8개의 헤드와 2048차원을 가진 6개의 레이어로 구성된 pre-encoder로 구성
  • EEG차원은 840
  • 대조 훈련 과정에서는 학습률이 0.001이고 배치 크기가 32.t인 아담을 사용해 0.00001로 설정
  • 각 커리큘럼에 대해 쉬움부터 어려움(쉬움, 중간, 어려움)까지 한 회차씩 훈련
  • 전체 훈련 과정에서는 먼저 대조적으로 훈련된 사전 인코더의 체크포인트를 로드한 다음 학습률 2e-5, 배치 크기 32의 Adam을 사용하여 전체 모델을 미세 조정
  • 생성 과정에서는 모델에 greedy decoding하여 최종 문장을 생성
  • 세 가지 메트릭에 대해서는 허깅페이스 사용

Results

  • 단일 피험자 및 리소스 부족 환경에서의 우수성뿐만 아니라 제로 샷 환경에서의 강력한 일반화 가능성도 입증

Conclusion

  • 주제 의존적 뇌파 표현과 의미 의존적 텍스트 표현 사이의 불일치를 줄이기 위한 커리큘럼 의미 인식 대조 학습 전략(C- SCL)을 제안
  • ZuCo 벤치마크에 기반한 실험 결과는 EEG-텍스트 생성 작업에 대한 효과를 입증
  • 저자원 설정과 제로 샷 설정에서 각각 C- SCL의 견고성과 우수한 일반화 가능성도 분석 결과를 통해 확인
  • 단일 피험자 설정 실험은 뇌파-텍스트 생성 과제에 대한 혼합 피험자 훈련 방법을 모색해야 할 필요성을 시사
    1. 기존의 C- SCL 프레임워크를 기반으로 향후 연구에서는 대조 쌍을 구성할 때 의미적 유사성을 고려하고 대조 학습 및 도메인 적대 학습과 같은 여러 솔루션을 통합하여 성능을 더욱 향상
    2. 신경과학 연구 결과는 텍스트 해독 단계에 정보를 제공하여 해독 중에 뇌에서 영감을 받은 관련 단어를 연결하여 환각 문제를 완화
    3. 병원과의 협업을 통해 실제 환자에게 이 방법을 적용하여 그 효과와 견고성을 측정할 수 있음
  • 전반적으로 의미 유사성 인식 대조 학습, 뇌에서 영감을 받은 텍스트 해독, 실제 임상 환경에서의 검증을 통해 기술을 개선할 수 있는 기회가 남아있음

내 생각...

EEG 신호 표현이랑 의미론적 텍스트를 일치시킬때의 오류를 개선하고자 하는 방법론 제안을 좀 더 참고해봐야겠다.


X. Feng et al., “Aligning Semantic in Brain and Language: A Curriculum Contrastive Method for Electroencephalograph-to-Text Generation,” IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2023.

 

반응형

Comment