본문 바로가기
Study/paper

[BCI/논문/리뷰/TNSRE] Speech2EEG: Leveraging Pretrained Speech Model for EEG Signal Recognition

by favorcat 2024. 4. 4.
반응형

Speech2EEG: Leveraging Pretrained Speech Model for EEG Signal Recognition

2023, IEEE Transactions on Neural Systems and Rehabilitation Engineering

https://ieeexplore.ieee.org/abstract/document/10106018


Abstract

  • 사전 훈련된 음성 모델을 활용하여 EEG 신호 인식의 정확도를 향상시키는 새로운 접근법을 제안
  • 다중 채널 시간 임베딩을 추출하고 집계하여, 운동 상상 데이터셋에서 기존 방법을 능가하는 성능을 달성

Goal

대규모 음성 데이터 세트에 대해 사전 학습된 음성 처리 모델을 사용하여 잡음이 많은 EEG 신호에서 뇌 활동 식별


Motivation

  • 복잡한 네트워크 구조에 크게 의존하고, 훈련 데이터 부족으로 어려움을 겪는 현재 뇌파 인식의 뉴럴 네트워크 접근 방식의 한계 존재 

Contribution

  • 뇌파와 음성 신호 간의 공유 파형 특성과 처리 방법을 통해 뇌파 분석에서 음성 처리 방법을 활용할 수 있는 가능성 제안
  • 광범위한 실험 결과와 시각화 분석을 통해 Speech2EEG가 운동 이미지 범주와 관련된 유용한 패턴 파악

Data

  • BCI IV-2a 데이터 세트
    • EEG 22채널, 근전도 3채널
    • 피험자 9명
    • 22개 EEG 채널의 원시 EEG 데이터를 Speech2EEG 아키텍처의 입력으로 사용
    • 4가지 유형의 MI
    • 각 세션에 총 288개 실험, 총 2세션
    • 양손, 발, 혀의 움직임 상상
  • BCI IV-2b 데이터 세트
    • 샘플링 속도 250Hz
    • EEG 3채널, EOG 3채널
    • 피험자 9명
    • 3번의 훈련 세션, 2번의 평가 세션
    • 왼손 또는 오른속 움직임 상상 

Methods

Speech2EEG

사전 훈련된 음성 처리 모델 사용

  • EEG와 음성 신호 간에 공유된 파형 특성과 처리 방법을 바탕으로, 사전 훈련된 음성 처리 모델을 EEG 도메인에 적용
  • 음성 모델로부터 얻은 지식을 EEG 신호 인식에 전이, EEG 데이터의 복잡한 특성을 분석

temporal embedding network

  • 시간 프레임 내의 모든 EEG 채널에 대한 temporal embedding을 추출
  • EEG 신호로부터 다중 채널 시간 임베딩을 추출하는 과정에서 사전 훈련된 음성 처리 모델을 활용해 고차원의 특징을 뽑아냄
  • EEG 신호 내의 시간적 패턴과 관계를 포착해 다양한 운동 상상 활동을 더 잘 구분할 수 있는 정보 제공
  • Weighted Average
    • 숨겨진 투영 레이어 단위를 사용하여 가중치 합계를 적용하기 전에 멀티채널 시간 임베딩을 평평하게 하고 연결
  • Channelwise Aggregation
    • 채널 간 공간 종속성을 활용하는 공간 컨볼루션 레이어를 사용하여 멀티채널 시간 임베딩을 집계
  • Channel-and-Depthwise Aggregation
    • 다중 채널 시간 임베딩의 공간 집계 후, 서로 다른 특징 맵의 특징이 추가로 통합
  • 속 분류 모듈은 모든 집계 전략에서 정적으로 유지되며, 이는 고밀도 계층으로 구성된 MLP 네트워크

feature aggregation network

  • 서로 다른 공간적 또는 시간적 위치 간의 특징을 통합하고 선택하는데 사용
  • 각 EEG 채널에서 생성된 시간적 임베딩을 feature aggregation network를 사용해 집계함
  • 추출된 다중 채널 시간 임베딩을 효과적으로 통합하기 위해, 가중 평균, 채널별 집계, 채널-깊이별 집계와 같은 여러 집계 방법을 사용
  • 다차원의 임베딩에서 중요한 특징을 선별하고 통합하여, 최종 분류기에 입력할 수 있는 대표적인 특징 벡터를 생성

Classification network

  • 통합된 특징을 바탕으로, 분류 네트워크는 최종적으로 EEG 신호의 카테고리 예측
  • 테스트 범주에 대한 분포 점수를 산출
  • 다양한 운동 상상 활동을 정확하게 구분할 수 있는 최종 출력값을 생성하기 위해 학습된 분류 모델을 적용

훈련 단계에서는 미세 조정 방법을 사용하여 feature aggregation networkclassification network를 통해 사전 훈련된 시간적 임베딩 서브 네트워크를 EEG 분류에 맞게 조정


Results

BCI IV-2a

  • 모든 피험자에서 평균적으로 더 높은 정확도와 카파 점수를 달성하고 일관되게 안정적인 성능을 보임
  • 피험자 간 정확도의 표준편차는 약 0.1에 불과하여 여러 피험자에 걸쳐 일관성이 높음

Comparison of classification performance on different training dataset percentages on the BCI IV-2a dataset

BCI IV-2B

  • 필터 뱅크 공통 공간 패턴(FBCSP) 및 경험적 모드 분해 기반 필터링 방법(EMD-MI)과 같은 기존 방법보다 성능이 뛰어남
  • 두 개의 운동 이미지 데이터 세트에서 각각 89.5%와 84.07%의 정확도
  • 훈련 데이터의 크기를 최대 40%까지 줄였을 때, Speech2EEG 방식이 여전히 EEGNet 방식보다 성능이 뛰어남

Comparison of classification performance on different training dataset percentages on the BCI IV-2b dataset


Conclusion

  • 사전 훈련된 음성 처리 모델(Wav2Vec 2.0 등)을 EEG 신호 분석에 적용하여 운동 상상(Motor Imagery) 인식의 정확도를 향상시킬 수 있음을 보여줌
  • 이는 음성 신호와 EEG 신호 사이의 유사성을 활용하는 새로운 접근 방식의 유효성을 입증

내 생각...

사전 학습된 음성 모델을 EEG에 적용시킨다는 것을 생각해내다니 좋은 거 같고, 이런 방식을 활용하면 다양한 도메인의 모델을 적용시킬 수 있을 것 같다?


J. Zhou et al., “Speech2EEG: Leveraging Pretrained Speech Model for EEG Signal Recognition,IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2023.

반응형

Comment