• 지하 AI 연구소, 생각 기반 텍스트 AI 모델 훈련을 위해 1만 시간 분량의 뇌 스캔 기록 — 수천 명의 인간으로부터 6개월에 걸쳐 수집된 최대 규모의 알려진 신경 데이터셋

    Conduit는 뇌 활동으로부터 의미론적 콘텐츠를 해독하는 모델을 훈련시키기 위해 멀티모달 'AI 헬멧' 시스템과 대규모 데이터 운영을 구축했습니다.

    article image

    샌프란시스코의 한 스타트업이 지난 6개월 동안 AI 분야에서 매우 이례적인 데이터 프로젝트를 진행해 왔습니다. 컨듀잇(Conduit)에 따르면, 이 회사는 지하 스튜디오에서 "수천 명의 개별 참가자"로부터 약 10,000시간 분량의 비침습적 신경 데이터를 수집했으며, 이는 현재까지 구축된 최대 규모의 신경 언어 데이터셋 중 하나라고 판단합니다. 컨듀잇은 이 기록을 활용하여, 참가자가 말하거나 타이핑하기 몇 초 전의 뇌 활동에서 의미론적 내용을 해독하려는 사고-텍스트(thought-to-text) AI 모델을 훈련하고 있습니다. 참가자들은 작은 부스에 앉아 2시간 동안 자유롭게 LLM과 음성이나 "간소화된" 키보드를 통해 대화합니다. 초기에는 구조화된 과제에 의존했으나, 컨듀잇은 참여도가 데이터 품질에 큰 영향을 미친다는 것을 발견하고 개인화된 질의응답 형식의 대화로 전환했습니다. 프로젝트의 목표는 텍스트, 오디오, 신경 신호 간의 밀접한 시간 정렬을 유지하면서, 각 녹화 과정에서 최대한 많은 양의 자연어 데이터를 확보하는 것입니다.

    컨듀잇은 상용 멀티모달 헤드셋 중 자사 요구 사항을 충족하는 제품이 없음을 확인하고, 직접 하드웨어까지 구축했습니다. 팀은 최고 수준의 EEG, fNIRS 및 기타 센서들을 맞춤형 3D 프린팅 쉘에 결합하여 훈련용과 추론용으로 별도의 설계를 제작했습니다. 훈련용 헤드셋은 신호 포괄성(signal coverage)을 최대화하기 위해 고밀도이며 무게가 나가는 4파운드급 장치인 반면, 추론용 헤드셋은 모델 완성 후 진행될 절제 연구(ablation studies)를 거쳐 형태가 결정될 예정입니다. 현재 수집되는 모든 데이터는 Zarr 3 포맷을 통해 처리되어 여러 센서 유형의 입력을 단일 통합 프레임워크 아래에서 관리됩니다. 이 회사는 초기에 전기 간섭을 데이터 품질의 주요 위협으로 간주했습니다. 직원들은 장비에 고무로 랩핑을 하고 전원 컨디셔너를 실험하며, 결국 주 전원을 완전히 차단하고 배터리 팩에 의존하여 EEG 녹화에서 흔한 60Hz 스파이크를 제거하는 방식을 택했습니다. 이 접근법은 프레임 손실이나 무거운 배터리의 지속적인 회전 같은 자체적인 문제점을 낳았지만, 컨듀잇은 규모가 트레이드오프(tradeoffs)를 변화시킨다는 사실을 발견한 후 정상 전력 시스템으로 복귀했습니다. 데이터셋이 약 4,000~5,000시간을 넘어서자, 모델은 사람, 부스, 설정에 걸쳐 일반화되는 경향을 보이면서 공격적인 노이즈 감소의 필요성이 줄었습니다. 프로세스가 규모를 확장하면서 운영 비용도 감소했습니다. 컨듀잇은 백엔드를 재설계하여 손상된 세션을 실시간으로 포착하고, 세션 관리자가 카메라를 통해 여러 부스를 모니터링할 수 있도록 함으로써, 5월 대비 10월에 사용 가능한 데이터 시간당 한계 비용을 약 40% 절감했습니다. 또한, 커스텀 예약 시스템을 도입하여 동적 가격 책정 및 초과 예약 시스템을 운영함으로써 일일 20시간 일정 내내 헤드셋을 최대한 활용하고 있습니다. 컨듀잇은 현재 모델 훈련에 거의 전적으로 집중하고 있으며, 향후 발표를 통해 자체 해독 시스템을 상세하게 공개할 계획이라고 밝혔습니다.

    article image

    Tom's Hardware를 구글 뉴스에서 팔로우하거나 선호 출처로 등록하여 최신 뉴스, 분석, 리뷰를 피드에서 받아보세요.

    article image

    인간 뇌세포가 '몸속 상자(body-in-the-box)' CL1 덕분에 두 개의 신규 데이터 센터 전력원으로 활용될 예정

    연구원들이 살아있는 쥐 뉴런을 훈련시켜 실시간 AI 연산을 수행하게 하다

    [출처:] https://www.tomshardware.com/tech-industry/artificial-intelligence/basement-lab-produces-10000-hours-of-neural-data-for-thought-to-text-research