Item type |
SIG Technical Reports(1) |
公開日 |
2021-02-24 |
タイトル |
|
|
タイトル |
頭蓋内脳波からのエンコーダ・デコーダモデルによる想像音声推定 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Estimation of imagined speech from electrocorticogram with an encoder-decoder model |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
SIP2 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
東京農工大学大学院工学府電気電子工学専攻 |
著者所属 |
|
|
|
東京農工大学大学院工学府電気電子工学専攻 |
著者所属 |
|
|
|
順天堂大学脳神経外科 |
著者所属 |
|
|
|
順天堂大学脳神経外科 |
著者所属 |
|
|
|
順天堂大学脳神経外科 |
著者所属 |
|
|
|
順天堂大学脳神経外科 |
著者所属 |
|
|
|
東京工業大学情報理工学院 |
著者所属 |
|
|
|
東京農工大学大学院工学府電気電子工学専攻 |
著者所属(英) |
|
|
|
en |
|
|
Department of Electrical and Electronic Engineering, Tokyo University of Agriculture and Technology |
著者所属(英) |
|
|
|
en |
|
|
Department of Electrical and Electronic Engineering, Tokyo University of Agriculture and Technology |
著者所属(英) |
|
|
|
en |
|
|
Department of Neurosurgery, Juntendo University |
著者所属(英) |
|
|
|
en |
|
|
Department of Neurosurgery, Juntendo University |
著者所属(英) |
|
|
|
en |
|
|
Department of Neurosurgery, Juntendo University |
著者所属(英) |
|
|
|
en |
|
|
Department of Neurosurgery, Juntendo University |
著者所属(英) |
|
|
|
en |
|
|
School of Computing, Tokyo Institute of Technology |
著者所属(英) |
|
|
|
en |
|
|
Department of Electrical and Electronic Engineering, Tokyo University of Agriculture and Technology |
著者名 |
林, 恒太朗
古明地, 秀治
三橋, 匠
飯村, 康司
鈴木, 皓晴
菅野, 秀宣
篠田, 浩一
田中, 聡久
|
著者名(英) |
Kotaro, Hayashi
Shyuji, Komeiji
Takumi, Mitsuhashi
Yasushi, Iimura
Hiroharu, Suzuki
Hidenori, Sugano
Koichi, Sshinoda
Toshihisa, Tanaka
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年の信号処理・機械学習技術の進展によって,発声時や傾聴時の音声を頭蓋内脳波から推定したり再構成することが可能になりつつある.一方で,想像している発話の推定は,脳波と正解ラベルの同期を取るのが困難であることもあり,めぼしい成果が出ていないのが現状である.本稿では,想像音声と脳波が適切に同期していれば,発声や傾聴時脳波の場合と同様に,脳波から音声をデコーディングできるという仮説を立てた.そこで,短い文が映し出された画面を実験参加者に呈示し,文字の色を1文字ずつハイライトすることで,想像時のタイミングや想像速度を制御できる実験を設計した.その上で,音声想像,音声傾聴,発声の3種類タスクを課し,そのときの頭蓋内脳波を記録した.さらに,傾聴タスクでは呈示した音声,発声タスクでは実験参加者の発話を記録した.計測した頭蓋内脳波に対して,発声または傾聴時の音声のメルケプストラム係数をもちいたエンコーダ・デコーダモデルによって,想像音声を学習・推論した.想像時の頭蓋内脳波からデコーディングした文の文字誤り率は,最良で約17%を達成した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Recent advances in signal processing and machine learning technologies have made it possible to estimate and reconstruct speech or text during speaking and listening from invasive electrocorticogram (ECoG). Meanwhile, the estimation of imagined speech has not been successful due to the difficulty in synchronizing the ECoG with the target label. In this paper, we hypothesize that if imagined speech and ECoG are adequately synchronized, speech can be decoded from ECoG as in the case of ECoG during speaking and listening. We designed an experiment in which participants were presented with a screen on which short sentences were projected, and by highlighting the colors of the letters one by one, the timing and speed of imagination could be controlled. The ECoG was recorded during the three tasks of imagining speech, listening to speech, and speaking. Moreover, we recorded the speech presented in the listening task and the participants’ speech in the speaking task. From the measured ECoG, we built an encoder-decoder model using the Mel cepstrum coefficients of the speech during the speaking and listening tasks to infer the imagined speech. The best character error rate of about 17% was achieved for sentences decoded from the imagined ECoG. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2021-SLP-136,
号 37,
p. 1-6,
発行日 2021-02-24
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |