齋藤 佑樹, Ph.D.

Language: EN/JP


東京大学システム情報学専攻第一研究室 の講師です.
音声合成,音声変換,機械学習などに興味があります.

履歴書 (英語版) は [こちら (full)] と [こちら(short)]

Email: yuuki_saito {at} ipc.i.u-tokyo.ac.jp Twitter: @ysaito_human LinkedIn: yuki-saito-36a32a129

研究発表:

チュートリアル

  1. Yuki Saito, Shinnosuke Takamichi, and Wataru Nakata, "Emerging topics for speech synthesis: versatility and efficiency," APSIPA ASC 2024, Macau, China, Dec. 2024. (Slide)

解説記事

  1. 齋藤 佑樹, "共感的対話音声合成--より表現力豊かな音声対話システムに向けた音声合成--," 日本音響学会誌, Vol. 80, No. 12, pp. 667--674, 2024年12月.

原著論文

  1. Detai Xin*, Junfeng Jiang*, Shinnosuke Takamichi, Yuki Saito, Akiko Aizawa and Hiroshi Saruwatari, "JVNV: A corpus of Japanese emotional speech with verbal content and nonverbal expressions," IEEE Access, Vol. 12, pp. 19752--19764, Feb. 2024. (IEEE Xplore, *: equal contribution)
  2. Yuki Saito*, Kohei Yatabe*, and Shogun, "Does controller sound contain valuable information for video game scene analysis? Case study by character identification of Super Smash Bros. Ultimate," Acoustical Science and Technology, Vol. 45, No. 2, pp. 113--116, Feb. 2024. (J-STAGE, *: equal contribution)
  3. Xuan Luo, Shinnosuke Takamichi, Yuki Saito, Tomoki Koriyama, and Hiroshi Saruwatari, "Emotion-controllable speech synthesis using emotion soft label, utterance-level prosodic factors, and word-level prominence," APSIPA Transactions on Signal and Information Processing, Vol. 13, No. 1, 30 pages, Feb. 2024. (now publishers)
  4. Satoshi Mizoguchi, Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari, "DNN-based low-musical-noise single-channel speech enhancement based on higher-order-moments matching," IEICE Transactions on Information and Systems, Vol. E104-D, No. 11, pp. 1971--1980, Nov. 2021. (J-STAGE)
  5. Takaaki Saeki, Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari, "Real-time full-band voice conversion with sub-band modeling and data-driven phase estimation of spectral differentials," IEICE Transactions on Information and Systems, Vol. E104-D, No. 7, pp. 1002--1016, Jul. 2021. (2021年度電子情報通信学会 論文賞), (J-STAGE)
  6. Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari, "Perceptual-similarity-aware deep speaker representation learning for multi-speaker generative modeling," IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol. 29, pp. 1033--1048, Feb. 2021. (IEEE Xplore, Poster at ICASSP2022)
  7. Yuki Saito, Taiki Nakamura, Yusuke Ijima, Kyosuke Nishida, and Shinnosuke Takamichi, "Non-parallel and many-to-many voice conversion using variational autoencoders integrating speech recognition and speaker verification," Acoustical Science and Technology, Vol. 42, No. 1, pp. 1--11, Jan. 2021. (J-STAGE)
  8. Yuki Saito, Kei Akuzawa, and Kentaro Tachibana, "Joint adversarial training of speech recognition and synthesis models for many-to-one voice conversion using phonetic posteriorgrams," IEICE Transactions on Information and Systems, Vol. 103-D, No. 9, pp. 1978--1987, Sep. 2020. (J-STAGE)
  9. Shinnosuke Takamichi, Ryosuke Sonobe, Kentaro Mitsui, Yuki Saito, Tomoki Koriyama, Naoko Tanji, and Hiroshi Saruwatari, "JSUT and JVS: free Japanese voice corpora for accelerating speech synthesis research," Acoustical Science and Technology, Vol. 41, No. 5, pp. 761--768, Sep. 2020. (J-STAGE)
  10. Shinnosuke Takamichi, Yuki Saito, Norihiro Takamune, Daichi Kitamura, and Hiroshi Saruwatari, "Phase reconstruction from amplitude spectrograms based on directional-statistics deep neural networks," Signal Processing, Vol. 169, 12 pages, Apr. 2020. (ScienceDirect)
  11. Hiroki Tamaru, Yuki Saito, Shinnosuke Takamichi, Tomoki Koriyama, and Hiroshi Saruwatari, "Generative moment matching network-based neural double-tracking for synthesized and natural singing voices," IEICE Transactions on Information and Systems, Vol. E103-D, No. 3, pp. 639--647, Mar. 2020. (J-STAGE)
  12. Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari, "Vocoder-free text-to-speech synthesis incorporating generative adversarial networks using low-/multi-frequency STFT amplitude spectra," Computer Speech and Language, Vol. 58, pp. 347--363, Nov. 2019. (ScienceDirect)
  13. Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari, "Statistical parametric speech synthesis incorporating generative adversarial networks," IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol. 26, No. 1, pp. 84--96, Jan. 2018. (第34回 電気通信普及財団 テレコムシステム技術学生賞, IEEE Signal Processing Society Japan Student Journal Paper Award, 2020 IEEE SPS Young Author Best Paper Award), (IEEE Xplore)
  14. Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari, "Voice conversion using input-to-output highway networks," IEICE Transactions on Information and Systems, Vol. E100-D, No. 8, pp. 1925--1928, Aug. 2017. (J-STAGE)

査読付き国際会議

  1. Emiru Tsunoo, Yuki Saito, Wataru Nakata, and Hiroshi Saruwatari, "Causal speech enhancement with predicting semantics based on quantized self-supervised learning features," Proc. ICASSP, 5 pages, Hyderabad, India, Apr. 2025. (ACCEPTED)
  2. Kazuki Yamauchi, Wataru Nakata, Yuki Saito, and Hiroshi Saruwatari, "Decoding strategy with perceptual rating prediction for language model-based text-to-speech synthesis," Proc. NeurIPS Audio Imagination Workshop, pp. xxxx--xxxx, Vancouver, Canada, Dec. 2024. (ACCEPTED)
  3. Wataru Nakata, Takaaki Saeki, Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari, "NecoBERT: Self-supervised learning model trained by masked language modeling on rich acoustic features derived from neural audio codec," Proc. APSIPA ASC, pp. xxxx--xxxx, Macau, China, Dec. 2024. (ACCEPTED)
  4. Yuto Ishikawa, Osamu Take, Tomohiko Nakamura, Norihiro Takamune, Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari, "Real-time noise estimation for Lombard-effect speech synthesis in human--avatar dialogue systems," Proc. APSIPA ASC, pp. xxxx--xxxx, Macau, China, Dec. 2024. (ACCEPTED)
  5. Kaito Baba, Wataru Nakata, Yuki Saito, and Hiroshi Saruwatari, "The T05 system for The VoiceMOS Challenge 2024: Transfer learning from deep image classifier to naturalness MOS prediction of high-quality synthetic speech," Proc. SLT, pp. xxxx--xxxx, Macau, China, Dec. 2024. (ACCEPTED)
  6. Kazuki Yamauchi, Yuki Saito, and Hiroshi Saruwatari, "Cross-dialect text-to-speech in pitch-accent language incorporating multi-dialect phoneme-level BERT," Proc. SLT, pp. xxxx--xxxx, Macau, China, Dec. 2024. (ACCEPTED)
  7. Dong Yang, Tomoki Koriyama, and Yuki Saito, "Frame-wise breath detection with self-training: An exploration of enhancing breath naturalness in text-to-speech," Proc. INTERSPEECH, pp. 4928--4932, Kos, Greece, Sep. 2024. (PDF, Poster) (Shortlisted for the ISCA Best Student Paper Award 2024)
  8. Takuto Igarashi, Yuki Saito, Kentaro Seki, Shinnosuke Takamichi, Ryuichi Yamamoto, Kentaro Tachibana, and Hiroshi Saruwatari, "Noise-robust voice conversion by conditional denoising training using latent variables of recording quality and environment," Proc. INTERSPEECH, pp. 2750--2754, Kos, Greece, Sep. 2024. (PDF, Poster)
  9. Yuki Saito, Takuto Igarashi, Kentaro Seki, Shinnosuke Takamichi, Ryuichi Yamamoto, Kentaro Tachibana, and Hiroshi Saruwatari, "SRC4VC: Smartphone-recorded corpus for voice conversion benchmark," Proc. INTERSPEECH, pp. 1825--1829, Kos, Greece, Sep. 2024. (PDF, Poster)
  10. Kentaro Seki, Shinnosuke Takamichi, Norihiro Takamune, Yuki Saito, Kanami Imamura, and Hiroshi Saruwatari, "Spatial voice conversion: Voice conversion preserving spatial information and non-target signals," Proc. INTERSPEECH, pp. 177--181, Kos, Greece, Sep. 2024. (PDF, Slide)
  11. Kazuki Yamauchi, Yusuke Ijima, and Yuki Saito, "StyleCap: Automatic speaking-style captioning from speech based on speech and language self-supervised learning models," Proc. ICASSP, 5 pages, Seoul, South Korea, Apr. 2024. (PDF, Poster)
  12. Aya Watanabe, Shinnosuke Takamichi, Yuki Saito, Wataru Nakata, Detai Xin, and Hiroshi Saruwatari, "Coco-Nut: Corpus of Japanese utterances and voice characteristics description for prompt-based control," Proc. ASRU, Taipei, Taiwan, pp. 781--788, Dec. 2023. (PDF, Project page, Poster)
  13. Ryunosuke Hirai, Yuki Saito, and Hiroshi Saruwatari, "Federated learning for human-in-the-loop many-to-many voice conversion," Proc. The 12th ISCA SSW, 6 pages, Grenoble, France, Aug. 2023. (OpenReview)
  14. Yuki Saito, Eiji Iimori, Shinnosuke Takamichi, Kentaro Tachibana, and Hiroshi Saruwatari, "CALLS: Japanese empathetic dialogue speech corpus of complaint handling and attentive listening in customer center," Proc. INTERSPEECH, pp. 5561--5565, Dublin, Ireland, Aug. 2023. (Demo, Poster) (Travel Grant Award for INTERSPEECH2023)
  15. Yota Ueda, Shinnosuke Takamichi, Yuki Saito, Norihiro Takamune, and Hiroshi Saruwatari, "HumanDiffusion: diffusion model using perceptual gradients," Proc. INTERSPEECH, pp. 4264--4268, Dublin, Ireland, Aug. 2023. Poster
  16. Yuki Saito, Shinnosuke Takamichi, Eiji Iimori, Kentaro Tachibana, and Hiroshi Saruwatari, "ChatGPT-EDSS: empathetic dialogue speech synthesis trained from ChatGPT-derived context word embeddings," Proc. INTERSPEECH, pp. 3048--3052, Dublin, Ireland, Aug. 2023. (Demo, Slide) (Travel Grant Award for INTERSPEECH2023)
  17. Dong Yang, Tomoki Koriyama, Yuki Saito, Takaaki Saeki, Detai Xin, and Hiroshi Saruwatari, "Duration-aware pause insertion using pre-trained language model for multi-speaker text-to-speech," Proc. ICASSP, 5 pages, Rhodes Island, Greece, Jun. 2023. (Demo)
  18. Aya Watanabe, Shinnosuke Takamichi, Yuki Saito, Detai Xin, and Hiroshi Saruwatari, "Mid-attribute speaker generation using optimal-transport-based interpolation of Gaussian mixture models," Proc. ICASSP, 5 pages, Rhodes Island, Greece, Jun. 2023. (Demo)
  19. Kazuki Fujii, Yuki Saito, and Hiroshi Saruwatari, "Adaptive end-to-end text-to-speech synthesis based on error correction feedback from humans," Proc. APSIPA ASC, pp. 1699--1674, Chiang Mai, Thailand, Nov. 2022. (PDF, Slide)
  20. Yusuke Nakai, Yuki Saito, Kenta Udagawa, and Hiroshi Saruwatari, "Multi-task adversarial training algorithm for multi-speaker neural text-to-speech," Proc. APSIPA ASC, pp. 744--749, Chiang Mai, Thailand, Nov. 2022. (PDF, Slide)
  21. Yuki Saito, Yuto Nishimura, Shinnosuke Takamichi, Kentaro Tachibana, and Hiroshi Saruwatari, "STUDIES: Corpus of Japanese Empathetic Dialogue Speech Towards Friendly Voice Agent," Proc. INTERSPEECH, pp. 5155--5159, Incheon, South Korea, Sep. 2022. (PDF, Speech samples, Poster)
  22. Wataru Nakata, Tomoki Koriyama, Shinnosuke Takamichi, Yuki Saito, Yusuke Ijima, Ryo Masumura, and Hiroshi Saruwatari, "Predicting VQVAE-based Character Acting Style from Quotation-Annotated Text for Audiobook Speech Synthesis," Proc. INTERSPEECH, pp. 4551--4555, Incheon, South Korea, Sep. 2022. (PDF, Speech samples, Poster)
  23. Yuto Nishimura, Yuki Saito, Shinnosuke Takamichi, Kentaro Tachibana, and Hiroshi Saruwatari, "Acoustic Modeling for End-to-End Empathetic Dialogue Speech Synthesis Using Linguistic and Prosodic Contexts of Dialogue History," Proc. INTERSPEECH, pp. 3373--3377, Incheon, South Korea, Sep. 2022. (Google Travel Grants for Students in East Asia) (PDF, Speech samples, Slide)
  24. Kenta Udagawa, Yuki Saito, and Hiroshi Saruwatari, "Human-in-the-loop Speaker Adaptation for DNN-based Multi-speaker TTS," Proc. INTERSPEECH, pp. 2968--2972, Incheon, South Korea, Sep. 2022. (PDF, Speech samples, Poster)
  25. Xuan Luo, Shinnosuke Takamichi, Tomoki Koriyama, Yuki Saito, and Hiroshi Saruwatari, "Emotion-controllable speech synthesis using emotion soft labels and fine-grained prosody factors," Proc. APSIPA ASC, pp. 794--799, Tokyo, Japan, Dec. 2021. (PDF, Speech samples)
  26. Detai Xin, Yuki Saito, Shinnosuke Takamichi, Tomoki Koriyama, and Hiroshi Saruwatari, "Cross-lingual speaker adaptation using domain adaptation and speaker consistency loss for text-to-speech synthesis," Proc. INTERSPEECH, pp. 1614--1618, Brno, Czech Republic, Sep. 2021. (PDF)
  27. Yota Ueda, Kazuki Fujii, Yuki Saito, Shinnosuke Takamichi, Yukino Baba, and Hiroshi Saruwatari, "HumanACGAN: conditional generative adversarial network with human-based auxiliary classifier and its evaluation in phoneme perception," Proc. ICASSP, pp. 6468--6472, Toronto, Canada, Jun. 2021. (PDF, arXiv preprint, Poster)
  28. Yuki Yamashita, Tomoki Koriyama, Yuki Saito, Shinnosuke Takamichi, Yusuke Ijima, Ryo Masumura, and Hiroshi Saruwatari, "Investigating effective additional contextual factors in DNN-based spontaneous speech synthesis," Proc. INTERSPEECH, pp. 3201--3205, Shanghai, China, Oct. 2020. (PDF)
  29. Detai Xin, Yuki Saito, Shinnosuke Takamichi, Tomoki Koriyama, and Hiroshi Saruwatari, "Cross-lingual text-to-speech synthesis via domain adaptation and perceptual similarity regression in speaker space," Proc. INTERSPEECH, pp. 2947--2951, Shanghai, China, Oct. 2020. (PDF) (Speech samples)
  30. Shunsuke Goto, Kotaro Ohnishi, Yuki Saito, Kentaro Tachibana, and Koichiro Mori, "Face2Speech: towards multi-speaker text-to-speech synthesis using an embedding vector predicted from a face image," Proc. INTERSPEECH, pp. 1321--1325, Shanghai, China, Oct. 2020. (PDF) (Demo)
  31. Takaaki Saeki, Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari, "Real-time, full-band, online DNN-based voice conversion system using a single CPU," Proc. INTERSPEECH, pp. 1021--1022, Shanghai, China, Oct. 2020. (PDF, Video)
  32. Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari, "SMASH corpus: a spontaneous speech corpus recording third-person audio commentaries on gameplay," Proc. LREC, pp. 6573--6579, Marseille, France, May 2020. (PDF)
  33. Yuki Yamashita, Tomoki Koriyama, Yuki Saito, Shinnosuke Takamichi, Yusuke Ijima, Ryo Masumura, and Hiroshi Saruwatari, "DNN-based speech synthesis using abundant tags of spontaneous speech corpus," Proc. LREC, pp. 6440--6445, Marseille, France, May 2020. (PDF)
  34. Kazuki Fujii, Yuki Saito, Shinnosuke Takamichi, Yukino Baba, and Hiroshi Saruwatari, "HumanGAN: generative adversarial network with human-based discriminator and its evaluation in speech perception modeling," Proc. ICASSP, pp. 6239--6243, Barcelona, Spain, May 2020. (Main contribution paper for FujiSankei Business i Awards, Main contribution paper for National Institute of Technology Student Award) (PDF, arXiv preprint, Video)
  35. Takaaki Saeki, Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari, "Lifter training and sub-band modeling for computationally efficient and high-quality voice conversion using spectral differentials," Proc. ICASSP, pp. 7784--7788, Barcelona, Spain, May 2020. (PDF, arXiv preprint, Video)
  36. Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari, "DNN-based speaker embedding using subjective inter-speaker similarity for multi-speaker modeling in speech synthesis," Proc. The 10th ISCA SSW, pp. 51--56, Vienna, Austria, Sep. 2019. (PDF, arXiv preprint, Poster)
  37. Taiki Nakamura, Yuki Saito, Shinnosuke Takamichi, Yusuke Ijima, and Hiroshi Saruwatari, "V2S attack: building DNN-based voice conversion from automatic speaker verification," Proc. The 10th ISCA SSW, pp. 161--165, Vienna, Austria, Sep. 2019. (PDF, arXiv preprint, Poster)
  38. Hiroki Tamaru, Yuki Saito, Shinnosuke Takamichi, Tomoki Koriyama, and Hiroshi Saruwatari, "Generative moment matching network-based random modulation post-filter for DNN-based singing voice synthesis and neural double-tracking," Proc. ICASSP, pp. 7070--7074, Brighton, United Kingdom, May 2019. (PDF, arXiv preprint, Poster, Demo)
  39. Masakazu Une, Yuki Saito, Shinnosuke Takamichi, Daichi Kitamura, Ryoichi Miyazaki and Hiroshi Saruwatari, "Generative approach using the noise generation models for DNN-based speech synthesis trained from noisy speech," Proc. APSIPA ASC, pp. 99--103, Hawaii, U.S.A., Nov. 2018. (Invited Special Session), (PDF, Slide)
  40. Shinnosuke Takamichi, Yuki Saito, Norihiro Takamune, Daichi Kitamura, and Hiroshi Saruwatari, "Phase reconstruction from amplitude spectrograms based on von-Mises-distribution deep neural network," Proc. IWAENC, pp. 286--290, Tokyo, Japan, Sep. 2018. (PDF, Poster)
  41. Yuki Saito, Yusuke Ijima, Kyosuke Nishida, and Shinnosuke Takamichi, "Non-parallel voice conversion using variational autoencoders conditioned by phonetic posteriorgrams and d-vectors," Proc. ICASSP, pp. 5274--5278, Alberta, Canada, Apr. 2018. (Grants for Researchers Attending International Conferences from NEC C&C, Outstanding Paper Award for Young C&C Researchers) (PDF, Poster)
  42. Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari, "Text-to-speech synthesis using STFT spectra based on low-/multi-resolution generative adversarial networks," Proc. ICASSP, pp. 5299--5303, Alberta, Canada, Apr. 2018. (PDF, Poster)
  43. Hiroyuki Miyoshi, Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari, "Voice conversion using sequence-to-sequence learning of context posterior probabilities," Proc. INTERSPEECH, pp. 1268--1272, Stockholm, Sweden, Aug. 2017. (PDF, Slide, Speech samples)
  44. Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari, "Training algorithm to deceive anti-spoofing verification for DNN-based speech synthesis," Proc. ICASSP, pp. 4900--4904, New Orleans, U.S.A., Mar. 2017. (Spoken Language Processing Student Grant of ICASSP 2017), (PDF, Slide)
  45. Yuki Saito, and Hiroshi Tenmoto, "Construction of highly interpretable classification rule based on linear SVM," Proc. ISTS, Taipei, Taiwan, Nov. 2014.

研究会 (Technical Reports)

  1. 高野 大成, 岡本 悠希, 齋藤 佑樹, "Text-to-audioにおける評価指標CLAP-Scoreの性能分析," 言語処理若手シンポジウム (YANS), 2024年9月. (Poster) (YANSシンポジウム スポンサー賞 (株式会社IVRy賞))
  2. 山内 一輝, 中田 亘, 齋藤 佑樹, 猿渡 洋, "離散音声トークン生成によるテキスト音声合成のための音声主観評価値予測に基づくdecoding戦略," 情報処理学会研究報告, 2024-SLP-152, No. 14, pp. 1--6, 2024年6月. (PDF, Poster) (音学シンポジウム2024 優秀発表賞)
  3. Wataru Nakata*, Kazuki Yamauchi*, Dong Yang, Hiroaki Hyodo, and Yuki Saito, "UTDUSS: UTokyo-SaruLab System for Interspeech2024 Speech Processing Using Discrete Speech Unit Challenge," Technical Report for Interspeech2024 Speech Processing Using Discrete Speech Unit Challenge, 5 pages, Mar. 2024. (arXiv, *: equal contribution) (Ranked 1st in TTS (Acoustic+Vocoder) track, Leaderboard)
  4. 山内 一輝, 齋藤 佑樹, 猿渡 洋, "VQ-VAEに基づく解釈可能なアクセント潜在変数を用いた多方言音声合成," 電子情報通信学会研究報告, SP2023-80, Vol. 123, No. 403, pp.220--225, 2024年3月. (2024年 SP研究会 学生ポスター賞) (PDF, Poster)
  5. 織田 悠希, 山内 一輝, 齋藤 佑樹, 猿渡 洋, "クラウドソーシングで収集した方言アクセントラベルに基づく End-to-End 日本語音声合成の方言適応," 電子情報通信学会研究報告, Vol. 123, No. 403, 2024年3月.
  6. 齋藤 佑樹,五十嵐 琢斗, 関 健太郎, 高道 慎之介, 山本 龍一, 橘 健太郎, 猿渡 洋, "SRC4VCデータセット:多話者音声変換モデルのベンチマークを目的とした実デバイス収録音声コーパス," 電子情報通信学会研究報告, Vol. 123, No. 403, 2024年3月. (Slide)
  7. 五十嵐 琢斗, 齋藤 佑樹, 関 健太郎, 高道 慎之介, 山本 龍一, 橘 健太郎, 猿渡 洋, "音声品質と音響環境の潜在変数で条件付けたDenoising Trainingによるノイズロバスト音声変換," 電子情報通信学会研究報告, SP2023-45, Vol. 123, No. 403, pp. 13--18, 2024年3月. (PDF)
  8. 岡本 美柚, 関 健太郎, 高道 慎之介, 齋藤 佑樹, 伊藤 貴之, "ImTTS:印象推定の可視化を用いた多話者音声合成システム," NICOGRAPH 2023, 2 pages, P-9, 2023年12月. (査読あり)
  9. 齋藤 佑樹, 高道 慎之介, 飯森 栄治, 橘 健太郎, 猿渡 洋, "ChatGPT-EDSS: ChatGPT由来のContext Word Embeddingから学習される共感的対話音声合成モデル," 情報処理学会研究報告, 2023-SLP-147, No. 6, pp. 1--6, 2023年6月. (PDF, Poster) (音学シンポジウム2023 優秀発表賞)
  10. 熊田 順一, 齋藤 佑樹, 高道 慎之介, 渡邊 亞椰, 丹治 尚子, 長野 瑞生, 井島 勇祐, 猿渡 洋, "睡眠を誘発する音声刺激の生成に向けた分析と評価," 情報処理学会研究報告, 2023-SLP-147, No. 5, pp. 1--5, 2023年6月. (PDF, Poster)
  11. 渡邊 亞椰, 高道 慎之介, 齋藤 佑樹, 猿渡 洋, "自由記述文による声質制御に向けたin-the-wild文データ収集法," 電子情報通信学会研究報告, NLC2022-29, Vol. 122, No. 449, pp.55-60, 2023年3月. (PDF)
  12. 齋藤 佑樹, 飯森 栄治, 高道 慎之介, 橘 健太郎, 猿渡 洋, "多ドメイン共感的対話音声合成に向けた音声コーパスの構築," 電子情報通信学会研究報告, Vol. 122, No. 389, 2023年3月. (Slide)
  13. 平井 龍之介, 齋藤 佑樹, 猿渡 洋, "Fed-StarGANv2-VC:連合学習を用いた多対多声質変換," 情報処理学会研究報告, 2023-SLP-146, No. 11, pp. 1--6, 2023年3月.(2023年度情報処理学会 音声言語情報処理研究会 企業賞 (Fairy Devices賞)) (PDF, Slide)
  14. 齋藤 佑樹, 佐藤 宏, "国際会議INTERSPEECH2022参加報告," 情報処理学会研究報告, 2022-SLP-144, No. 14, p. 1, 2022年11月.
  15. 西邑 勇人, 齋藤 佑樹, 高道 慎之介, 橘 健太郎, 猿渡 洋, "対話履歴の韻律情報を考慮した共感的対話音声合成," 情報処理学会研究報告, 2022-SLP-140, No. 16, pp. 1--6, 2022年3月. (PDF, Speech samples, Slide)
  16. 仲井 佑友輔, 宇田川 健太, 齋藤 佑樹, 猿渡 洋, "多話者音声合成のためのAdversarial Regularizerを考慮した学習アルゴリズム," 電子情報通信学会研究報告, SP2021-57, Vol. 121, No. 385, pp. 50--55, 2022年3月. (PDF, Speech samples, Slide)
  17. 中田 亘, 郡山 知樹, 高道 慎之介, 齋藤 佑樹, 井島 勇祐, 増村 亮, 猿渡 洋, "VQVAEによって獲得されたキャラクター演技スタイルに基づく多話者オーディオブック音声合成," 電子情報通信学会研究報告, SP2021-47, Vol. 121, No. 282, pp. 42--47, 2021年12月. (PDF, Slide, Speech samples)
  18. 藤井 一貴, 齋藤 佑樹, 猿渡 洋, "韻律情報で条件付けされた非自己回帰型End-to-End 日本語音声合成の検討," 情報処理学会研究報告, 2021-SLP-138, No. 16, pp. 1--6, 2021年10月. (PDF, Slide)
  19. 宇田川 健太, 齋藤 佑樹, 猿渡 洋, "人間の知覚評価フィードバックによる音声合成の話者適応," 電子情報通信学会研究報告, SP2021-33, Vol. 121, No. 202, pp. 46--51, 2021年10月. (PDF, Slide, Speech samples)
  20. 倉田 将希, 高道 慎之介, 佐伯 高明, 荒川 陸, 齋藤 佑樹, 樋口 啓太, 猿渡 洋, "リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法," 情報処理学会研究報告, 2021-SLP-136, No. 31, pp. 1--6, 2021年3月. (PDF, Slide)
  21. 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "主観的話者間類似度を考慮したDNN話者埋め込みのためのActive Learning," 情報処理学会研究報告, 2021-SLP-136, No. 30, pp. 1--6, 2021年3月. (2021年度情報処理学会 音声言語情報処理研究会 企業賞 (Yahoo!Japan賞)) (PDF, Slide)
  22. 藤井 一貴, 齋藤 佑樹, 高道 慎之介, 馬場 雪乃, 猿渡 洋, "人間GAN:人間による知覚評価に基づく敵対的生成ネットワークと生成音声の自然性評価," 電子情報通信学会研究報告, SP2020-06, Vol. 120, No. 57, pp. 15--20, 2020年6月. (音学シンポジウム 学生ポスター賞)(PDF)
  23. 内藤 悟嗣, 齋藤 佑樹, 高道 慎之介, 齋藤 康之, 猿渡 洋, "VOCALOID曲の歌唱におけるブレス位置の自動推定," 情報処理学会研究報告, 2020-MUS-127, No. 33, pp. 1--6, 2020年6月. (PDF)
  24. 山下 優樹, 郡山 知樹, 齋藤 佑樹, 高道 慎之介, 井島 勇祐, 増村 亮, 猿渡 洋, "DNN に基づく話し言葉音声合成における追加コンテキストの効果," 電子情報通信学会研究報告, SP2019-61, Vol. 119, No. 441, pp. 65--70, 2020年3月. (PDF)
  25. 佐伯 高明, 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理," 情報処理学会研究報告, 2020-SLP-131, No. 2, pp. 1--6, 2020年2月. (PDF, Slide)
  26. 藤井 一貴, 齋藤 佑樹, 高道 慎之介, 馬場 雪乃, 猿渡 洋, "人間GAN:人間による知覚的識別に基づく敵対的生成ネットワーク," 情報論的学習理論ワークショップ (IBIS) 2019, 2-037, 2019年11月. (Poster)
  27. 中村 泰貴, 齋藤 佑樹, 高道 慎之介, 井島 勇祐, 猿渡 洋, "話者V2S攻撃:話者認証から構築される声質変換とその音声なりすまし可能性の評価," コンピュータセキュリティシンポジウム (CSS) 2019, 2E1-2, pp. 697--703, 2019年10月. (PDF, Slide)
  28. 高道 慎之介, 三井 健太郎, 齋藤 佑樹, 郡山 知樹, 丹治 尚子, 猿渡 洋, "JVS:フリーの日本語多数話者音声コーパス," 情報処理学会研究報告, 2019-SLP-129, No. 1, pp. 1--6, 2019年10月. (PDF, Slide)
  29. 田丸 浩気, 齋藤 佑樹, 高道 慎之介, 郡山 知樹, 猿渡 洋, "モーメントマッチングに基づくDNN合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用," 情報処理学会研究報告, 2018-SLP-125, No. 1, pp. 1--6, 2018年12月. (PDF, Slide)
  30. 溝口 聡, 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "カートシスマッチングに基づく低ミュージカルノイズDNN音声強調の評価," 電子情報通信学会研究報告, EA2018-66, Vol. 118, No. 312, pp. 19--24, 2018年11月. (PDF, Poster)
  31. 高道 慎之介, 齋藤 佑樹, 高宗 典玄, 北村 大地, 猿渡 洋, "von Mises分布DNNに基づく振幅スペクトログラムからの位相復元," 情報処理学会研究報告, 2018-SLP-122, No. 1, pp. 1--6, 2018年6月. (音学シンポジウム優秀賞, 情報処理学会 山下記念研究賞) (PDF, Poster)
  32. 齋藤 佑樹, 井島 勇祐, 西田 京介, 高道 慎之介, "音素事後確率とd-vectorを用いたVariational Autoencoderによるノンパラレル多対多音声変換," 電子情報通信学会研究報告, SP2017-88, Vol. 117, No. 517, pp. 21--26, 2018年3月. (平成29年度音声研究会 研究奨励賞) (PDF, Slide)
  33. 宇根 昌和, 齋藤 佑樹, 高道 慎之介, 北村 大地, 宮崎 亮一, 猿渡 洋, "雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習,," 情報処理学会研究報告, 2017-SLP-118, No. 1, pp. 1--6, 2017年10月. (PDF, Slide)
  34. 三好 裕之, 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換とDual Learningの評価," 電子情報通信学会研究報告, SP2017-16, Vol. 117, No. 160, pp. 9--14, 2017年7月. (PDF, Slide)
  35. 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "DNNテキスト音声合成のための Anti-spoofing に敵対する学習アルゴリズム," 情報処理学会研究報告, 2017-SLP-115, No. 1, pp. 1--6, 2017年2月. (PDF, Slide)
  36. 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "Anti-spoofingに敵対するDNN音声変換の評価," 電子情報通信学会研究報告, SP2016-69, Vol. 116, No. 414, pp. 29--34, 2017年1月. (2017年 SP研究会 学生ポスター賞) (PDF, Poster)

全国大会

  1. 岡本 悠希, 永瀬 亮太郎, 岡本 南美, 齋藤 佑樹, 福森 隆寛, 山下 洋一, "環境音に対する印象説明文データセットの構築と分析," 日本音響学会 2024年秋季研究発表会 講演論文集, 3-Q-23, pp. xxx--xxx, 2024年9月. (PDF, Poster)
  2. 馬場 凱渡, 中田 亘, 齋藤 佑樹, 猿渡 洋, "UTMOSv2: 自然性 MOS 予測におけるスペクトログラム特徴量と SSL 特徴量の統合的利用," 日本音響学会 2024年秋季研究発表会 講演論文集, 3-6-4, pp. xxx--xxx, 2024年9月. (PDF, Slide)
  3. 中田 亘, 関 健太郎, 谷中 瞳, 齋藤 佑樹, 高道 慎之介, 猿渡 洋 "J-CHAT: 音声言語モデルのための大規模日本語対話音声コーパス," 日本音響学会 2024年秋季研究発表会 講演論文集, 3-6-3, pp. xxx--xxx, 2024年9月. (PDF, Slide)
  4. 石川 悠人, 武 伯寒, 中村 友彦, 高宗 典玄, 齋藤 佑樹, 高道 慎之介, 猿渡 洋 "人間とアバターとの対話システムにおける拡散性雑音下リアルタイム推定雑音を用いたLombard 効果模擬音声合成のための検討," 日本音響学会 2024年秋季研究発表会 講演論文集, 1-11-10, pp. xxx--xxx, 2024年9月. (PDF, Slide)
  5. 小川 諒, 米倉 悠記, 伊藤 信貴, 高宗 典玄, 山岡 洸瑛, 齋藤 佑樹, 猿渡 洋, "正負ラベルなし学習を用いた半教師付き深層学習に基づくモノラル音声強調," 日本音響学会 2024年秋季研究発表会 講演論文集, 1-11-7, pp. xxx--xxx, 2024年9月. (PDF, Slide)
  6. 渡邊 亞椰, 高道 慎之介, 齋藤 佑樹, 中田 亘, 辛 徳泰, 猿渡 洋, "対照学習モデルによる音声-声質表現文の埋め込み表現獲得," 日本音響学会 2024年春季研究発表会 講演論文集, 2-P-11, pp. 973--976, 2024年3月. (PDF, Poster)
  7. 山内 一輝, 井島 勇祐, 齋藤 佑樹, "StyleCap: 音声および言語の自己教師あり学習モデルに基づく音声の発話スタイルに関するキャプション生成," 日本音響学会 2024年春季研究発表会 講演論文集, 3-2-14, pp. 843--846, 2024年3月. (日本音響学会 第28回学生優秀発表賞) (PDF, Slide)
  8. 中田 亘, 佐伯 高明, 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "NecoBERT:音声合成のために事前学習された自己教師あり学習モデル," 日本音響学会 2024年春季研究発表会 講演論文集, 1-Q-37, pp. 927--930, 2024年3月. (PDF, Poster)
  9. 羅 旋, 高道 慎之介 齋藤 佑樹, 猿渡 洋, "単語レベル強調と感情ソフトラベルを利用した制御可能な音声合成モデル," 日本音響学会 2024年春季研究発表会 講演論文集, 1-2-8, pp. 777--780, 2024年3月. (PDF, Slide)
  10. 渡邊 亞椰, 高道 慎之介, 齋藤 佑樹, 辛 徳泰, 猿渡 洋, "Coco-Nut: 自由記述文による声質制御に向けた多話者音声・声質自由記述ペアデータセット," 日本音響学会 2023年秋季研究発表会 講演論文集, 3-9-3, pp. 1133--1136, 2023年9月. (日本音響学会 第27回学生優秀発表賞) (PDF, Slide)
  11. 山内 一輝, 齋藤 佑樹, 猿渡 洋, "アクセント潜在変数の予測と制御が可能なTTSモデルによる方言音声合成の検討," 日本音響学会 2023年秋季研究発表会 講演論文集, 2-Q-30, pp. 1255--1256, 2023年9月. (PDF, Poster)
  12. 井浦 昂太, 齋藤 佑樹, 猿渡 洋, "対戦ゲーム動画の実況解説音声の分析と合成の検討," 日本音響学会 2023年秋季研究発表会 講演論文集, 2-Q-30, pp. 1247--1248, 2023年9月. (PDF, Poster)
  13. 中田 亘, 佐伯 高明, 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "自己教師ありモデル特徴量から音声波形を生成する ニューラルボコーダの実験的評価," 日本音響学会 2023年秋季研究発表会 講演論文集, 2-Q-29, pp. 1243--1246, 2023年9月. (PDF, Poster)
  14. 渡邊 亞椰, 高道 慎之介, 齋藤 佑樹, 辛 徳泰, 猿渡 洋, "最適輸送によるGMM補間を用いた中間属性の非実在話者生成," 日本音響学会 2023年春季研究発表会 講演論文集, 2-3Q-8, pp. 899--902, 2023年3月. (PDF)
  15. Dong Yang, Tomoki Koriyama, Yuki Saito, Takaaki Saeki, Detai Xin, and Hiroshi Saruwatari, "More differentiated pause insertion for phoneme-based multi-speaker TTS models," 日本音響学会 2023年春季研究発表会 講演論文集, 2-3P-9, pp. 867--870, 2023年3月. (PDF)
  16. 原田そら, 中田 亘, 高道 慎之介, 齋藤 佑樹, 齋藤 康之, 猿渡 洋, "避難呼びかけ音声の持つ緊急性の分析と音声合成への適用の検討," 日本音響学会 2022年秋季研究発表会 講演論文集, 2-Q-41, pp. 1283--1286, 2022年9月. (PDF, Poster)
  17. 藤井 一貴, 齋藤 佑樹, 猿渡 洋, "人間からの誤り訂正フィードバックに基づく適応的なEnd-to-End日本語音声合成に関する検討 ," 日本音響学会 2022年秋季研究発表会 講演論文集, 2-Q-36, pp. 1265--1268, 2022年9月. (PDF, Poster)
  18. 中田 亘, 郡山 知樹, 高道 慎之介, 齋藤 佑樹, 井島 勇祐, 増村 亮, 猿渡 洋, "キャラクタ分散表現を用いた演じ分けを実現するオーディオブック音声合成," 日本音響学会 2022年春季研究発表会 講演論文集, 3-3-1, pp. 965--968, 2022年3月. (PDF)
  19. 齋藤 佑樹, 西邑 勇人, 高道 慎之介, 橘 健太郎, 猿渡 洋, "STUDIES:表現豊かな音声合成に向けた日本語共感的対話音声コーパス," 日本音響学会 2022年春季研究発表会 講演論文集, 2-3P-15, pp. 1133--1136, 2022年3月. (PDF, Speech samples)
  20. 齋藤 佑樹, 矢田部 浩平, Shogun, "大乱闘スマッシュブラザーズの対人対戦におけるコントローラー操作音からのキャラクター識別," 日本音響学会 2022年春季研究発表会 講演論文集, 1-1Q-8, pp. 351--352, 2022年3月. (PDF)
  21. 宇田川 健太, 齋藤 佑樹, 猿渡 洋, "人間の知覚評価をフィードバックに用いた音声合成の話者適応における探索手法の検討," 日本音響学会 2022年春季研究発表会 講演論文集, 1-3-16, pp. 927--930, 2022年3月. (PDF)
  22. 羅 旋, 高道 慎之介, 郡山 知樹, 齋藤 佑樹, 猿渡 洋, "韻律特徴と感情ソフトラベルを利用した制御可能な音声合成モデル," 日本音響学会 2021年秋季研究発表会 講演論文集 3-3-21, pp. 985--988, 2021年9月. (PDF)
  23. 齋藤 佑樹, 猿渡 洋, "End-to-End音声合成のContinual Learningにおける破滅的忘却の影響の調査," 日本音響学会 2021年秋季研究発表会 講演論文集, 1-3Q-8, pp. 1069--1072, 2021年9月. (PDF)
  24. 辛 徳泰, 齋藤 佑樹, 高道 慎之介, 郡山 知樹, 猿渡 洋, "ドメイン適応と話者一致損失を用いた話者適応によるクロスリンガル音声合成," 日本音響学会 2021年秋季研究発表会 講演論文集, 1-3Q-8, pp. 1049--1052, 2021年9月. (PDF)
  25. 上田 陽太,藤井 一貴,齋藤 佑樹,高道 慎之介,馬場 雪乃,猿渡 洋, "HumanACGAN:人間の知覚を補助分類器に用いた条件付き敵対的生成ネットワークと音素知覚における評価," 日本音響学会 2021年春季研究発表会 講演論文集, 1-2-14, pp. 819--822, 2021年3月. (PDF)
  26. 佐伯 高明, 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価," 日本音響学会 2020年秋季研究発表会 講演論文集, 1-2-11, pp. 715--718, 2020年9月. (Slide, PDF)
  27. 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "主観的話者間類似度のグラフ埋め込みに基づくDNN話者埋め込み," 日本音響学会 2020年秋季研究発表会 講演論文集, 1-2-11, pp. 697--698, 2020年9月. (日本音響学会 粟屋 潔学術奨励賞) (PDF, Slide)
  28. 藤井 一貴, 齋藤 佑樹, 高道 慎之介, 馬場 雪乃, 猿渡 洋, "人間GAN:人間による知覚評価に基づく敵対的生成ネットワークと音声の自然性知覚における評価," 日本音響学会 2020年春季研究発表会 講演論文集, 3-P-40, pp. 1181--1184, 2020年3月. (PDF)
  29. 高道 慎之介, 小沼 海, 金田 卓, 金田 隆志, 齋藤 佑樹, 郡山 知樹, 猿渡 洋, "周波数伸縮に基づく話者匿名化のためのクラウドソーシングに基づくパラメータ最適化," 日本音響学会 2020年春季研究発表会 講演論文集, 3-P-31, pp. 1159--1162, 2020年3月. (PDF)
  30. 後藤 駿介, 大西 弘太郎, 齋藤 佑樹, 橘 健太郎, 森 紘一郎, "顔画像から予測される埋め込みベクトルを用いた複数話者音声合成," 日本音響学会 2020年春季研究発表会 講演論文集, 2-Q-49, pp. 1141--1144, 2020年3月. (PDF, poster)
  31. 佐伯 高明, 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "差分スペクトル法に基づく広帯域声質変換のためのサブバンドリフタ学習," 日本音響学会 2020年春季研究発表会 講演論文集, 2-2-5, pp. 1085--1088, 2020年3月. (PDF)
  32. 高道 慎之介, 齋藤 佑樹, 中村 友彦, 郡山 知樹, 猿渡 洋, "manga2voice:マンガ画像からの音声合成に向けた音声分析," 日本音響学会 2020年春季研究発表会 講演論文集, 1-2-15, pp. 1065--1068, 2020年3月. (PDF)
  33. 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "SMASHコーパス:ゲーム動画の後付け実況解説音声収録に基づく自発発話音声コーパス," 日本音響学会 2020年春季研究発表会 講演論文集, 1-2-14, pp. 1061--1064, 2020年3月. (PDF, Slide)
  34. 内藤 悟嗣, 齋藤 佑樹, 高道 慎之介, 齋藤 康之, 猿渡 洋, "ユーザによるVOCALOID曲の歌唱のためのブレス位置推定," 日本音響学会 2020年春季研究発表会 講演論文集, 1-2-12, pp. 1057--1058, 2020年3月. (PDF)
  35. 齋藤 佑樹,阿久澤 圭, 橘 健太郎, "音素事後確率を用いた多対一音声変換のための音声認識・生成モデルの同時敵対学習," 日本音響学会 2019年秋季研究発表会 講演論文集, 2-4-2, pp. 963--966, 2019年9月. (PDF, Slide)
  36. 佐伯 高明, 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "差分スペクトル法に基づくDNN声質変換の計算量削減に向けたフィルタ推定," 日本音響学会 2019年秋季研究発表会 講演論文集, 2-4-1, pp. 961--962, 2019年9月. (PDF, Slide)
  37. 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "主観的話者間類似度に基づくDNN話者埋め込みを用いた多数話者DNN音声合成の実験的評価," 日本音響学会 2019年秋季研究発表会 講演論文集, 1-P-18, pp. 999--1002, 2019年9月. (PDF, Poster)
  38. 田丸 浩気, 齋藤 佑樹, 高道 慎之介, 郡山 知樹, 猿渡 洋, "ユーザ歌唱のためのgenerative moment matching network に基づくneural double-tracking," 日本音響学会 2019年秋季研究発表会 講演論文集, 1-4-2, pp. 935--938, 2019年9月. (PDF, Slide)
  39. 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "DNN 音声合成に向けた主観的話者間類似度を考慮したDNN話者埋め込み," 日本音響学会 2019年春季研究発表会 講演論文集, 3-10-7, pp. 1067--1070, 2019年3月. (PDF, Slide)
  40. 中村 泰貴, 齋藤 佑樹, 西田 京介, 井島 勇祐, 高道 慎之介, "音素事後確率とd-vectorを用いたノンパラレル多対多VAE音声変換における学習データ量とd-vector次元数に関する評価," 日本音響学会 2019年春季研究発表会 講演論文集, 2-P-30, pp. 1149--1150, 2019年3月. (PDF, Poster)
  41. 田丸 浩気, 齋藤 佑樹, 高道 慎之介, 郡山 知樹, 猿渡 洋, "Generative moment matching netに基づく歌声のランダム変調ポストフィルタとdouble-trackingへの応用," 日本音響学会 2019年春季研究発表会 講演論文集, 2-10-5, pp. 1035--1038, 2019年3月. (The 3rd IEEE Signal Processing Society Tokyo Joint Chapter Student Award) (PDF)
  42. 溝口 聡, 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "多様なカートシスを持つ雑音に対応した低ミュージカルノイズDNN音声強調," 日本音響学会 2019年春季研究発表会 講演論文集, 1-6-6, pp. 185--188, 2019年3月. (PDF)
  43. 高道 慎之介, 齋藤 佑樹, 高宗 典玄, 北村 大地, 猿渡 洋, "方向統計DNNに基づく振幅スペクトログラムからの位相復元," 日本音響学会 2018年秋季研究発表会 講演論文集, 2-4-2, pp. 1127--1130, 2018年9月. (PDF, Slide)
  44. 溝口 聡, 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "カートシスマッチングと深層学習に基づく低ミュージカルノイズ音声強調," 日本音響学会 2018年秋季研究発表会 講演論文集, 2-1-7, pp. 177--180, 2018年9月. (日本音響学会 第18回学生優秀発表賞) (PDF, Slide)
  45. 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "多重周波数解像度のSTFTスペクトルを用いた敵対的DNN音声合成," 日本音響学会 2018年春季研究発表会 講演論文集, 3-8-14, pp. 259--262, 2018年3月. (PDF, Slide)
  46. 宇根 昌和, 齋藤 佑樹, 高道 慎之介, 北村 大地, 宮崎 亮一, 猿渡 洋, "雑音環境下音声を用いたDNN音声合成のための雑音生成モデルの敵対的学習," 日本音響学会 2018年春季研究発表会 講演論文集, 3-8-8, pp. 243--244, 2018年3月. (PDF, Slide)
  47. 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "敵対的DNN音声合成におけるダイバージェンスの影響の調査," 日本音響学会 2017年秋季研究発表会 講演論文集, 1-8-7, pp. 189--192, 2017年9月. (PDF, Slide)
  48. 高道 慎之介, 郡山 知樹, 齋藤 佑樹, 猿渡 洋, "Moment-matching networkに基づく一期一会音声合成における発話間ゆらぎの評価," 日本音響学会 2017年秋季研究発表会 講演論文集, 1-8-9, pp. 195--196, 2017年9月. (PDF, Slide)
  49. 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "敵対的DNN音声合成におけるF0・継続長の生成," 日本音響学会 2017年春季研究発表会 講演論文集, 2-6-6, pp. 257--258, 2017年3月. (PDF, Slide)
  50. 三好 裕之, 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "コンテキスト事後確率のSequence-to-Sequence学習を用いた音声変換," 日本音響学会 2017年春季研究発表会 講演論文集, 1-6-15, pp. 237--238, 2017年3月. (PDF, Slide)
  51. 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "Highway networkを用いた差分スペクトル法に基づく敵対的DNN音声変換," 日本音響学会 2017年春季研究発表会 講演論文集, 1-6-14, pp. 235--236, 2017年3月. (The 1st IEEE Signal Processing Society Tokyo Joint Chapter Student Award) (PDF, Slide)
  52. 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "DNN音声合成のためのAnti-Spoofingを考慮した学習アルゴリズム," 日本音響学会 2016年秋季研究発表会 講演論文集, 3-5-1, pp. 149--150, 2016年9月. (日本音響学会 第14回学生優秀発表賞) (PDF, Slide)

学位論文

  1. 齋藤 佑樹, "Statistical speech synthesis based on human's speech information processing abilities," 博士論文, 東京大学大学院 情報理工学系研究科 システム情報学専攻, 2021年3月. (指導教員: 猿渡 洋 教授) (情報理工学系研究科 研究科長賞) (PDF, Slide)
  2. 齋藤 佑樹, "High-quality statistical parametric speech synthesis using generative adversarial networks," 修士論文, 東京大学大学院 情報理工学系研究科 創造情報学専攻, 2018年3月. (指導教員: 猿渡 洋 教授) (PDF, Slide)


競争的資金:

  1. Google-initiated Research Grant, 30,000 USドル, 2023年11月--2024年10月. (Representative: Yuki Saito)
  2. 国立研究開発法人科学技術振興機構 ACT-X, "インタラクティブ強化学習に基づく人間参加型適応的テキスト音声合成," 450万円, 2023年10月--2026年3月 (代表)
  3. Travel Grant Award for INTERSPEECH2023, 750ユーロ, 2023年8月.
  4. 立石科学技術振興財団 研究助成 (S), "スモールデータ機械学習に基づくリアルタイム音コミュニケーション能力拡張システム," 3,000万円, 2023年4月--2026年3月.(分担)
  5. 日本学術振興会 若手研究, "eスポーツ理解に向けた実況解説音声の分析及び音声合成アルゴリズムの開発," 360万円, 2022年4月--2025年3月.(代表)
  6. 立石科学技術振興財団 研究助成 (A), "連合学習に基づく多話者音声変換のユーザ参加型学習," 220万円, 2022年4月--2023年3月.(代表)
  7. 日本学術振興会 研究活動スタート支援, "Continual Learning に基づく持続的に学習可能な音声合成," 240万円, 2021年9月--2023年3月.(代表)
  8. 2021年度 キオクシア(旧東芝メモリ)奨励研究, 100万円, 2021年6月--2022年3月.(代表)
  9. 日本学術振興会 特別研究員奨励費, "聞き手モデルに基づく能動的音声合成に関する研究," 250万円, 2018年5月--2021年3月.(代表)
  10. 公益財団法人 NEC C&C 財団 平成30年度 前期国際会議論文発表者助成受給者, 25万円, 2018年4月.

受賞:

  1. Winners of The INTERSPEECH2024 Discrete Speech Challenge (TTS Track), 2024年9月.
  2. 情報処理学会 2024年度 山下記念研究賞, 2024年7月.
  3. 第40回 井上科学振興財団 井上研究奨励賞, 2024年2月.
  4. Travel Grant Award for INTERSPEECH2023, 2023年8月.
  5. 音学シンポジウム2023 優秀発表賞, 2023年6月.
  6. 第22回 船井情報科学振興財団 船井研究奨励賞, 2023年5月.
  7. 2021年度電子情報通信学会 論文賞, 2022年6月.
  8. 2021年度情報処理学会 音声言語情報処理研究会 企業賞 (Yahoo!Japan賞), 2022年3月.
  9. 2020 IEEE SPS Young Author Best Paper Award, 2021年6月.
  10. 2020年度 東京大学 大学院情報理工学系研究科 研究科長賞(システム情報学専攻・博士課程), 2021年3月.
  11. 日本音響学会 第49回粟屋 潔学術奨励賞, 2021年3月.
  12. 2018年度C&C若手優秀論文賞, 2019年1月.
  13. The 12th IEEE Signal Processing Society Japan Student Journal Paper Award, 2018年11月.
  14. 平成29年度音声研究会 研究奨励賞, 2018年8月.
  15. 日本学生支援機構 第一種奨学金 特に優れた業績による奨学金返還免除 (半額) 対象者, 2018年5月.
  16. 第34回 電気通信普及財団 テレコムシステム技術学生賞, 2018年3月.
  17. The 1st IEEE Signal Processing Society Tokyo Joint Chapter Student Award, 2017年11月.
  18. Spoken Language Processing Student Grant of ICASSP, 2017年3月.
  19. 日本音響学会 第14回学生優秀発表賞, 2017年3月.
  20. 2017年 SP研究会 学生ポスター賞, 2017年1月.
  21. 平成27年度 釧路高専専攻科 学生特別研究発表会 奨励賞, 2016年2月.
  22. 平成25年度 釧路高専 校長賞, 2014年3月.

共著者の受賞:

  1. YANSシンポジウム スポンサー賞 (株式会社IVRy賞), 2024年9月. (受賞者: 高野 大成)
  2. 日本音響学会 第28回学生優秀発表賞, 2024年9月. (受賞者: 山内 一輝)
  3. Shortlisted for the ISCA Best Student Paper Award 2024, 2024年8月. (受賞者: Dong Yang)
  4. 音学シンポジウム2024 優秀発表賞, 2024年6月. (受賞者:山内 一輝)
  5. 2024年 SP研究会 学生ポスター賞, 2024年3月. (受賞者:山内 一輝)
  6. 2023年度情報処理学会 音声言語情報処理研究会 企業賞 (Fairy Devices賞), 2024年3月. (受賞者:平井 龍之介)
  7. 日本音響学会 第27回学生優秀発表賞, 2024年3月. (受賞者: 渡邊 亞椰)
  8. Google Travel Grants for Students in East Asia, 2022年7月. (受賞者:西邑 勇人)
  9. 令和2年度 国立高等専門学校機構学生表彰, 2021年3月. (受賞者:藤井 一貴)
  10. 音学シンポジウム 学生ポスター賞, 2020年6月. (受賞者:藤井 一貴)
  11. フジサンケイビジネスアイ 先端技術大賞 特別賞, 2020年6月. (受賞者:藤井 一貴)
  12. 情報処理学会 山下記念研究賞, 2020年3月. (受賞者: 高道 慎之介)
  13. The 3rd IEEE Signal Processing Society Tokyo Joint Chapter Student Award, 2019年12月. (受賞者: 田丸 浩気)
  14. 日本音響学会 第18回学生優秀発表賞, 2019年3月. (受賞者: 溝口 聡)
  15. 音学シンポジウム優秀賞, 2018年6月. (受賞者: 高道 慎之介)

査読:

  1. Information Fusion 査読 (2024年より)
  2. Acoustical Science and Technology 査読 (2024年より)
  3. Computer Speech and Language 査読 (2023年より)
  4. Journal of Audio Engineering Society 査読 (2022年より)
  5. 電子情報通信学会 論文誌 査読 (2022年より)
  6. 情報処理学会 論文誌 査読 (2022年より)
  7. APSIPA Transactions on Signal and Information Processing 査読 (2021年より)
  8. EURASIP Journal on Audio Speech and Music Processing 査読 (2021年より)
  9. INTERSPEECH 査読 (2021年より)
  10. IEEE Access 査読 (2021年より)
  11. IEEE/ACM Transactions on Audio, Speech, and Language Processing 査読 (2020年より)
  12. IEEE MLSP 査読 (2019年より)
  13. IEEE Signal Processing Letter 査読 (2018年より)
  14. IEEE ICASSP 査読 (2018年より)

職歴:

  1. 東京大学 講師, 2024年4月1日--20xx年xx月xx日. (猿渡・齋藤研究室) (Lab. page)
  2. 東京大学 助教, 2023年4月1日--2024年3月31日. (猿渡・高道研究室) (Lab. page)
  3. 東京大学 特任助教 (JST ムーンショット型研究開発事業 "音響情報処理・音声変換の研究開発"), 2021年4月1日--2023年3月31日. (代表者: 猿渡 洋) (Project)
  4. 東京大学 技術補佐員 (総務省SCOPE "知覚モデルに基づくストレスフリーなリアルタイム広帯域音声変換の研究"), 2019年4月1日--2021年3月31日. (代表者: 高道 慎之介) (Project)
  5. 株式会社ディー・エヌ・エー (DeNA) AIシステム研究開発部 アルバイト, 2018年10月1日--2019年3月29日 & 2019年6月1日--2020年3月31日. (指導者: 橘 健太郎)
  6. 日本学術振興会 特別研究員 (DC1, "聞き手モデルに基づく能動的音声合成に関する研究"), 2018年4月1日--2021年3月31日. (代表者: 齋藤 佑樹) (KAKEN) (Project)
  7. NTT メディアインテリジェンス研究所 音声言語メディアプロジェクト インターン, 2017年8月30日--2017年10月31日. (指導者: 井島 勇祐)
  8. NTT コミュニケーション科学基礎研究所 メディア情報研究部 インターン, 2016年8月8-日-2016年9月9日. (指導者: 亀岡 弘和)

学会活動など:

  1. INTERSPEECH 座長 (2024年~)
  2. 日本音響学会 研究発表会 副座長 (2023年~)
  3. 電子情報通信学会 音声 (SP) 研究会 幹事補佐(2024年4月--2026年3月).
  4. 情報処理学会 音声言語情報処理 (SLP) 研究会 幹事(2024年4月--2026年3月).
  5. 日本音響学会 学生・若手フォーラム 幹事会員(2017年3月--現在)兼 副代表(2019年4月--2022年3月).

音声コーパス:

  1. 渡邊 亞椰, 高道 慎之介, 齋藤 佑樹, 辛 徳泰, 猿渡 洋, "Coco-Nut: 自由記述文による声質制御に向けた多話者音声・声質自由記述ペアデータセット," 2023年11月. (URL)
  2. 辛 徳泰, 江 俊鋒, 高道 慎之介, 齋藤 佑樹, 相澤 彰子, 猿渡 洋, "JVNV: 言語音声と非言語音声を持つ日本語感情音声コーパス," 2023年10月. (URL)
  3. 齋藤 佑樹, 飯森 英治, 高道 慎之介, 橘 健太郎, 猿渡 洋, "STUDIES 2 (CALLS) Corpus: Complaint handling and Attentive Listening Lines Speech," 2023年3月. (URL)
  4. 齋藤 佑樹, 高道 慎之介, 猿渡 洋, "SMASHコーパス: ゲーム動画の後づけ実況解説音声収録に基づく自発発話音声コーパス," 2022年6月. (URL)
  5. 齋藤 佑樹, 西邑 勇人, 高道 慎之介, 橘 健太郎, 猿渡 洋, "STUDIES Corpus: Japanese empathetic dialogue speech corpus," 2022年3月. (URL, arXiv preprint)
  6. 高道 慎之介, 三井 健太郎, 齋藤 佑樹, 郡山 知樹, 丹治 尚子, 猿渡 洋, "JVS corpus: free Japanese multi-speaker voice corpus," 2019年8月. (URL, arXiv preprint)

招待講演 / 訪問講演:

  1. Yuki Saito, "Towards human-in-the-loop DNN-based speech synthesis technologies," Seminar by IEEE NZ Signal Processing / Information Theory Joint Chapter and Acoustics Research Center, the University of Auckland, Dec. 2022.
  2. Yuki Saito, "Towards human-in-the-loop speech synthesis technologies," Seminar by IEEE Systems, Man and Cybernetics Singapore Chapter, Chinese and Oriental Languages Information Processing Society Teochew Doctorate Society, Singapore, and Human Language Technology Lab., National University of Singapore, Aug. 2022.

特許:

  1. 橘 健太郎, 齋藤 佑樹, 阿久澤 圭, “音声処理装置及び音声処理プログラム," 特許7360814, 2019年5月21日出願.
  2. 高道 慎之介, 齋藤 佑樹, 佐伯 高明, 猿渡 洋, “音声変換方法及び音声変換プログラム," 特許734942, 2019年8月19日出願.
  3. 高道 慎之介, 齋藤 佑樹, 佐伯 高明, 猿渡 洋, “音声変換装置、音声変換方法及び音声変換プログラム," PCT/JP2020/031122, 2020年8月18日出願.
  4. 高道 慎之介, 齋藤 佑樹, 佐伯 高明, 猿渡 洋, “音声変換装置、音声変換方法及び音声変換プログラム," 特許7421827, 2021年2月5日出願.


講義:

学歴:

その他: