音響モデル triphone 入力音声 音声分析 デコーダ 言語モデル N-gram bigram HMM の状態確率として利用 出力層 triphone: 3003 ノード リスコア trigram 隠れ層 2048 ノード X7 層 1 Structure of recognition syst

Size: px
Start display at page:

Download "音響モデル triphone 入力音声 音声分析 デコーダ 言語モデル N-gram bigram HMM の状態確率として利用 出力層 triphone: 3003 ノード リスコア trigram 隠れ層 2048 ノード X7 層 1 Structure of recognition syst"

Transcription

1 1,a) deep neural netowrk(dnn) (HMM) () GMM-HMM 2 3 (CSJ) 1. DNN [6]. GPGPU HMM DNN HMM () [7]. [8] [1][2][3] GMM-HMM Gaussian mixture HMM(GMM- HMM) MAP MLLR [4] [3] DNN 1 1 triphone bigram [5]. 2 trigram 1 Graduate School of Science and Engineering, Yamagata Uniersity a) tth18357@st.yamagata-u.ac.jp [3] 2. 2 c 2014 Information Processing Society of Japan 1

2 音響モデル triphone 入力音声 音声分析 デコーダ 言語モデル N-gram bigram HMM の状態確率として利用 出力層 triphone: 3003 ノード リスコア trigram 隠れ層 2048 ノード X7 層 1 Structure of recognition system 入力層 825ノード 11 (CSJ) 5 FBANK+Δ+ΔΔ 75 次元 X11フレーム = [3] HMM [10] GMM-HMM triphone 3003 DNN pre-training fine-tuning GMM-HMM 3 2 pre-training 1 Restricted Boltzmann Machine(RBM) pre-training [9]. (SGD) HMM( base) fine-tuning 3 DNN- GMM-HMM GMM- HMM HMM 3. MLLR (GMM-HMM adapt1) [7] HMM base adapt1 GMM-HMM base) base GMM-HMM GMM-HMMadapt1 [8] GMM-HMM 2 Structure of FBANK GMM-HMM (LM base adapt1 LMbase 3 1 c 2014 Information Processing Society of Japan 2

3 base GMM-HMM base 認識 音素系列変換 適応 GMM-HMM adapt1 認識 評価データ GMM-HMM GMM- HMM DNN 適応用 音素系列変換 (sil 候補挿入 ) ビタービアライメント GMM 適応用 評価データ 状態系列変換 音素 / 状態系列 LM base 適応 adapt1 認識 適応 LM adapt1 3 Procedure diagram of unsupervised adaptation trigram,. 3 P(w i c i ) 4 GMM-HMM. GMM-HMM,. P(c i c i 2 c i 1 ) = N 0(c i 2 c i 1 c i ) (1) N 0 (c i 2 c i 1 ) (sil) N 0 trigram P(w i w i 2 w i 1 ) trigram trigram GMM-HMM GMM-HMM 4 Procedure diagram of phoneme or state alignment 4. P (w i w i 2 w i 1 ) = λp(w i w i 2 w i 1 ) GMM-HMM +(1 λ)p(w i c i )P(c i c i 2 c i 1 ) (2) 1 trigram 2 tri- fine-tuning gram. λ. λ 0.7 DNN 5 trigram trigram, trigram [11]. 5. DNN DNN [5]. GMM-HMM GMM-HMM dropout[12] / 25ms/8ms 12 MFCC 1 2 [8] 39 CMN CSJ L L2 (ML) c 2014 Information Processing Society of Japan 3

4 適応データ 大量テキスト デコーダ 品詞からの単語出現確率 単語 trigram ( ベースライン ) 品詞出現回数 品詞連鎖確率 品詞 trigram 単語 trigram ( 適応モデル ) 5 Procedure diagram of language model adaptation 1 Conditions for DNN training pre-training 0.4 (1 0.01) 10 (1 20) ( WER (PMR:Phoneme mismatch (75 11 = 825 ) rate) 2 CSJ (203 ) 1 [13][14] 2 fine-tuning 1/10 WER 0.1% base (adapt1a) 2 47, epo ( 6.68M CSJ ) [8] 100 CSJ testset1 10 DNN Kaldi tool kit[13] base 2 GMM-HMM L2 (LMadapt1b) WER 14.73% GMM-HMM 0 (GMM-HMMadapt1) WER 14.53% L PMR WER of [%] WER of GMM-HMM [%] 6 Word error rate for each speaker ) GMM-HMM L (WER) 19.75% WER fine-tuning 15.12% (base) WER 6 0.1% WER 14.72% c 2014 Information Processing Society of Japan 4

5 base 15.12% 0.64% adapt1a 14.72%, epoch=100 GMM-HMM adapt1a 14.51% 2.18% LM adapt1b 14.73% 2.64% 2.95% 3.14% GMM-HMM adapt % 4.16% GMM-HMM adapt2c 14.53% adapt %, epoch=25 GMM-HMM adapt2d 14.04% LM adapt % GMM-HMMadapt % 7 Word accuracy using cross adaptation 2 Comparisons of substitution, insertion and deletion errors (%) Type of DNN- DNN- LMadapt1b GMMerrors HMMbase HMMadapt1a HMMadapt1 Sub Ins Del WER WER (%) GMM-HMM PMR 話者番号 8 Results of adaptation for each speaker PMR (0.64%) 2 3 DNN- HMMadapt1a GMM-HMMadapt1 GMM-HMMadapt1 GMM-HMM (GMM-HMMadapt2) 13.57% GMM-HMM LMadapt1b 13.08% GMM-HMMadapt1 GMM-HMM GMM-HMM LM (GMM-HMMadapt2c) GMM-HMM LM % (LMadapt1) 13.08% GMM-HMM LM c 2014 Information Processing Society of Japan 5

6 [11] [7] S. Stuker, et al.: Cross-system adaptation and combination for continuous speech recognition: The influence of phoneme set and acoustic front-end, Proc. of Inter- Speech2006, pp , (2006) [8],,, :, (2014). [9] A. Mohamed, G. Hinton and G. Penn: Understanding how deep belief networks perform acoustic modelling, Proc. of ICASSP2012, (2012). [10] T. Kosaka, T. Miyamoto and M. Kato: Unsupervised cross-adaptation approach for speech recognition WER (%) 9 Summary of recognition results by combined language model and acoustic model adaptation, Proc. of APSIPA ASC 2011, (2011)., 7. Vol.J89-D No.2, pp (2006). [12] G.E. Dahl, T.N. Sainath and G.E. Hinton: Improving deep neural networks for LVCSR using rectified linearunits and dropout, Proc. of ICASSP2013, (2013). [13] Kaldi project: The Kaldi speech recognition toolkit, html [14] K. Vesely, A. Ghoshal, L. Burget, and D. Povey: Sequence-discriminative training of deep neural networks, Proc. of Interspeech2013, (2013). GMM-HMM 2 3 (CSJ) GMM-HMM 3 [5] [1],, :,, pp (2012). [2],, : Deep Neural Network,, 2013-SLP-97(8), pp. 1 6 (2013). [3], : CSJ,, 2013-SLP-97(9), pp. 1 6 (2013). [4] Y. Xiao, et al.: A initial attempt on task-specific adaptation for deep neural network-based large vocabulary continuous speech recognition, Proc. of Interspeech2012, (2012). [5] H. Liao: Speaker adaptation of context dependent deep neural networks, Proc. of ICASSP2013, (2013). [6],, X. Lu,, :, (2014). c 2014 Information Processing Society of Japan 6

a) b) c) Speech Recognition of Short Time Utterance Based on Speaker Clustering Hiroshi SEKI a), Daisuke ENAMI, Faqiang ZHU, Kazumasa YAMAMOTO b), and

a) b) c) Speech Recognition of Short Time Utterance Based on Speaker Clustering Hiroshi SEKI a), Daisuke ENAMI, Faqiang ZHU, Kazumasa YAMAMOTO b), and a) b) c) Speech Recognition of Short Time Utterance Based on Speaker Clustering Hiroshi SEKI a), Daisuke ENAMI, Faqiang ZHU, Kazumasa YAMAMOTO b), and Seiichi NAKAGAWA c) 0.5 DNN (Deep Neural Network)

More information

IPSJ SIG Technical Report Vol.2015-SLP-107 No /7/16 1,a) Bottleneck Features for Emotional Speech Recognition Kohei Mukaihara 1,a) Sakri

IPSJ SIG Technical Report Vol.2015-SLP-107 No /7/16 1,a) Bottleneck Features for Emotional Speech Recognition Kohei Mukaihara 1,a) Sakri 1,a) 1 1 1 1 Bottleneck Features for Emotional Speech Recognition Kohei Mukaihara 1,a) Sakriani Sakti 1 Graham Neubig 1 Tomoki Toda 1 Satoshi Nakamura 1 Abstract: Automatic speech recognition (ASR) system

More information

Deep Neural Network () SPLICE (Stereo-based piecewise linear compensation for environments) DAE (Denoising AutoEncoder) Deep Learning DAE DAE DAE Web

Deep Neural Network () SPLICE (Stereo-based piecewise linear compensation for environments) DAE (Denoising AutoEncoder) Deep Learning DAE DAE DAE Web SIG-SLP 100 : Sangeeta Biswas Yuan Liang Department of Computer Science, Tokyo Institute of Technology NTT Department of Computer Science, Tokyo Institute of Technology 100 SLP SLP SLP SIG- SLP 100 24

More information

2 HMM HTK[2] 3 left-to-right HMM triphone MLLR 1 CSJ 10 1 : 3 1: GID AM/CSJ-APS/hmmdefs.gz

2 HMM HTK[2] 3 left-to-right HMM triphone MLLR 1 CSJ 10 1 : 3 1: GID AM/CSJ-APS/hmmdefs.gz Ver.1.0 2004/3/23 : : 1 1 2 2 2.1..................................... 3 2.2..................................... 5 2.3........................... 5 2.4.............................. 7 2.5............................

More information

HIGIS 3/プレゼンテーション資料/J_GrayA.ppt

HIGIS 3/プレゼンテーション資料/J_GrayA.ppt 電子情報通信学会シンポジウムセッションもっと知りたい! Deep Learning 基礎から活用まで 音声認識分野における ディープラーニングの基礎と最新動向 217/3/22 神田直之 ( 株 ) 日立製作所研究開発グループシステムイノベーションセンタメディア研究部 自己紹介 : 神田直之 26 年 4 月 ( 株 ) 日立製作所中央研究所入社 音声認識 大規模音声データからのキーワード検出の研究開発

More information

入力環境に依存 /a, i, u, e, o / X P(X/W) 入力音声 信号処理 探索 ( デコーダ ) P(W/X) P(W) P(X/W) P(W) 京都 ky o: t o 単語辞書 タスクドメインに依存 京都 + の + 天気 時間 1000 時間 100 時間 10 時間

入力環境に依存 /a, i, u, e, o / X P(X/W) 入力音声 信号処理 探索 ( デコーダ ) P(W/X) P(W) P(X/W) P(W) 京都 ky o: t o 単語辞書 タスクドメインに依存 京都 + の + 天気 時間 1000 時間 100 時間 10 時間 音声認識の方法論に関する考察 世代交代に向けて 1 河原達也 音声認識技術の歴史的変遷を概観し 今後の展望について述べる 特に 音声認識の統計モデルの方法論に関して 従来 常識 と考えられてきたことが徐々に変遷していることを説明する まず 学習コーパスを人手で編纂するという方法論は限界に達し 自然に超大規模に集積するビッグデータパラダイムが近年の実用システム成功の鍵であることを述べる 次に HMM

More information

IPSJ SIG Technical Report Vol.2019-MUS-123 No.23 Vol.2019-SLP-127 No /6/22 Bidirectional Gated Recurrent Units Singing Voice Synthesi

IPSJ SIG Technical Report Vol.2019-MUS-123 No.23 Vol.2019-SLP-127 No /6/22 Bidirectional Gated Recurrent Units Singing Voice Synthesi Bidirectional Gated Recurrent Units Singing Voice Synthesis Using Bidirectional Gated Recurrent Units. [] (HMM) [] [3], [4] Kobe University MEC Company Ltd. (Text to Speech: TTS) [5].. 3Hz Hz c 9 Information

More information

<30323334333697A796BD8AD991E58A77976C2D8CBE8CEA837083938374838C83628367945B956983665B835E2E706466>

<30323334333697A796BD8AD991E58A77976C2D8CBE8CEA837083938374838C83628367945B956983665B835E2E706466> 2Graduate School of Language Education and Information Science (LEIS) 3 4Graduate School of Language Education and Information Science (LEIS) 5 6Graduate School of Language Education and Information Science

More information

1 7.35% 74.0% linefeed point c 200 Information Processing Society of Japan

1 7.35% 74.0% linefeed point c 200 Information Processing Society of Japan 1 2 3 Incremental Linefeed Insertion into Lecture Transcription for Automatic Captioning Masaki Murata, 1 Tomohiro Ohno 2 and Shigeki Matsubara 3 The development of a captioning system that supports the

More information

11 22 33 12 23 1 2 3, 1 2, U2 3 U 1 U b 1 (o t ) b 2 (o t ) b 3 (o t ), 3 b (o t ) MULTI-SPEAKER SPEECH DATABASE Training Speech Analysis Mel-Cepstrum, logf0 /context1/ /context2/... Context Dependent

More information

IPSJ SIG Technical Report Vol.2013-SLP-98 No /10/25 1,a) 1 ( Q&A ) ( ) YJVOICE Development of speech recognition and natural language processing

IPSJ SIG Technical Report Vol.2013-SLP-98 No /10/25 1,a) 1 ( Q&A ) ( ) YJVOICE Development of speech recognition and natural language processing 1,a) 1 ( Q&A ) ( ) YJVOICE Development of speech recognition and natural language processing for ONSEI Assist service Abstract: ONSEI Assist is a voice dialog application for mobile devices that enables

More information

Convolutional Neural Network A Graduation Thesis of College of Engineering, Chubu University Investigation of feature extraction by Convolution

Convolutional Neural Network A Graduation Thesis of College of Engineering, Chubu University Investigation of feature extraction by Convolution Convolutional Neural Network 2014 3 A Graduation Thesis of College of Engineering, Chubu University Investigation of feature extraction by Convolutional Neural Network Fukui Hiroshi 1940 1980 [1] 90 3

More information

ホットスポット 1 音リアクションイベント BIC GMM 2 3 BIC GMM HMM 10) SVM 11) 12) 13) Bayesian Information Criterion BIC 14) BIC M = M 1, M 2,,

ホットスポット 1 音リアクションイベント BIC GMM 2 3 BIC GMM HMM 10) SVM 11) 12) 13) Bayesian Information Criterion BIC 14) BIC M = M 1, M 2,, 1 1 2 2 BIC GMM Acoustic Event Detection for Finding Hot Spots in Podcasts Kouhei Sumi, 1 Tatsuya Kawahara, 1 Jun Ogata 2 and Masataka Goto 2 This paper presents a method to detect acoustic events that

More information

IPSJ SIG Technical Report Vol.2010-NL-199 No /11/ treebank ( ) KWIC /MeCab / Morphological and Dependency Structure Annotated Corp

IPSJ SIG Technical Report Vol.2010-NL-199 No /11/ treebank ( ) KWIC /MeCab / Morphological and Dependency Structure Annotated Corp 1. 1 1 1 2 treebank ( ) KWIC /MeCab / Morphological and Dependency Structure Annotated Corpus Management Tool: ChaKi Yuji Matsumoto, 1 Masayuki Asahara, 1 Masakazu Iwatate 1 and Toshio Morita 2 This paper

More information

概要 単語の分散表現に基づく統計的機械翻訳の素性を提案 既存手法の FFNNLM に CNN と Gate を追加 dependency- to- string デコーダにおいて既存手法を上回る翻訳精度を達成

概要 単語の分散表現に基づく統計的機械翻訳の素性を提案 既存手法の FFNNLM に CNN と Gate を追加 dependency- to- string デコーダにおいて既存手法を上回る翻訳精度を達成 Encoding Source Language with Convolu5onal Neural Network for Machine Transla5on Fandong Meng, Zhengdong Lu, Mingxuan Wang, Hang Li, Wenbin Jiang, Qun Liu, ACL- IJCNLP 2015 すずかけ読み会奥村 高村研究室博士二年上垣外英剛 概要

More information

THE INSTITUTE OF ELECTRONICS, TECHNICAL REPORT OF IEICE. INFORMATION AND COMMUNICATION ENGINEERS

THE INSTITUTE OF ELECTRONICS, TECHNICAL REPORT OF IEICE. INFORMATION AND COMMUNICATION ENGINEERS Title とメルケプストラムを用いた音響モデルに基づく騒音環境下叫び声検出の性能評価 Author(s) 福森, 隆寛 ; 中山, 雅人 ; 西浦, 敬信 ; 南條, 浩輝 Citation 電子情報通信学会技術研究報告 = IEICE technical re 信学技報 (217), 116(477): 283-286 Issue Date 217-3 URL http://hdl.handle.net/2433/228957

More information

IPSJ SIG Technical Report Vol.2016-SLP-110 No /2/6 Kaldi CSJ 1,a) Kaldi (DNN) Kaldi (CSJ) CSJ DNN Kaldi CSJ CSJ recipe for Kaldi Shinozaki

IPSJ SIG Technical Report Vol.2016-SLP-110 No /2/6 Kaldi CSJ 1,a) Kaldi (DNN) Kaldi (CSJ) CSJ DNN Kaldi CSJ CSJ recipe for Kaldi Shinozaki Kaldi CSJ 1,a) 1 1 2 Kaldi (DNN) Kaldi (CSJ) CSJ DNN Kaldi CSJ CSJ recipe for Kaldi Shinozaki Takahiro 1,a) Moriya Takafumi 1 Tanaka Tomohiro 1 Watanabe Shinji 2 1. Kaldi *1 [1]. C++ Kaldi openfst. (CSJ)

More information

IPSJ SIG Technical Report Vol.2012-HCI-149 No /7/20 1 1,2 1 (HMD: Head Mounted Display) HMD HMD,,,, An Information Presentation Method for Weara

IPSJ SIG Technical Report Vol.2012-HCI-149 No /7/20 1 1,2 1 (HMD: Head Mounted Display) HMD HMD,,,, An Information Presentation Method for Weara 1 1,2 1 (: Head Mounted Display),,,, An Information Presentation Method for Wearable Displays Considering Surrounding Conditions in Wearable Computing Environments Masayuki Nakao 1 Tsutomu Terada 1,2 Masahiko

More information

IPSJ SIG Technical Report Vol.2009-DPS-141 No.23 Vol.2009-GN-73 No.23 Vol.2009-EIP-46 No /11/27 t-room t-room 2 Development of

IPSJ SIG Technical Report Vol.2009-DPS-141 No.23 Vol.2009-GN-73 No.23 Vol.2009-EIP-46 No /11/27 t-room t-room 2 Development of t-room 1 2 2 2 2 1 1 2 t-room 2 Development of Assistant System for Ensemble in t-room Yosuke Irie, 1 Shigemi Aoyagi, 2 Toshihiro Takada, 2 Keiji Hirata, 2 Katsuhiko Kaji, 2 Shigeru Katagiri 1 and Miho

More information

Vol. 43 No. 7 July 2002 ATR-MATRIX,,, ATR ITL ATR-MATRIX ATR-MATRIX 90% ATR-MATRIX Development and Evaluation of ATR-MATRIX Speech Translation System

Vol. 43 No. 7 July 2002 ATR-MATRIX,,, ATR ITL ATR-MATRIX ATR-MATRIX 90% ATR-MATRIX Development and Evaluation of ATR-MATRIX Speech Translation System Vol. 43 No. 7 July 2002 ATR-MATRIX,,, ATR ITL ATR-MATRIX ATR-MATRIX 90% ATR-MATRIX Development and Evaluation of ATR-MATRIX Speech Translation System Fumiaki Sugaya,,, Toshiyuki Takezawa, Eiichiro Sumita,

More information

1 Fig. 1 Extraction of motion,.,,, 4,,, 3., 1, 2. 2.,. CHLAC,. 2.1,. (256 ).,., CHLAC. CHLAC, HLAC. 2.3 (HLAC ) r,.,. HLAC. N. 2 HLAC Fig. 2

1 Fig. 1 Extraction of motion,.,,, 4,,, 3., 1, 2. 2.,. CHLAC,. 2.1,. (256 ).,., CHLAC. CHLAC, HLAC. 2.3 (HLAC ) r,.,. HLAC. N. 2 HLAC Fig. 2 CHLAC 1 2 3 3,. (CHLAC), 1).,.,, CHLAC,.,. Suspicious Behavior Detection based on CHLAC Method Hideaki Imanishi, 1 Toyohiro Hayashi, 2 Shuichi Enokida 3 and Toshiaki Ejima 3 We have proposed a method for

More information

(i) 1 (ii) ,, 第 5 回音声ドキュメント処理ワークショップ講演論文集 (2011 年 3 月 7 日 ) 1) 1 2) Lamel 2) Roy 3) 4) w 1 w 2 w n 2 2-g

(i) 1 (ii) ,, 第 5 回音声ドキュメント処理ワークショップ講演論文集 (2011 年 3 月 7 日 ) 1) 1  2) Lamel 2) Roy 3) 4) w 1 w 2 w n 2 2-g 1 2 1 closed Automatic Detection of Edited Parts in Inexact Transcribed Corpora Using Alignment between Edited Transcription and Corresponding Utterance Kengo Ohta, 1 Masatoshi Tsuchiya 2 and Seiichi Nakagawa

More information

2. CABAC CABAC CABAC 1 1 CABAC Figure 1 Overview of CABAC 2 DCT 2 0/ /1 CABAC [3] 3. 2 値化部 コンテキスト計算部 2 値算術符号化部 CABAC CABAC

2. CABAC CABAC CABAC 1 1 CABAC Figure 1 Overview of CABAC 2 DCT 2 0/ /1 CABAC [3] 3. 2 値化部 コンテキスト計算部 2 値算術符号化部 CABAC CABAC H.264 CABAC 1 1 1 1 1 2, CABAC(Context-based Adaptive Binary Arithmetic Coding) H.264, CABAC, A Parallelization Technology of H.264 CABAC For Real Time Encoder of Moving Picture YUSUKE YATABE 1 HIRONORI

More information

力 出力 ÝÒ 源分離 f å 2 š ž 伸縮率 f g å ² f œå 1 ( F0) audio-to-audio 3 2 RNMF [2] DTW audio-to-audio [3] [4] MIDI 2.2 [5 10] Dannenberg [5] Verc

力 出力 ÝÒ 源分離 f å 2 š ž 伸縮率 f g å ² f œå 1 ( F0) audio-to-audio 3 2 RNMF [2] DTW audio-to-audio [3] [4] MIDI 2.2 [5 10] Dannenberg [5] Verc 1,a) 1,b) 1,c) 1,d) 2,e) (MIDI ) audio-to-audio (RNMF) (DTW) DTW 1., (MIDI ) MIDI CD 2 1 1 MIDI CGM (Consumer Generated Music) Web Songrium [1] 2007 7 120 Web 1 2 / AIP a) wada@sap.ist.i.kyoto-u.ac.jp

More information

WHITE PAPER RNN

WHITE PAPER RNN WHITE PAPER RNN ii 1... 1 2 RNN?... 1 2.1 ARIMA... 1 2.2... 2 2.3 RNN Recurrent Neural Network... 3 3 RNN... 5 3.1 RNN... 6 3.2 RNN... 6 3.3 RNN... 7 4 SAS Viya RNN... 8 4.1... 9 4.2... 11 4.3... 15 5...

More information

自然言語処理24_705

自然言語処理24_705 nwjc2vec: word2vec nwjc2vec nwjc2vec nwjc2vec 2 nwjc2vec 7 nwjc2vec word2vec nwjc2vec: Word Embedding Data Constructed from NINJAL Web Japanese Corpus Hiroyuki Shinnou, Masayuki Asahara, Kanako Komiya

More information

2008 : 80725872 1 2 2 3 2.1.......................................... 3 2.2....................................... 3 2.3......................................... 4 2.4 ()..................................

More information

* a) A Medical Record Creation Support System Using a Voice Memo Recorded by a Mobile Device Hiromitsu NISHIZAKI a), Keisuke KURUMIZAWA, Kanae NISHIZA

* a) A Medical Record Creation Support System Using a Voice Memo Recorded by a Mobile Device Hiromitsu NISHIZAKI a), Keisuke KURUMIZAWA, Kanae NISHIZA * a) A Medical Record Creation Support System Using a Voice Memo Recorded by a Mobile Device Hiromitsu NISHIZAKI a), Keisuke KURUMIZAWA, Kanae NISHIZAKI, and Hitoshi IKEGAMI 1. [1] [2] 2013 32.4% 21.7%

More information

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE.

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE. THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE. E-mail: {ytamura,takai,tkato,tm}@vision.kuee.kyoto-u.ac.jp Abstract Current Wave Pattern Analysis for Anomaly

More information

IPSJ-SLP

IPSJ-SLP F0 MFCC 1 2 3 1 1 1 1 MFCCF0 1 86.7% 90.2% A System for Automatic Discrimination between Singing and Speaking Voices on the Basis of Peak Interval of Spectral Change, F0, and MFCC Shimpei Aso, 1 Takeshi

More information

10_08.dvi

10_08.dvi 476 67 10 2011 pp. 476 481 * 43.72.+q 1. MOS Mean Opinion Score ITU-T P.835 [1] [2] [3] Subjective and objective quality evaluation of noisereduced speech. Takeshi Yamada, Shoji Makino and Nobuhiko Kitawaki

More information

a) Extraction of Similarities and Differences in Human Behavior Using Singular Value Decomposition Kenichi MISHIMA, Sayaka KANATA, Hiroaki NAKANISHI a

a) Extraction of Similarities and Differences in Human Behavior Using Singular Value Decomposition Kenichi MISHIMA, Sayaka KANATA, Hiroaki NAKANISHI a a) Extraction of Similarities and Differences in Human Behavior Using Singular Value Decomposition Kenichi MISHIMA, Sayaka KANATA, Hiroaki NAKANISHI a), Tetsuo SAWARAGI, and Yukio HORIGUCHI 1. Johansson

More information

Microsoft Word - toyoshima-deim2011.doc

Microsoft Word - toyoshima-deim2011.doc DEIM Forum 2011 E9-4 252-0882 5322 252-0882 5322 E-mail: t09651yt, sashiori, kiyoki @sfc.keio.ac.jp CBIR A Meaning Recognition System for Sign-Logo by Color-Shape-Based Similarity Computations for Images

More information

第 1 回バイオメトリクス研究会 ( 早稲田大学 ) THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS Proceedings of Biometrics Workshop,169

第 1 回バイオメトリクス研究会 ( 早稲田大学 ) THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS Proceedings of Biometrics Workshop,169 THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS Proceedings of Biometrics Workshop,169-8555 3-4-1,169-8555 3-4-1 E-mail: s hayashi@kom.comm.waseda.ac.jp, ohki@suou.waseda.jp Wolf

More information

IPSJ SIG Technical Report Vol.2009-BIO-17 No /5/26 DNA 1 1 DNA DNA DNA DNA Correcting read errors on DNA sequences determined by Pyrosequencing

IPSJ SIG Technical Report Vol.2009-BIO-17 No /5/26 DNA 1 1 DNA DNA DNA DNA Correcting read errors on DNA sequences determined by Pyrosequencing DNA 1 1 DNA DNA DNA DNA Correcting read errors on DNA sequences determined by Pyrosequencing Youhei Namiki 1 and Yutaka Akiyama 1 Pyrosequencing, one of the DNA sequencing technologies, allows us to determine

More information

2

2 NTT 2012 NTT Corporation. All rights reserved. 2 3 4 5 Noisy Channel f : (source), e : (target) ê = argmax e p(e f) = argmax e p(f e)p(e) 6 p( f e) (Brown+ 1990) f1 f2 f3 f4 f5 f6 f7 He is a high school

More information

_314I01BM浅谷2.indd

_314I01BM浅谷2.indd 587 ネットワークの表現学習 1 1 1 1 Deep Learning [1] Google [2] Deep Learning [3] [4] 2014 Deepwalk [5] 1 2 [6] [7] [8] 1 2 1 word2vec[9] word2vec 1 http://www.ai-gakkai.or.jp/my-bookmark_vol31-no4 588 31 4 2016

More information

言語モデルの基礎 2

言語モデルの基礎 2 自然言語処理プログラミング勉強会 1 1-gram 言語モデル Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1 言語モデルの基礎 2 言語モデル 英語の音声認識を行いたい時に どれが正解 英語音声 W1 = speech recognition system W2 = speech cognition system W3 = speck podcast histamine

More information

xx/xx Vol. Jxx A No. xx 1 Fig. 1 PAL(Panoramic Annular Lens) PAL(Panoramic Annular Lens) PAL (2) PAL PAL 2 PAL 3 2 PAL 1 PAL 3 PAL PAL 2. 1 PAL

xx/xx Vol. Jxx A No. xx 1 Fig. 1 PAL(Panoramic Annular Lens) PAL(Panoramic Annular Lens) PAL (2) PAL PAL 2 PAL 3 2 PAL 1 PAL 3 PAL PAL 2. 1 PAL PAL On the Precision of 3D Measurement by Stereo PAL Images Hiroyuki HASE,HirofumiKAWAI,FrankEKPAR, Masaaki YONEDA,andJien KATO PAL 3 PAL Panoramic Annular Lens 1985 Greguss PAL 1 PAL PAL 2 3 2 PAL DP

More information

2017 (413812)

2017 (413812) 2017 (413812) Deep Learning ( NN) 2012 Google ASIC(Application Specific Integrated Circuit: IC) 10 ASIC Deep Learning TPU(Tensor Processing Unit) NN 12 20 30 Abstract Multi-layered neural network(nn) has

More information

トピックモデルの応用: 関係データ、ネットワークデータ

トピックモデルの応用: 関係データ、ネットワークデータ NTT コミュニケーション科学基礎研究所 石黒勝彦 2013/01/15-16 統計数理研究所会議室 1 1 画像認識系から尐し遅れますが 最近では音声 音響データに対してもトピックモデルが利用されるようになっています 2 1. どの特徴量を利用するか? 2. 時系列性をどう扱うか? 3 どの特徴量を利用して どうやって BoW 形式に変換するかを検討する必要があります MFCC: 音声認識などで広い範囲で利用される

More information

DEIM Forum 2012 E Web Extracting Modification of Objec

DEIM Forum 2012 E Web Extracting Modification of Objec DEIM Forum 2012 E4-2 670 0092 1 1 12 E-mail: nd11g028@stshse.u-hyogo.ac.jp, {dkitayama,sumiya}@shse.u-hyogo.ac.jp Web Extracting Modification of Objects for Supporting Map Browsing Junki MATSUO, Daisuke

More information

Haiku Generation Based on Motif Images Using Deep Learning Koki Yoneda 1 Soichiro Yokoyama 2 Tomohisa Yamashita 2 Hidenori Kawamura Scho

Haiku Generation Based on Motif Images Using Deep Learning Koki Yoneda 1 Soichiro Yokoyama 2 Tomohisa Yamashita 2 Hidenori Kawamura Scho Haiku Generation Based on Motif Images Using Deep Learning 1 2 2 2 Koki Yoneda 1 Soichiro Yokoyama 2 Tomohisa Yamashita 2 Hidenori Kawamura 2 1 1 School of Engineering Hokkaido University 2 2 Graduate

More information

OSS

OSS 1 2 3 http://voicelabs.co 4 5 6 7 次 は 新金岡 新金岡 です 名詞 助詞 固有名詞 固有名詞 助動詞 ツギ ワ シンカナオカ シンカナオカ デス * * * ツギ ワ シンカナオカ シンカナオカ デス * * * DNN 1 1 1 1 1 2 1 2 3 1 2 4 1 2 6 T frames 8 9 この部分を見てみる 10 11 12 13 Synthesis

More information

NLP プログラミング勉強会 5 HMM による品詞推定 自然言語処理プログラミング勉強会 5 隠れマルコフモデルによる品詞推定 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

NLP プログラミング勉強会 5 HMM による品詞推定 自然言語処理プログラミング勉強会 5 隠れマルコフモデルによる品詞推定 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1 自然言語処理プログラミング勉強会 5 隠れマルコフモデルによる品詞推定 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1 品詞推定 文 X が与えられた時の品詞列 Y を予測する Natural language processing ( NLP ) is a field of computer science JJ -LRB- -RRB- VBZ DT IN 予測をどうやって行うか

More information

IPSJ SIG Technical Report Vol.2012-MUS-94 No.3 Vol.2012-SLP-90 No /2/ DTM 200 GUIN-Resonator: A system synthesizing voice with the styl

IPSJ SIG Technical Report Vol.2012-MUS-94 No.3 Vol.2012-SLP-90 No /2/ DTM 200 GUIN-Resonator: A system synthesizing voice with the styl 1 1 2 1 DTM 200 GUIN-Resonator: A system synthesizing voice with the style of Amami folk songs Daisuke Suguru, 1 Takashi Baba, 1 Masanori Morise 2 and Haruhiro Katayose 1 The recent spread of Karaoke and

More information

SICE東北支部研究集会資料(2017年)

SICE東北支部研究集会資料(2017年) 307 (2017.2.27) 307-8 Deep Convolutional Neural Network X Detecting Masses in Mammograms Based on Transfer Learning of A Deep Convolutional Neural Network Shintaro Suzuki, Xiaoyong Zhang, Noriyasu Homma,

More information

経済論集 44‐1(よこ)/2.李

経済論集 44‐1(よこ)/2.李 PC PC IT PC IT ! 1 The Archimedes Project 2 1992 TAS Total Access System 3 itaskintelligent Total Access System 4 Ho alauna 5 1 PC IT IT Archimedes at StanfordTASTotal Access System itaskintelligent Total

More information

MDD PBL ET 9) 2) ET ET 2.2 2), 1 2 5) MDD PBL PBL MDD MDD MDD 10) MDD Executable UML 11) Executable UML MDD Executable UML

MDD PBL ET 9) 2) ET ET 2.2 2), 1 2 5) MDD PBL PBL MDD MDD MDD 10) MDD Executable UML 11) Executable UML MDD Executable UML PBL 1 2 3 4 (MDD) PBL Project Based Learning MDD PBL PBL PBL MDD PBL A Software Development PBL for Beginners using Project Facilitation Tools Seiko Akayama, 1 Shin Kuboaki, 2 Kenji Hisazumi 3 and Takao

More information

paper.dvi

paper.dvi 59 6 2003 pp. 1 11 1 43.72.Kb * 1 2 3 1. 2 2 1 1 1 [1] Person Recognition for News Videos through Multimodal Interaction, by Masakiyo Fujimoto, Yasuo Ariki and Shuji Doshita. 1 ATR 2 3 masakiyo.fujimoto@atr.jp

More information

2. Deep Neural Network に基づく発話トピック分類器の構築 2.1 Deep Neural Network (DNN) DNN とは, 機械学習に使用されるニューラルネットワークのうち, とくに層の数が多いものを指す. ニューラルネットワークは, 層の数を多くすることにより, 複

2. Deep Neural Network に基づく発話トピック分類器の構築 2.1 Deep Neural Network (DNN) DNN とは, 機械学習に使用されるニューラルネットワークのうち, とくに層の数が多いものを指す. ニューラルネットワークは, 層の数を多くすることにより, 複 音声対話での利用を目的とした Deep Neural Network によるユーザ発話のトピック分類方法の検討 1, a) 本間健 1 神田直之 ユーザの自由な言い回しを許容する音声対話システムにおいて, ユーザ発話が属する話題を分類する技術 ( トピック分類技術 ) は, 基本技術の 1 つである. 本研究では, 近年注目されている Deep Neural Network(DNN) をトピック分類に適用し,

More information

IPSJ SIG Technical Report Vol.2014-CE-126 No /10/11 1,a) Kinect Support System for Romaji Learning through Exercise Abstract: Educatio

IPSJ SIG Technical Report Vol.2014-CE-126 No /10/11 1,a) Kinect Support System for Romaji Learning through Exercise Abstract: Educatio 1,a) 1 1 1 1 2 Kinect Support System for Romaji Learning through Exercise Abstract: Education with information devices has been increasing over the years. We propose support system for Romaji learning

More information

3 3) 6) 1) MPEG-7 2) MPEG-7 (A) (B) 2 9) Zils 10) (1) (2) 2.1 2

3 3) 6) 1) MPEG-7 2) MPEG-7 (A) (B) 2 9) Zils 10) (1) (2) 2.1 2 yoshii@kuis.kyoto-u.ac.jp m.goto@aist.go.jp okuno@i.kyoto-u.ac.jp 48% 82% Identification of Hihat Cymbals for Musical Audio Signals Using the Single Template Adaptation Method KAZUYOSHI YOSHII,MASATAKA

More information

IPSJ SIG Technical Report Vol.2012-IS-119 No /3/ Web A Multi-story e-picture Book with the Degree-of-interest Extraction Function

IPSJ SIG Technical Report Vol.2012-IS-119 No /3/ Web A Multi-story e-picture Book with the Degree-of-interest Extraction Function 1 2 2 3 4 2 Web A Multi-story e-picture Book with the Degree-of-interest Extraction Function Kunimichi Shibata, 1 Masakuni Moriyama, 2 Kazuhide Yukawa, 2 Koji Ueno, 3 Kazuo Takahashi 4 and Shigeo Kaneda

More information

x i 2 x x i i 1 i xi+ 1xi+ 2x i+ 3 健康児に本剤を接種し ( 窓幅 3 n-gram 長の上限 3 の場合 ) 文字 ( 種 )1-gram: -3/ 児 (K) -2/ に (H) -1/ 本 (K) 1/ 剤 (K) 2/ を (H) 3/ 接 (K) 文字 (

x i 2 x x i i 1 i xi+ 1xi+ 2x i+ 3 健康児に本剤を接種し ( 窓幅 3 n-gram 長の上限 3 の場合 ) 文字 ( 種 )1-gram: -3/ 児 (K) -2/ に (H) -1/ 本 (K) 1/ 剤 (K) 2/ を (H) 3/ 接 (K) 文字 ( 1. 2 1 NEUBIG Graham 1 1 1 Improving Part-of-Speech Tagging by Combining Pointwise and Sequence-based Predictors Yosuke NAKATA, 1 Graham NEUBIG, 1 Shinsuke MORI 1 and Tatsuya KAWAHARA 1 This paper proposes

More information

スライド 1

スライド 1 CNN を用いた弱教師学習による画像領域分割 下田和, 柳井啓司 電気通信大学 大学院情報理工学 研究科 総合情報学専攻 c 2015 UEC Tokyo. Convolutional Neural Network CNN クラス分類タスクにおいてトップの精度 CNN の応用 ( 物体位置の認識 ) 物体検出 物体に BB を付与 領域分割 ピクセル単位の認識 CNN を用いた領域分割 CNN による完全教師ありのセグメンテーション

More information

ID 3) 9 4) 5) ID 2 ID 2 ID 2 Bluetooth ID 2 SRCid1 DSTid2 2 id1 id2 ID SRC DST SRC 2 2 ID 2 2 QR 6) 8) 6) QR QR QR QR

ID 3) 9 4) 5) ID 2 ID 2 ID 2 Bluetooth ID 2 SRCid1 DSTid2 2 id1 id2 ID SRC DST SRC 2 2 ID 2 2 QR 6) 8) 6) QR QR QR QR Vol. 51 No. 11 2081 2088 (Nov. 2010) 2 1 1 1 which appended specific characters to the information such as identification to avoid parity check errors, before QR Code encoding with the structured append

More information

& Vol.5 No (Oct. 2015) TV 1,2,a) , Augmented TV TV AR Augmented Reality 3DCG TV Estimation of TV Screen Position and Ro

& Vol.5 No (Oct. 2015) TV 1,2,a) , Augmented TV TV AR Augmented Reality 3DCG TV Estimation of TV Screen Position and Ro TV 1,2,a) 1 2 2015 1 26, 2015 5 21 Augmented TV TV AR Augmented Reality 3DCG TV Estimation of TV Screen Position and Rotation Using Mobile Device Hiroyuki Kawakita 1,2,a) Toshio Nakagawa 1 Makoto Sato

More information

¥ì¥·¥Ô¤Î¸À¸ì½èÍý¤Î¸½¾õ

¥ì¥·¥Ô¤Î¸À¸ì½èÍý¤Î¸½¾õ 2013 8 18 Table of Contents = + 1. 2. 3. 4. 5. etc. 1. ( + + ( )) 2. :,,,,,, (MUC 1 ) 3. 4. (subj: person, i-obj: org. ) 1 Message Understanding Conference ( ) UGC 2 ( ) : : 2 User-Generated Content [

More information

Vol. 42 No. SIG 8(TOD 10) July HTML 100 Development of Authoring and Delivery System for Synchronized Contents and Experiment on High Spe

Vol. 42 No. SIG 8(TOD 10) July HTML 100 Development of Authoring and Delivery System for Synchronized Contents and Experiment on High Spe Vol. 42 No. SIG 8(TOD 10) July 2001 1 2 3 4 HTML 100 Development of Authoring and Delivery System for Synchronized Contents and Experiment on High Speed Networks Yutaka Kidawara, 1 Tomoaki Kawaguchi, 2

More information

TCP/IP IEEE Bluetooth LAN TCP TCP BEC FEC M T M R M T 2. 2 [5] AODV [4]DSR [3] 1 MS 100m 5 /100m 2 MD 2 c 2009 Information Processing Society of

TCP/IP IEEE Bluetooth LAN TCP TCP BEC FEC M T M R M T 2. 2 [5] AODV [4]DSR [3] 1 MS 100m 5 /100m 2 MD 2 c 2009 Information Processing Society of IEEE802.11 [1]Bluetooth [2] 1 1 (1) [6] Ack (Ack) BEC FEC (BEC) BEC FEC 100 20 BEC FEC 6.19% 14.1% High Throughput and Highly Reliable Transmission in MANET Masaaki Kosugi 1 and Hiroaki Higaki 1 1. LAN

More information

IPSJ SIG Technical Report Vol.2013-GN-86 No.35 Vol.2013-CDS-6 No /1/17 1,a) 2,b) (1) (2) (3) Development of Mobile Multilingual Medical

IPSJ SIG Technical Report Vol.2013-GN-86 No.35 Vol.2013-CDS-6 No /1/17 1,a) 2,b) (1) (2) (3) Development of Mobile Multilingual Medical 1,a) 2,b) 3 24 3 (1) (2) (3) Development of Mobile Multilingual Medical Communication Support System and Its Introduction for Medical Field Shun Ozaki 1,a) Takashi Yoshino 2,b) Aguri Shigeno 3 Abstract:

More information

Vol. 48 No. 4 Apr LAN TCP/IP LAN TCP/IP 1 PC TCP/IP 1 PC User-mode Linux 12 Development of a System to Visualize Computer Network Behavior for L

Vol. 48 No. 4 Apr LAN TCP/IP LAN TCP/IP 1 PC TCP/IP 1 PC User-mode Linux 12 Development of a System to Visualize Computer Network Behavior for L Vol. 48 No. 4 Apr. 2007 LAN TCP/IP LAN TCP/IP 1 PC TCP/IP 1 PC User-mode Linux 12 Development of a System to Visualize Computer Network Behavior for Learning to Associate LAN Construction Skills with TCP/IP

More information

Deep Learning によるビッグデータ解析 ~ 手法や CUDA による高速化 2014 年 9 月 5 日 G-DEP ソリューションパートナー株式会社システム計画研究所奥村義和

Deep Learning によるビッグデータ解析 ~ 手法や CUDA による高速化 2014 年 9 月 5 日 G-DEP ソリューションパートナー株式会社システム計画研究所奥村義和 Deep Learning によるビッグデータ解析 ~ 手法や CUDA による高速化 2014 年 9 月 5 日 G-DEP ソリューションパートナー株式会社システム計画研究所奥村義和 目次 DeepLearning と GPU G-DEP テストドライブ ビッグデータ GPU DeepLearning の接点 目次 DeepLearningとGPU DeepLearningとは 仕組みと計算

More information

IPSJ SIG Technical Report Vol.2010-GN-74 No /1/ , 3 Disaster Training Supporting System Based on Electronic Triage HIROAKI KOJIMA, 1 KU

IPSJ SIG Technical Report Vol.2010-GN-74 No /1/ , 3 Disaster Training Supporting System Based on Electronic Triage HIROAKI KOJIMA, 1 KU 1 2 2 1, 3 Disaster Training Supporting System Based on Electronic Triage HIROAKI KOJIMA, 1 KUNIAKI SUSEKI, 2 KENTARO NAGAHASHI 2 and KEN-ICHI OKADA 1, 3 When there are a lot of injured people at a large-scale

More information

Microsoft PowerPoint - …Z…O…†…fi…g…‡…f…‰‡É‡æ‡é™ñ‘oflÅ

Microsoft PowerPoint - …Z…O…†…fi…g…‡…f…‰‡É‡æ‡é™ñ‘oflÅ セグメントモデルによる音声認識 NTTコミュニケーション科学基礎研究所南泰浩 セグメントモデルとは? HMM の欠点 継続時間モデルが導入されていない 状態内の観測系列の時間依存性を反映できない 改良 セグメントモデル HMM とセグメントモデルの違い y t y 1 y 2 y 3 y T P s (y t ) P a,t (y 1,y 2,y 3 y T ) s HMM a P(T a) セグメントモデル

More information

IPSJ SIG Technical Report Vol.2012-MUS-96 No /8/10 MIDI Modeling Performance Indeterminacies for Polyphonic Midi Score Following and

IPSJ SIG Technical Report Vol.2012-MUS-96 No /8/10 MIDI Modeling Performance Indeterminacies for Polyphonic Midi Score Following and MIDI 1 2 3 2 1 Modeling Performance Indeterminacies for Polyphonic Midi Score Following and Its Application to Automatic Accompaniment Nakamura Eita 1 Yamamoto Ryuichi 2 Saito Yasuyuki 3 Sako Shinji 2

More information

ワトソンで体感する人工知能 フォローアップ情報 株式会社リックテレコム / 書籍出版部 ( 最終情報更新日 :2018 年 4 月 5 日 ) [INDEX] 2018 年 4 月 1 日時点の IBM Watson 仕様変更について ( 著者 : 井上研一氏からのフォロー情報 ) [ 変更点 -1

ワトソンで体感する人工知能 フォローアップ情報 株式会社リックテレコム / 書籍出版部 ( 最終情報更新日 :2018 年 4 月 5 日 ) [INDEX] 2018 年 4 月 1 日時点の IBM Watson 仕様変更について ( 著者 : 井上研一氏からのフォロー情報 ) [ 変更点 -1 ワトソンで体感する人工知能 フォローアップ情報 株式会社リックテレコム / 書籍出版部 ( 最終情報更新日 :2018 年 4 月 5 日 ) [INDEX] 2018 年 4 月 1 日時点の IBM Watson 仕様変更について ( 著者 : 井上研一氏からのフォロー情報 ) [ 変更点 -1] IBM Cloud の登録とライトアカウントについて [ 変更点 -2] IBM Cloud における

More information

OngaCREST [10] A 3. Latent Dirichlet Allocation: LDA [11] Songle [12] Pitman-Yor (VPYLM) [13] [14,15] n n n 3.1 [16 18] PreFEst [19] F

OngaCREST [10] A 3. Latent Dirichlet Allocation: LDA [11] Songle [12] Pitman-Yor (VPYLM) [13] [14,15] n n n 3.1 [16 18] PreFEst [19] F 1,a) 2,b) 1,c) LPMCC MFCC Fluctuation Pattern (LDA) Songle Pitman-Yor (VPYLM) 3278 1. (MIR: Music Information Retrieval) [1 5] [6 8] 1 National Institute of Advanced Industrial Science and Technology (AIST)

More information

DOI: /transinfj.2015JDP7 早期公開日 :2015/11/18 本 PDF は, 早期公開版である. 本論文を引用する場合には, 電子情報通信学会和文論文誌投稿のしおり ( 情報 システムソサイエティ ) の 8. 早期公開 を参照すること.

DOI: /transinfj.2015JDP7 早期公開日 :2015/11/18 本 PDF は, 早期公開版である. 本論文を引用する場合には, 電子情報通信学会和文論文誌投稿のしおり ( 情報 システムソサイエティ ) の 8. 早期公開 を参照すること. DOI:10.14923/transinfj.2015JDP7 早期公開日 :2015/11/18 本 PDF は, 早期公開版である. 本論文を引用する場合には, 電子情報通信学会和文論文誌投稿のしおり ( 情報 システムソサイエティ ) の 8. 早期公開 を参照すること. a) A Medical Record Creation Support System using a Voice Memo

More information

3-1-1 発音情報が未知の言語における テキスト音声合成システム構築法の検討 沢田慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一名古屋工業大学 日本音響学会 2015 年秋季研究発表 2015 年 9 月 18 日

3-1-1 発音情報が未知の言語における テキスト音声合成システム構築法の検討 沢田慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一名古屋工業大学 日本音響学会 2015 年秋季研究発表 2015 年 9 月 18 日 3-1-1 発音情報が未知の言語における テキスト音声合成システム構築法の検討 沢田慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一名古屋工業大学 日本音響学会 2015 年秋季研究発表 2015 年 9 月 18 日 はじめに テキスト音声合成 (TTS) システム u 任意のテキストの音声を合成するシステム u 様々なアプリケーションで利用 u 高音質, 多言語, 発話スタイル等の需要が増加

More information

N-gram Language Models for Speech Recognition

N-gram Language Models for Speech Recognition N-gram Language Models for Speech Recognition Yasutaka SHINDOH ver.2011.01.22 1. 2. 3. 4. N-gram 5. N-gram0 6. N-gram 7. 2-gram vs. 3-gram vs. 4-gram 8. 9. (1) name twitter id @y_shindoh web site http://quruli.ivory.ne.jp/document/

More information

IPSJ SIG Technical Report 1, Instrument Separation in Reverberant Environments Using Crystal Microphone Arrays Nobutaka ITO, 1, 2 Yu KITANO, 1

IPSJ SIG Technical Report 1, Instrument Separation in Reverberant Environments Using Crystal Microphone Arrays Nobutaka ITO, 1, 2 Yu KITANO, 1 1, 2 1 1 1 Instrument Separation in Reverberant Environments Using Crystal Microphone Arrays Nobutaka ITO, 1, 2 Yu KITANO, 1 Nobutaka ONO 1 and Shigeki SAGAYAMA 1 This paper deals with instrument separation

More information

2.2 (a) = 1, M = 9, p i 1 = p i = p i+1 = 0 (b) = 1, M = 9, p i 1 = 0, p i = 1, p i+1 = 1 1: M 2 M 2 w i [j] w i [j] = 1 j= w i w i = (w i [ ],, w i [

2.2 (a) = 1, M = 9, p i 1 = p i = p i+1 = 0 (b) = 1, M = 9, p i 1 = 0, p i = 1, p i+1 = 1 1: M 2 M 2 w i [j] w i [j] = 1 j= w i w i = (w i [ ],, w i [ RI-002 Encoding-oriented video generation algorithm based on control with high temporal resolution Yukihiro BANDOH, Seishi TAKAMURA, Atsushi SHIMIZU 1 1T / CMOS [1] 4K (4096 2160 /) 900 Hz 50Hz,60Hz 240Hz

More information

Vol.54 No (May 2013) 7 1,a) , e e Factors and Strategies for Accelerating the Diffusion of Electronic Money Based

Vol.54 No (May 2013) 7 1,a) , e e Factors and Strategies for Accelerating the Diffusion of Electronic Money Based 7 1,a) 2 2012 7 4, 2013 2 1 7 5 8 e e Factors and Strategies for Accelerating the Diffusion of Electronic Money Based on a Consumer Survey in Seven Regions in Japan Kazuo Watabe 1,a) Kunihiko Iwasaki 2

More information

1 Kinect for Windows M = [X Y Z] T M = [X Y Z ] T f (u,v) w 3.2 [11] [7] u = f X +u Z 0 δ u (X,Y,Z ) (5) v = f Y Z +v 0 δ v (X,Y,Z ) (6) w = Z +

1 Kinect for Windows M = [X Y Z] T M = [X Y Z ] T f (u,v) w 3.2 [11] [7] u = f X +u Z 0 δ u (X,Y,Z ) (5) v = f Y Z +v 0 δ v (X,Y,Z ) (6) w = Z + 3 3D 1,a) 1 1 Kinect (X, Y) 3D 3D 1. 2010 Microsoft Kinect for Windows SDK( (Kinect) SDK ) 3D [1], [2] [3] [4] [5] [10] 30fps [10] 3 Kinect 3 Kinect Kinect for Windows SDK 3 Microsoft 3 Kinect for Windows

More information

HP cafe HP of A A B of C C Map on N th Floor coupon A cafe coupon B Poster A Poster A Poster B Poster B Case 1 Show HP of each company on a user scree

HP cafe HP of A A B of C C Map on N th Floor coupon A cafe coupon B Poster A Poster A Poster B Poster B Case 1 Show HP of each company on a user scree LAN 1 2 3 2 LAN WiFiTag WiFiTag LAN LAN 100% WiFi Tag An Improved Determination Method with Multiple Access Points for Relative Position Estimation Using Wireless LAN Abstract: We have proposed a WiFiTag

More information

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2014-SLP-103 No /10/24 放送音声と字幕テキストを利用した音声言語コーパスの開発 奥貴裕 一木麻乃 尾上和穂 小林彰夫 佐藤庄衛 NHK では, 様々なジャンルの放送番組の音声を直接音声

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2014-SLP-103 No /10/24 放送音声と字幕テキストを利用した音声言語コーパスの開発 奥貴裕 一木麻乃 尾上和穂 小林彰夫 佐藤庄衛 NHK では, 様々なジャンルの放送番組の音声を直接音声 放送音声と字幕テキストを利用した音声言語コーパスの開発 奥貴裕 一木麻乃 尾上和穂 小林彰夫 佐藤庄衛 NHK では, 様々なジャンルの放送番組の音声を直接音声認識しても十分な認識精度が得られる音響モデルを学習するため, 数千時間規模の高精度なコーパスの構築を進めている. 本稿では, 音響モデルの準教師あり学習を用いて, 従来手法よりも大量の音声コーパスを高精度に構築するための手法を検討した. また,

More information

258 5) GPS 1 GPS 6) GPS DP 7) 8) 10) GPS GPS 2 3 4 5 2. 2.1 3 1) GPS Global Positioning System

258 5) GPS 1 GPS 6) GPS DP 7) 8) 10) GPS GPS 2 3 4 5 2. 2.1 3 1) GPS Global Positioning System Vol. 52 No. 1 257 268 (Jan. 2011) 1 2, 1 1 measurement. In this paper, a dynamic road map making system is proposed. The proposition system uses probe-cars which has an in-vehicle camera and a GPS receiver.

More information

IPSJ SIG Technical Report Vol.2009-SLP-77 No /7/ GOP Improvement of Structure-based Automatic Estimation of Pronunciation Proficiency

IPSJ SIG Technical Report Vol.2009-SLP-77 No /7/ GOP Improvement of Structure-based Automatic Estimation of Pronunciation Proficiency GOP Improvement of Structure-based Automatic Estimation of Pronunciation Proficiency Masayuki Suzuki, Dean Luo, Nobuaki Minematsu and Keikichi Hirose Adequacy in controlling the vocal organs is often estimated

More information

jnlp98f.dvi

jnlp98f.dvi December 9, 1998 RT0288 Human-Computer Interaction 19 pages Research Report A word-based Japanese language model N. Itoh, M. Nishimura, S. Ogino, and K. Yamasaki IBM Research, Tokyo Research Laboratory

More information

IPSJ SIG Technical Report Pitman-Yor 1 1 Pitman-Yor n-gram A proposal of the melody generation method using hierarchical pitman-yor language model Aki

IPSJ SIG Technical Report Pitman-Yor 1 1 Pitman-Yor n-gram A proposal of the melody generation method using hierarchical pitman-yor language model Aki Pitman-Yor Pitman-Yor n-gram A proposal of the melody generation method using hierarchical pitman-yor language model Akira Shirai and Tadahiro Taniguchi Although a lot of melody generation method has been

More information

IPSJ SIG Technical Report Vol.2014-NL-216 No.6 Vol.2014-SLP-101 No /5/ MMDAgent 1. [1] Wikipedia[2] YouTube[3] [4] [5] [6] [7] 1 Graduate

IPSJ SIG Technical Report Vol.2014-NL-216 No.6 Vol.2014-SLP-101 No /5/ MMDAgent 1. [1] Wikipedia[2] YouTube[3] [4] [5] [6] [7] 1 Graduate 1 1 MMDAgent 1. [1] Wikipedia[2] YouTube[3] [4] [5] [6] [7] 1 Graduate School of Engineering Nagoya Institute of Technology. [7] 1 2. 2.1 2 1 [8] c 214 Information Processing Society of Japan 1 1 音声対話コンテンツ

More information

NLP プログラミング勉強会 6 かな漢字変換 自然言語処理プログラミング勉強会 6 - かな漢字変換 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

NLP プログラミング勉強会 6 かな漢字変換 自然言語処理プログラミング勉強会 6 - かな漢字変換 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1 自然言語処理プログラミング勉強会 6 - かな漢字変換 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1 かな漢字変換のモデル 日本語入力でひらがな列 X をかな漢字混じり文 Y へ変換 かなかんじへんかんはにほんごにゅうりょくのいちぶ かな漢字変換は日本語入力の一部 HMM や単語分割と同じく 構造化予測の一部 2 選択肢が膨大! かなかんじへんかんはにほんごにゅうりょくのいちぶ

More information

HASC2012corpus HASC Challenge 2010,2011 HASC2011corpus( 116, 4898), HASC2012corpus( 136, 7668) HASC2012corpus HASC2012corpus

HASC2012corpus HASC Challenge 2010,2011 HASC2011corpus( 116, 4898), HASC2012corpus( 136, 7668) HASC2012corpus HASC2012corpus HASC2012corpus 1 1 1 1 1 1 2 2 3 4 5 6 7 HASC Challenge 2010,2011 HASC2011corpus( 116, 4898), HASC2012corpus( 136, 7668) HASC2012corpus HASC2012corpus: Human Activity Corpus and Its Application Nobuo KAWAGUCHI,

More information

1 1 CodeDrummer CodeMusician CodeDrummer Fig. 1 Overview of proposal system c

1 1 CodeDrummer CodeMusician CodeDrummer Fig. 1 Overview of proposal system c CodeDrummer: 1 2 3 1 CodeDrummer: Sonification Methods of Function Calls in Program Execution Kazuya Sato, 1 Shigeyuki Hirai, 2 Kazutaka Maruyama 3 and Minoru Terada 1 We propose a program sonification

More information

Study on Throw Accuracy for Baseball Pitching Machine with Roller (Study of Seam of Ball and Roller) Shinobu SAKAI*5, Juhachi ODA, Kengo KAWATA and Yu

Study on Throw Accuracy for Baseball Pitching Machine with Roller (Study of Seam of Ball and Roller) Shinobu SAKAI*5, Juhachi ODA, Kengo KAWATA and Yu Study on Throw Accuracy for Baseball Pitching Machine with Roller (Study of Seam of Ball and Roller) Shinobu SAKAI*5, Juhachi ODA, Kengo KAWATA and Yuichiro KITAGAWA Department of Human and Mechanical

More information

IPSJ-JNL

IPSJ-JNL Vol. 52 No. 12 3853 3867 (Dec. 2011) VocaListener 1 1 VocaListener VocaListener 2 VocaListener: A Singing Synthesis System by Mimicking Pitch and Dynamics of User s Singing Tomoyasu Nakano 1 and Masataka

More information

1 UD Fig. 1 Concept of UD tourist information system. 1 ()KDDI UD 7) ) UD c 2010 Information Processing S

1 UD Fig. 1 Concept of UD tourist information system. 1 ()KDDI UD 7) ) UD c 2010 Information Processing S UD 1 2 3 4 1 UD UD UD 2008 2009 Development and Evaluation of UD Tourist Information System Using Mobile Phone to Heritage Park HISASHI ICHIKAWA, 1 HIROYUKI FUKUOKA, 2 YASUNORI OSHIDA, 3 TORU KANO 4 and

More information

1 Fig. 1 Schematic usage of dialect mixtures. [3] [4] pp.2 3 [5] p.71 1 [6] [7] p marry merry Mary 3 [8], [9] 3 watch your step mind the gap [

1 Fig. 1 Schematic usage of dialect mixtures. [3] [4] pp.2 3 [5] p.71 1 [6] [7] p marry merry Mary 3 [8], [9] 3 watch your step mind the gap [ 1,a) 1 1 1,2 1 2013 11 2, 2014 4 4 WFST Dialect-mixed Speech Recognition by Mixing Simulated Multiple Dialect Language Models Naoki Hirayama 1,a) Koichiro Yoshino 1 Katsutoshi Itoyama 1 Shinsuke Mori 1,2

More information

IPSJ SIG Technical Report Vol.2013-CVIM-187 No /5/30 1,a) 1,b), 1,,,,,,, (DNN),,,, 2 (CNN),, 1.,,,,,,,,,,,,,,,,,, [1], [6], [7], [12], [13]., [

IPSJ SIG Technical Report Vol.2013-CVIM-187 No /5/30 1,a) 1,b), 1,,,,,,, (DNN),,,, 2 (CNN),, 1.,,,,,,,,,,,,,,,,,, [1], [6], [7], [12], [13]., [ ,a),b),,,,,,,, (DNN),,,, (CNN),,.,,,,,,,,,,,,,,,,,, [], [6], [7], [], [3]., [8], [0], [7],,,, Tohoku University a) omokawa@vision.is.tohoku.ac.jp b) okatani@vision.is.tohoku.ac.jp, [3],, (DNN), DNN, [3],

More information

untitled

untitled JAIS 1 2 1 2 In this paper, we focus on the pauses that partly characterize the utterances of simultaneous interpreters, and attempt to analyze the results of experiments conducted using human subjects

More information

DEIM Forum 2009 B4-6, Str

DEIM Forum 2009 B4-6, Str DEIM Forum 2009 B4-6, 305 8573 1 1 1 152 8550 2 12 1 E-mail: tttakuro@kde.cs.tsukuba.ac.jp, watanabe@de.cs.titech.ac.jp, kitagawa@cs.tsukuba.ac.jp StreamSpinner PC PC StreamSpinner Development of Data

More information

IPSJ SIG Technical Report Vol.2009-CVIM-167 No /6/10 Real AdaBoost HOG 1 1 1, 2 1 Real AdaBoost HOG HOG Real AdaBoost HOG A Method for Reducing

IPSJ SIG Technical Report Vol.2009-CVIM-167 No /6/10 Real AdaBoost HOG 1 1 1, 2 1 Real AdaBoost HOG HOG Real AdaBoost HOG A Method for Reducing Real AdaBoost HOG 1 1 1, 2 1 Real AdaBoost HOG HOG Real AdaBoost HOG A Method for Reducing number of HOG Features based on Real AdaBoost Chika Matsushima, 1 Yuji Yamauchi, 1 Takayoshi Yamashita 1, 2 and

More information

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2015-GI-34 No /7/ % Selections of Discarding Mahjong Piece Using Neural Network Matsui

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2015-GI-34 No /7/ % Selections of Discarding Mahjong Piece Using Neural Network Matsui 2 3 2000 3.3% Selections of Discarding Mahjong Piece Using Neural Network Matsui Kazuaki Matoba Ryuichi 2 Abstract: Mahjong is one of games with imperfect information, and its rule is very complicated

More information

( ) [1] [4] ( ) 2. [5] [6] Piano Tutor[7] [1], [2], [8], [9] Radiobaton[10] Two Finger Piano[11] Coloring-in Piano[12] ism[13] MIDI MIDI 1 Fig. 1 Syst

( ) [1] [4] ( ) 2. [5] [6] Piano Tutor[7] [1], [2], [8], [9] Radiobaton[10] Two Finger Piano[11] Coloring-in Piano[12] ism[13] MIDI MIDI 1 Fig. 1 Syst 情報処理学会インタラクション 2015 IPSJ Interaction 2015 15INT014 2015/3/7 1,a) 1,b) 1,c) Design and Implementation of a Piano Learning Support System Considering Motivation Fukuya Yuto 1,a) Takegawa Yoshinari 1,b) Yanagi

More information

橡上野先生訂正2

橡上野先生訂正2 (SIS) NII) 101-8430 tel 03-4212-2516 E-mail ueno@nii.ac.jp 1 NII 2 (symbiosis) 2 (parasitism) 2 Knowledge Creation The Symbiotic partnership of University, Government and Industry, Proc. Information Environment

More information

1. はじめに 2

1. はじめに 2 点予測と能動学習を用いた効率的なコーパス構築 形態素解析における実証実験 京都大学情報学研究科 Graham NEUBIG 1 1. はじめに 2 形態素解析 べた書きの文字列を意味のある単位に分割し 様々な情報を付与 品詞 基本形 読み 発音等を推定 農産物価格安定法を施行した 価格 / 名詞 / 価格 / かかく / かかく安定 / 名詞 / 安定 / あんてい / あんてー法 / 接尾辞 /

More information