融合研

julius   [w]


--------------------------------------------------------------------------------
-- julius Extension
--------------------------------------------------------------------------------
■動作までの配置(ext)
CF25\Extensions\Unicode\julius.mfx
CF25\Data\Runtime\Unicode\julius.mfx

---------------------------------------------------------------------------------
■Juliusについて (4.6)
http://julius.osdn.jp/
Julius は，音声認識システムの開発・研究のためのオープンソースの高性能な汎用大語彙連続音声認識エンジンです．
数万語彙の連続音声認識を一般のPCやスマートフォン上でほぼ実時間で実行できる軽量さとコンパクトさを持っています．

Copyright (c) 1991-2020 京都大学 河原研究室
Copyright (c) 1997-2000 情報処理振興事業協会(IPA)
Copyright (c) 2000-2005 奈良先端科学技術大学院大学 鹿野研究室
Copyright (c) 2005-2020 名古屋工業大学 Julius開発チーム
---------------------------------------------------------------------------------
■動作までの要点
上記サイトにも書いてありますがJulius単体では音声認識は動きません．(同様にExtension単体もまた動きません)

・Juliusの動作に必要なもの　に書いてある通り
	Juliusを使って音声認識を行うには，以下のものが必要です．
	音響モデル（音素HMM）…音素ごとの音声波形パターンのモデル．
	単語辞書…各単語の読みを定義する．
	言語モデル（単語N-gram）…どのような単語列が出しやすいか，その単語間の接続制約を決定する．


手っ取り早く
http://julius.osdn.jp/index.php?q=dictation-kit.html

・ディクテーションキット (dictation-kit)
をDLし、展開します

models
am-dnn.jconf
julius.dnnconf
main.jconf
をCFのサンプルプロジェクトファイルがある所に配置します…で、起動
※setting.png 参照

---------------------------------------------------------------------------------
■Juliusファイル入力について
ファイル形式： サポートしているファイル形式は，
Microsoft WAVE形式の音声ファイル，およびヘッダ無し（RAW）ファイルです．
オーディオフォーマットは，無圧縮PCM，16bit，モノラルに限られています．
RAWファイルの場合，バイトオーダーが big endian である必要があります．
（サンプリングレートが16000, 16bit，モノラル）
---------------------------------------------------------------------------------
■所感・いろいろ
wavファイル・マイク共に、入力される音圧レベルによっても認識に大きく差が出る感じです。
入力されるデータや環境にも大きく左右される為、なかなか精度を出すには大変そうに思います。


また、
喋りでOpenJtalk
音声解析でJulius
表示にMMDと、要素技術が組み合わされたアプリがMMDAgentという感じにパッケージング・公開されています
http://www.mmdagent.jp/

https://www.nicovideo.jp/watch/sm12181530
https://www.nicovideo.jp/watch/sm12708800



そしてこれら、要素技術を簡単に扱えるようになれば
ゲームからツールまで、組み合わせ次第で何らかの発見が生まれるかもしれません

個人的には何らかのイベントの売り子や、ペッパー君まがいなものしか思いつきませんでしたので
面白い発想でもありましたら、こっそりと教えてください。


---------------------------------------------------------------------------------
■Action

InitConfFile( configfile )
	システムの設定を初期化する

OpenDevice( file )
	解析するファイルを指定（サンプリングレートが16000, 16bit，モノラル）
	 ""の場合はマイクからの直接入力

CloseDevice
	システムのクローズ


--------------------------------------------------------------------------------
■Conditions (発生イベント)

SPEACH_READY
	システムの準備が整った際に起こります

SPEACH_START
	解析の実行が行われた際に起こります

SPEACH_RESULT
	解析が行われた際に起こります
	※ここで解析文を取得すると良いでしょう　GetResultText

--------------------------------------------------------------------------------
■Expressions

GetResultText$
	解析結果の文字列が格納されています


--------------------------------------------------------------------------------
■細かい点

音声入力に関する仕様として、短い音の場合認識されない点がありますがこれは仕様のようです。
最初の音は、音源の基準点として計算に使われる為、そもそも認識することができないとの事です
※って感じのことが確かどこかに書いてありました…。


--------------------------------------------------------------------------------

■あとがき

		m9( ﾟдﾟ)っ





DOWNLOAD