« RZ1Basicマニュアル 05 プログラムの編集 | トップページ | 第1回バトルカップ ベーシッククラスに行ってきました »

あれこれ考えてみる(私の声は届きますか?...1)

今日(21日)いろいろページを見ていたら、「二足歩行ロボットユーザー交流会「ロボゴング8」レポート~フリーソフトを使った音声認識操縦も披露」という記事を見つけました。

面白そうだったので、早速、インストールして、音声でロボザックを動かすソフトを作ってみました。自分で言うのもなんなんですが、いろいろ調べて/インストールして/認識ファイル作って/ロボザックコントロール用のソフト作って/ブログ書いて/ちょ〜〜〜〜〜〜特急ですねsweat01sweat01sweat01
My_applicationdebugscreensnapz003

これは、ロボザック57号の6、7ページに書かれてある、リモコンボタンの割り当てのモーション名を認識して、それに対応する数値に置換えて、ロボットに送信して、ロボットを動かすソフトウエアになってます。BluetoothやZigbeeのような無線を使って無い方は、とりあえずは、シリアルケーブルを直結すれば、音声で動かせるって感じですね。

Windowsでもやっているんですが、まだ、マック版のソフトしか作ってないし、インターフェイスも適当なので、ちゃんと作って、まずはRZ1Basicの機能として付けようかと思っています。

さて、ここで紹介されている、フリーの音声認識ソフトとは

Safariscreensnapz019

Julius
http://julius.sourceforge.jp
というソフトウエアで、音声認識システムの開発・研究のためのオープンソースで、かなりいろいろなことができる、高機能なソフトウエアです。

いちおうライセンスはここ(Juliusの使用許諾)。かなり自由度高いですheart04
http://julius.sourceforge.jp/index.php?q=license.html

必要なファイル類は、リリースファイル・リストで、ひとそろえダウンロードできます。
http://sourceforge.jp/projects/julius/files

Windows用のものは、出来合いがあるので、改造する必要がなければ、自分でコンパイルする必要がないので簡単です。

oneJulius本体
まず、Juliusの本体は、

  • julius-4.0.2-win32bin-fixed.zip (Winな方)
  • julius-4.0.2-linuxbin.tar.gz (Macな方)

になります。Windows用は出来上がっちゃってるので、そのまま動かすことができました。

マックな方は、コンパイル・インストール手順 (Unix)のページが用意されているので、書かれている通りにやれば大丈夫。そんなに難しくないと思います。

configureした時点で、以下のような表示がでます。サポートオーディオファイルが、RAWとWAVだけなんですが、libsndfileを前もってインストールしてけば、いろいろなフォアマットに対応するそうです。私もやってみたんですが、v1.0.5じゃないとマックでコンパイルが通らないみたいです。最新版はv1.07です。
****************************************************************
Julius/Julian libsent library rev.4.0.2:

- Audio I/O
    mic device API          : coreaudio (MacOSX CoreAudio)
   
supported audio format  : RAW and WAV only
    NetAudio support        : no
- Language Modeling
    class N-gram support    : yes
- Libraries
    file decompression by   : zlib library
- Process management
    fork on adinnet input   : no

  Note: compilation time flags are now stored in "libsent-config".
        If you link this library, please add output of
        "libsent-config --cflags" to CFLAGS and
        "libsent-config --libs" to LIBS.
****************************************************************

two文法ファイル
次に、必要なものは、音声認識させるための、文法ファイルになります。Juliusディクテーション実行キットというものがあるので、とりあえずは、これで起動させることができます。

Juliusディクテーション実行キット

  • dictation-kit-v3.2-win.zip (Winな方)
  • dictation-kit-v3.2.tar.gz (Macな方)

出来上がっているので、マックな方も、上記ファイルをダウンロードして解凍するだけで使えます。

threeインストールから起動まで
マックと、ウインドウズの場合で簡単に示しておきます。

マックの場合

ムービーにしましたので、参考にして下さい。

--     --

ウインドウズの場合

  1. julius-4.0.2-win32bin-fixed.zipと、dictation-kit-v3.2-win.zipを解凍します。
    Parallels_desktopscreensnapz123
  2. dictation-kitの中に、run_fastというファイルがありますので、これをダブルクリックします。追記:このバッチファイルの中を見たら、dictation-kitの中のbinの中に入っているjuliusを起動させているんですね。だから、このバッチファイルはjulius-4.0.2は無くても動きます。
    Parallels_desktopscreensnapz124
  3. ウインドウが表示され、しばらく待つと、<<< please speak >>>と表示されるので、何か喋るだけです。
    Parallels_desktopscreensnapz126

 

fourオリジナルの音声認識ファイル
出来合いの音声でなく、以下のようなキットを使って、オリジナルの音声認識ファイルを作成できます。

ディクテーション実行キットを使っても、やはり、うまく認識してくれませんので、ロボザック57号の6、7ページにある、モーション名のjconfファイルを「孤立単語認識キット」で作りました。それで認識させている様子をムービーにしました。

が、テレビも付いてるし、家族のものがぺちゃくちゃ喋ってるし、何より、私の声が恥ずかしいのですが、様子を見せたかったので、公開します。ほぼうまく認識してくれているのがわかるかと思います。

--  --

というところで、今日はおしまいにしておきます。
jconfファイルの作り方とかは、またの機会に書くことにしたいと思います。

資料

----------------
にほんブログ村 科学ブログ ロボットへ
にほんブログ村

|

« RZ1Basicマニュアル 05 プログラムの編集 | トップページ | 第1回バトルカップ ベーシッククラスに行ってきました »

工作・改造・解析」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/221673/42231770

この記事へのトラックバック一覧です: あれこれ考えてみる(私の声は届きますか?...1):

« RZ1Basicマニュアル 05 プログラムの編集 | トップページ | 第1回バトルカップ ベーシッククラスに行ってきました »