音声を認識して自動で文字越こしを行うフリーソフト

KoeMill のアイコン

KoeMill

ダウンロード

対応OS:
Windows 10 以降 (64bit)
バージョン:
0.9.0.2(2023/08/30)
価格:
無料

動画や音声ファイルから音声を認識して、自動で文字起こしを行うソフトです。
音声認識モデルに文字起こし AI である Whisper を採用し、GPU を利用することで高速な動作を実現しています。
文字越こしされたデータは、字幕ファイル(SRT) / テキスト / CSV で保存可能です。

提供元:

KoeMill の使い方

ダウンロード

  1. 提供元サイトのダウンロードページへアクセスし、「Download」ボタンをクリックしてダウンロードします。
  2. ダウンロードした圧縮ファイル(KoeMill.7z)を解凍し、KoeMill_Launcher.exe から起動します。
    ※ 本ソフトはインストール不要で利用できます。

使い方

基本的な使い方

  1. 本ソフトを起動するとメイン画面が表示されます。
    KoeMill - メイン画面

    KoeMill - メイン画面

  2. Language をクリックして認識させたい言語を選択します。
    ※ ここでは「日本語」を選択します。
    認識させたい言語を選択

    認識させたい言語を選択

  3. Model をクリックして任意のモデル(Tiny / Base / Small / Medium / Large)を選択してダウンロードします。
    ※ Tiny から Large になるにつれて精度が向上して処理時間が長くなります。認識する音声にもよりますが、精度とモデルサイズを考えると Small または Medium が推奨されています。
    ※ ここでは「Small」を選択します。
    モデルを選択

    モデルを選択

  4. 「Download model(モデルのダウンロード)」ウィンドウが表示されるので「Download」ボタンをクリックします。
    ※ 初めて使用するモデルの場合はダウンロードが必要になります。
    初めて利用するモデルの場合はダウンロードが必要

    初めて利用するモデルの場合はダウンロードが必要

    モデルのダウンロード中

    モデルのダウンロード中

  5. 画面右の Eject をクリックして文字起こししたいメディアファイルを選択します。
    ※ 対応フォーマット: wav, mp3, m4a, wma, avi, mp4, m4v, wmv
    ※ ここでは sample-female.mp3 というファイルを読み込みます。
  6. 画面中央の 再生 をクリックすると、選択したメディアファイルの音声を再生できます。
  7. 次に KoeMill をクリックして音声認識を開始します。
    音声認識 - 文字起こし中

    音声認識 - 文字起こし中

  8. 音声認識が終わると、画面下部にタイムラインとテキストが表示されます。
    認識したテキストとタイムラインが画面下部に表示される

    認識したテキストとタイムラインが画面下部に表示される


    • 時間部分やテキスト部分は直接編集が可能です。
      気になる変換や誤った内容があればすぐに修正・編集できます。
    • 右クリックメニューから行の追加・削除も可能です。
    時間やテキストは直接編集できるほか、行の追加や削除も可能

    時間やテキストは直接編集できるほか、行の追加や削除も可能

  9. Save をクリックするか Ctrl + S キーを押すと字幕ファイル(srt)で保存できます。
    また、画面右端の もっと見る をクリックして表示されたメニューから「Export」をクリックすると、テキスト または CSV 形式で保存できます。
    TXT/CSV へエクスポート

    TXT/CSV へエクスポート


バッチ処理を行う

指定したフォルダー内の複数のメディアファイルの文字を起こしを行います。
  1. 画面右端の もっと見る をクリックして表示されたメニューから「Batch processing」をクリックします。
  2. 「Batch processing」ウィンドウが表示されるので、「…」をクリックしてフォルダーを指定します。
    また、「SRT」をクリックして出力ファイル形式を SRT/TXT/CSV から選択します。<<60>>
  3. 「OK」ボタンをクリックするとバッチ処理を開始します。<<61>>
  4. バッチ処理が終わるとメディアファイルと同じ場所に選択した形式のファイルが出力されます。

更新履歴

Version 0.9.0.2
(2023/08/30)
  • バッチ処理を追加
  • 文字起こし処理時のダイアログを追加

Version 0.9.0.1
  • モデルデータダウンロード時のダイアログを追加
  • モデルデータのダウンロード先を修正
  • モデルデータのファイルが存在しないあるいは破損していた場合にクラッシュしていたのを修正

Version 0.9.0.0
  • リリース

ユーザーレビュー

  • 4

    男女複数人の会議音声に使いましたが、ボソボソした喋りも拾っていて、…

    shima
    shima
    投稿数: 1件
    Windows 10

    男女複数人の会議音声に使いましたが、ボソボソした喋りも拾っていて、思ったよりも文字が起こせていると思いました。
    もちろん修正必須ですが、一から手動で文字起こしするより断然時短になります。
    有料アプリの精度がどのくらいか分からないので比較できませんが、無料で制限なくここまでできるのは有難いです。

    5人が参考になったと回答しています。
    このレビューは参考になりましたか?
  • コメント

    注意事項です

    kirigiri.kyoko
    kirigiri.kyoko
    投稿数: 13件
    その他

    注意事項です

    評価とは違ってきますが注意点です

    Win7PC、Win8.1PC、Win10PC、Win11PC
    それぞれメーカーの違うPC4台で試しました

    ・提供元サイトのダウンロードページからDL出来ません
    4台どれも不可だったのでVectorからDLしました
    ・各種圧縮ファイル解凍に対応している「Lhaplus」
    では4台共に解凍不能でした
    解凍中に”ThirdPartyNotices.md”で停止して応答なしです
    ・7Z形式ファイルの解凍に特化した「7-Zip」
    ソフトで4台共に全て解凍できました
    ・対応がWin10以上のOSになっていますがWin10、Win11で
    動きません
    ・説明文の中に
    「初めて使用するモデルの場合はダウンロードが必要になります」
    とありますが、本体が起動しないので読み込む事もできません

    ソフトのバージョンが0.9なので完成品というわけではなく
    製作途中で”現時点でとりあえず作動”するのかもしれません
    何か必要なランタイムやDLLがあるのかどうか、細かい部分まで
    確認ができませんでした

    試してみたかったのは
    会議などの音声だけではなく、音楽も同時に流れる歌から
    歌詞だけを抽出できるのかを確認してみたかったです

    本来の評価とは違うものになってしまいましたが(ごめんなさい)
    少し待ってある程度の完成品になってから再度試そうと思います

    5人が参考になったと回答しています。
    このレビューは参考になりましたか?