
生成AI(Notta)の文字起こしがよかったのでオススメ&類似ツールを比較
唐沢農機サービス・WEB部門ビーズクリエイトの伊藤です。
幾つもの生成AIが登場し、無料で使える範囲が年々拡大しているため、AIの恩恵を受けられる人たちからしたらいい時代です。
そんなAIですが、手間のかかる作業である『文字起こし』でも活躍できることをご存知でしょうか?
会議の議事録、商談時の録音データの整理、取材した内容を記事にするためのテキスト化などなど。
企業勤めの会社員だけでなく、ライターや学生、副業などで文字に関わる人など。文章に関わる多くの人にとって、AIを使うことで文字起こしに掛かる作業を超圧縮できます!
わざわざシステムを開発しなくとも、既にあるサービスを使ってできるので非プログラマーには助かります。
私もボイスレコーダーで録った録音データからの文字起こしは経験ありますが、全てを手作業でやっていたらものすごく時間が掛かります。
音声を聞きながら、書き出したい部分を頭の中で抽出して、文章の構成を考えてキーボードに打って……という繰り返し。
録音の全文書き出しは時間掛かりすぎるので絶対ナシですね……文字に起こしたら今度は打ち間違いがないか確認したりで無限に時間が取られます。
そんな課題からAIで文字起こしができないかと試したところ、直近で『Notta』という文字起こしに特化したAIを利用したら使い勝手が良かったので、これは文字起こしで困っている人におすすめしたいなと思った次第です。
Chat GPTやGeminiなどの汎用AIで文字起こしってできないの? という疑問もあると思いますので、そちらも併せて解説!
巷の生成AIで文字起こしは可能?
様々な生成AIが選べるのが現状ですが、AIごとに文字起こしのやり方は違います。
結論を最初に持ってくると無料の範囲だと文字起こしができる方法は限定されるということです。(本ページで取り上げたNottaには無料版があります)
たとえばmp3、wav、flacなどの音声ファイルの読み込み自体がAIの無料範囲ではできません。jpgなどの画像やPDFは読み込めるので、これらのファイルから文字を抽出なら無料でできます。
無料の方法であっても、AIだけでなく他ツールを使う必要があるなど、ひと手間掛かるケースばかりです。
そのため、もし使い慣れたAIで文字起こしをしたい場合は、それぞれの強みと弱みを知っておくことが大事です。
シェアが大きいので触っている方も多いChatGPTですが、無料で使えるGPT4oでは音声ファイルの直接文字起こしには対応していません!
ただし、有料のGPT-4V(ビジョン対応版)を使用することで、mp3やwavファイルが読み込めるようになって音声から文字起こしができるようになります。
GPTを長いことメインで使っており、慣れたAIで出来る手段を増やしたいというのであれば、4Vを契約すると音声だけでなく画像の認識など、機能が拡張されるのでおすすめできます。
強み:音声データの文字起こしに加え、要約や編集、フォーマット変更が可能
弱み:GPT-4Vは有料プラン(月額20$)。文字起こし以外の機能拡張も見据えていれば人によってコスパは◯
通常のGeminiでは音声ファイルの直接文字起こしには非対応(音声ファイルをドロップしても対象外のファイルになってしまう)。
ただし、Google AI Studioを利用することで、mp3やwavなどの音声データの読み込みが可能になるのでテキスト化が狙えます。
強み:Google AI Studio経由で高精度な音声認識が可能、Googleサービスとの連携が容易
弱み:通常のGemini上では直接音声データを処理できず、Google AI Studioを別途利用する必要がある
Copilotは、Microsoftが提供するAIアシスタントで、Microsoft TeamsやWordなどOffice製品と深く統合されています。
Copilotも無料版では音声ファイルの読み取りができませんが、TeamやWordから録音したデータならCopilotで読み取らせる事が可能です。
Teamを使ったオンライン会議を録音→Copilotで文字起こしなど、今のビジネスシーンにMS製品が食い込んでいる状態であれば、今使っているツールの延長線上として使い勝手を広げられるのが強みです。
強み:Microsoft 365との強力な統合によるリアルタイム議事録作成、自動要約機能
弱み:Microsoft製品に依存するため、他のツールやプラットフォームとの互換性に制限がある
Nottaで音声データから文字起こし
ここから冒頭で触れたNottaについて。私が使ったNottaは文字起こしに特化したAIサービスです。
音声データをNottaにアップロードするだけで、音声からの文字起こしを自動でやってくれます。テキスト化された後は、Notta上で編集したりAI要約などもできます。
既にボイスレコーダーを持っている、または自分で選んだ高機能なレコーダーを使いたい人など、文字起こしだけに出費を抑えたい人にNottaはオススメです。
・高精度な文字起こし
会話や講演の内容を正確にテキスト化(標準的な発話であれば修正箇所はごくわずか)
・多言語対応
日本語を含む約58言語に対応し、翻訳機能付き
・リアルタイム変換
会議中の音声をリアルタイムで文字起こし可能
(リアルタイム翻訳はアプリ版のみ対応)
・クラウド保存
データをオンライン上で管理し、複数人で共有可能
(クラウド同期でどこからでも編集可)
Nottaの使用感
PCならWEBブラウザ版、スマホならアプリ版と使い分けができますが、ダウンロードなどが面倒ならログインするだけのブラウザ版でいいと思います。私が使ったのもブラウザ版での使用感ですので、その観点で紹介したいと思います。
<結論>
複雑な操作が無しで、簡単に音声データからテキスト化したいなら、文字起こしに特化したNottaは非常に便利でした。間違いなく効率化に繋がります。
ただし、精度については多分どのAIにも言えますが絶対ではありません。Nottaは体感で70~90%くらいの精度でテキスト化してる感じです。
この辺りは録音環境による音質の問題や、話者が何人いるか、相手に被せる話し方をしていないかなど、録音時点の問題がかなり影響していると思います。
特に「はい」や「ええ」といった相槌が一人の会話の中の言葉として紛れ込みやすい点は注意。この辺りは会話を被せないように、面接のようなノリで録音していればかなり精度を上げられると思います。
ちなみに今回は日本語での使い勝手なので英語などの精度は不明です(Nottaでは50を超える言語の対応は明言しています)。
<料金>
無料でも使えるので、まずは無料で使用感を見るといいと思います。
無料版でも誰が話しているのか、文字起こししたテキストに話者1・話者2といった見出しを付けられるので大変便利です。
文字起こしできるボリュームに制限があるため、月辺りの作業量によっては有料プランが選択肢に上がってくると思います。一番安いプランの価格は年払いで月あたり1,185円です(25年2月時点)。文字起こしできる時間が1,800分/月と無料版の15倍くらい増えます。
1.手持ちの録音機を用意(スマホ録音も可)
2.会議や取材などで録音する。この時に会話を被せないように注意。
3.音声データ(mp3やwav)をNottaにアップロード。
4.後はNottaで文字起こしを実行したら、txtやPDFでダウンロード。
誰が話しているか識別しやすいように、文頭にAさん・Bさんといった「話者」を自動で付ける機能があり、これが非常に便利です。ダウンロードしたファイルは文字の羅列になっているので、誰が話しているかの識別ができるだけで作業が楽になります。
ダウンロードする前にNotta上で文字起こしされた一部にタグを付けたり、AI要約などもできるため、内容によってはさらに便利に使えます。
<使い心地と注意点>
Nottaがやってくれることは『音声データで聞き取れる言葉の文字起こしを自動化する』ことです。聞き取れないなどで文字化できない範囲はどうしてもでます。このあたりはまだまだ人力でのチェックは必要です。
録音環境や話者の人数などによりますが、誰が話しているか判断するのは今のAIでも難しいらしいので、その録音データ内で聞き取れる音声をそのまま言語化するというスタンスでの使い方がベターかなと思います。
たとえば一対一の対話形式で話者を区別した文章を作りたいという場合、今のAIだと音声データのみで話者を混同しないようにするのは難しいようなので、文字起こししたら音声データを聞きながら、人力で文字データと音声上の話者が一致しているかという確認は必要です。
上記が実際にNottaで文字起こしした一部で、音声データから文字を起こしたという観点で見れば、ほぼ音声どおりにテキスト化されていて◎です。
ただし、これを見ると分かる通り、漢字の変換ミスもまぁまぁあります。また、相手の相槌が会話の途中に入ったり、変なところで話者が勝手に変わった扱いになるなど、完璧ではありません。
これにも一応対策はあり、まず大元の音声データ自体の品質を上げれば、AIによる言語の判断品質も上げられます。
この辺りは録音したい人ごとにピンマイクを装着してもらえれば、音の解像度はグッと上がります。1つの録音機材では設置場所にも制約がありますし、機材から話者が遠くなれば言葉も聞き取りづらくなります。
あとは録音時間が1時間以内であれば、無圧縮の高音質録音としてWAVやAIFFを選択すれば拡張子による音質の劣化リスクを無くせます。ただし、1時間以上を超えると1GBを超えてくると思うので、そういう時は少し品質を落としてロスレスのFLAC、ALAC、WAVPACK辺りが選択肢になると思います。
議事録ならNottaで文字起こしするまでで終わる場合もありますが、社外などに見せられる文章として提出しないといけない場合、文字起こしできたものはあくまで生データとして扱い、ここから必要な情報や発言を抜き出して、文章として起こし直す作業が別途必要です。
それでも文字として見えなかった音声が言語化されるだけでも、とんでもなく効率化できているのでNottaは十分価値を感じました。
その他の注目サービスとしてPLAUD NOTEも
PLAUD NOTEは世界初のAIボイスレコーダーで、本体で録音したデータをGPT-4oにより文字起こし&AI要約がセットで提供しているサービスです。
Nottaはすでに録音機材を持っていて、文字起こし部分だけにコストを絞りたい場合にいいですが、そもそも録音機材が無い、音声データをAIに処理させるくだりの作業が面倒くさい、などの場合にはPLAUD NOTEの方がいいかもしれません。
PLAUD NOTEはChatGPTで文字起こしが出来るように専用設計されたレコーダーとなっており、専用の本体を買えばAI文字起こしも単にできるという寸法です。
・レコーダーと文字起こしがセット
これから文字起こしを始めたい人には、機材選びの手間なく簡単に導入。
・録音と文字起こしが一体化されて楽
テキスト化が前提の商品なので、録音データ→テキスト化の工程がシンプル。
・GPTベースの処理
文字起こしだけでなく、AIを使った内容要約で工数を削減。
・マインドマップによる視覚化が可能
テキスト化された録音内容を体系化できるため、行ったり来たりする会話ほど要点が掴みやすい。
・内容はAIの学習に利用されない
公式が謳っているとおり、録音・テキスト化されるデータはAIの学習に利用されないため、使用できるシーンが広がる。
・コスト
本体価格27,500円(2025年2月時点)の中に『スタータープラン』が含まれており、毎月300分の文字起こしは無料で可能。
プロプランにすると別途で12,000円/年が発生し、毎月1,200分の文字起こしが可能。
PLAUD NOTEは録音機本体を買うと追加料金無しでスタータープランが使えるようになり、無料で月々300分以内の文字起こしができます。なので、本体料金だけで毎月300分までなら以降は費用発生無しで文字起こしし、足りなければ上位プランの契約で月あたりの上限は増やせます。
PLAUD NOTEもNottaでも料金プランによる違いが大きい部分は『月内の文字起こしに掛けられる時間』です。
これについては実際に使ってみないと、足りていないかなどの判断が難しいです。とにかくノーコストで文字起こしを試したいのなら、Nottaは無料プランで月120分まで文字起こしができるため、とりあえず手持ちのスマホなどで録音し、Nottaの無料範囲内でどの程度できるか試せば、月の上限の消化量は想像しやすいと思います。
紹介した通り、Notta以外ではAIへの音声データの読み込みは無料の範囲ではほぼ出来ないため、音声データを扱いたい時点でコストは発生します。それであれば、本体&文字起こしが高度に一体化できているPLAUD NOTEの方が学習コスト下げて早く使える点はメリットになると思います。
世間でよく使われている生成AIの文字起こしはこんな感じです。
AIで文字起こしをしてしまえば、その後はテキストベースのPDFなりtxtなどのデジタルデータとして情報・記録を残せるため、ただの録音データよりもずっと見返しやすくて便利になります。
ちょっとしたミーティングや営業時の話し合いがあれば、とりあえず録音し、話したことを文字として資料・メモ代わりに簡単に残せるようになります。
「あの時に何を話したっけ…?」
という振り返りに時間を取られることもかなり減ると思います!
ビーズクリエイトは長野県東御市にある唐沢農機サービスという農機具屋を母体とした、WEBサイトの制作・コンサルティング事業を展開する部門です。
WEBサイトを通した自社の知名度や評判の向上、問い合わせや商品注文などの売上増などのお悩みについて、WEBサイトの制作やコンサルティングといった形でお手伝いさせていただいています。
◆ビーズクリエイト公式サイト
https://www.bscre8.com
ビーズクリエイトでは新卒・中途、WEB業界の経験・未経験者を問わず求人を受け付けております。
WEB業界で何かを成し遂げたいという気持ちをお持ちの方は、是非お声がけ下さい。
◆当社リクルートサイト
https://recruit.karasawanouki.co.jp