1時間の録音が、毎月の振込に変わるAI副業を見つけた

2026/02/17

これ、知ってますか？自分の声を録音して、ElevenLabsの「Voice Library」にアップロードするだけで、他の人がその音声を使うたびにロイヤリティが入るんです。

ElevenLabsはこれまでに累計$5M以上をボイスクリエイターに支払っていて、5,000以上のプロ音声がライブラリに登録されています。「声を売る副業」って聞くとちょっと怪しく聞こえるかもしれないですけど、仕組み自体はかなりちゃんとしてます。

なぜ今この副業が注目されるのか

AI音声市場の急拡大

ElevenLabsは2024年に評価額$3.3Bのユニコーンに成長しています
AI音声エージェント、オーディオブック、動画ナレーションの需要が爆発的に増えてます
「自分の声を一度登録するだけで継続収入」というモデルが海外で話題になってるんですよね

海外のAI副業トレンドとの関係

海外のMedium等では「AIを活用した低労力の副業」をまとめた体験談がたくさん出てきてます。

その中でもElevenLabsの音声ライセンスは、初期セットアップ後の維持工数がほぼゼロなんです。

テンプレート販売やフリーランス自動化、グラフィック生成と比べても、パッシブ度が突出してます。

ただ、正直に言うと収益面では控えめです。

フリーランスギグやチャットボット構築みたいにアクティブに稼働する副業には金額では勝てません。

この副業の本質は「高時給」じゃなくて、「限りなくゼロに近い維持コストで細く長く稼ぐ」 ことなんですよね。

ここを理解してないと「思ったより稼げない」って感じちゃうと思います。

収益構造の詳細

基本レート

ベースレート: $0.03 / 1,000文字（約90秒の音声に相当）
HQステータス・ニッチ音声: 最大 $0.20 / 1,000文字まで設定可能
AI Agents利用時: TTS単価の約1/5（分単位で計算）

収益の現実的レンジ

ここ、大事なのでしっかり見てほしいです 👇

レベル

月収目安

条件

エントリー

$20-80

標準的な音声、特に戦略なし

ミドル

$80-320

高品質録音、ニッチ声質

トップ

$1,000-4,000+

需要の高いユニーク声質、HQステータス

最上位

$10,000+

プラットフォーム内で圧倒的人気

正直、大半の人はエントリーの$20-80あたりだと思います。ここを「月$1,000余裕！」みたいに煽ってる記事は信用しない方がいいです。

収益計算の具体例

具体的に計算してみると、こんな感じです：

10分のYouTubeスクリプト（約9,000文字）→ 約$0.27の収益
月$80を達成するには、月間約270万文字分の利用が必要
月$320（別のMedium体験談で報告あり）なら約1,070万文字分
利用者が多いほど積み上がる「ロングテール型」の収入構造

1件あたりの収益は小さいんですけど、使う人が増えると勝手に積み上がっていくのがこの仕組みの面白いところです。

支払い条件

最低支払額: $10
支払い頻度: 週1回（6-8日ごと）、Stripe Connect経由
対象: 有料ユーザーの利用のみ（無料ユーザーの利用は対象外）

週1で振り込まれるのは地味に嬉しいポイントですね。

初期投資と必要なもの

必須コスト

ElevenLabs Creator Plan: $22/月（セール時$11/月）
Professional Voice Cloningに必要な最低プラン
最大30のカスタム音声作成可能

⚠️ ここ、多くの体験談で触れられてないんですけど超重要です。

月$80稼いでもプラン代$22を引くと実質$58なんですよね。

「月$80のパッシブ収入！」って書いてある記事はだいたいこのコストを無視してます。

録音機材

最低限: USBコンデンサーマイク
推奨: XLRマイク + オーディオインターフェース
ポップフィルター: 破裂音を防ぐために強く推奨
録音環境: 静かな部屋（毛布やクッションで簡易防音可能）

いきなり高いマイク買わなくて大丈夫です。USBマイクで始めて、手応えがあったら投資すればOKだと思います。

Amazon.co.jp: HyperX SoloCast 2 コンデンサーマイク USBマイク内蔵ショックマウントポップフィルターテレワーク/ストリーマー/コンテンツクリエーター/ゲーマー向け PC Mac PS4 PS5対応ブラックメーカー保証2年間 AR0A0AA : 楽器・音響機器

amzn.to

Amazon.co.jp: FIFINE ダイナミックマイク USB/XLR接続マイクセット単一指向性 PC 音量調整ミュートボタンアーム付きダイレクトモニタリングオーディオインターフェース/オーディオミキサー/PS4/PS5対応ゲーム実況ボイスチャットライブ配信ポッドキャストテレワークボーカルナレーションストリーミング録音白 K688CTW : 楽器・音響機器

amzn.to

録音量

最低限: 30分の音声データ
推奨: 2-3時間の音声データ（品質が大幅向上）
公式推奨: 30-120分のクリーンで多様な読み上げ

30分でも始められるんですけど、2-3時間録ると音声モデルの品質がかなり変わるみたいです。ここは手を抜かない方がいいですね。

録音の技術的ポイント

音声品質の要件

ピークレベル: -6dB 〜 -3dB
平均ラウドネス: -18dB
ノイズ: バックグラウンドノイズ、残響、エコーを排除
話者: 必ず1人のみ（複数話者はAIが混乱します）

録音時のコツ

これ、結構知らないと失敗するポイントなので覚えておいてください 👇

マイクとの距離: 拳2つ分（約15-20cm）がベスト
一貫したトーン: テンション高めと落ち着いた声を混ぜるとAIモデルが不安定になります
録音スタイル = 出力スタイル: オーディオブック用ならその読み方で録る。ナレーション調ならナレーション調で
AIは全てを複製する: ノイズ、咳、間合いも含めて再現されるので、クリーンさが命です

特に4番目は本当に大事で、「まぁいいか」で残したノイズがそのままAI音声に出てきちゃうんですよね。

本人確認

ElevenLabsは自分の声のみのクローン作成を許可しています
認証プロセスを通過する必要あり

他人の声を勝手に登録するのはNGです。ちゃんと本人確認があるのは安心材料でもありますね。

戦略的考察

なぜ「ニュートラルな声」が有利なのか

汎用性が高くて、ナレーション、ポッドキャスト、e-learning等の幅広いユースケースに対応できます
ドラマチックなトーンや特殊アクセントは用途が限定されがちです
ただし逆張り戦略もあり得ます（後述）

差別化戦略: ニッチ音声の可能性

ここが面白いところなんですけど、ライブラリには5,000以上の音声が既にあるんですよね。つまり普通の声だと埋もれるんです。

特定のアクセント（例: 英国英語、オーストラリア英語）は需要があるのに供給が少ない
特殊なトーン（例: ASMRっぽい、権威的、温かみのある）でニッチを狙う手もあります
HQステータスを獲得できれば、レートを最大$0.20/1,000文字まで引き上げ可能
ベースレート比で約6.7倍の単価差 → ニッチ戦略のインパクトはかなり大きいです

日本語話者としてのアドバンテージ

これ、私たちにとってけっこう重要なポイントだと思うんです。

ElevenLabsは29言語対応 → でも日本語ネイティブの高品質音声はまだ少ない可能性が高い
日本語ナレーション需要（アニメ関連、日本語学習教材、ローカライズ等）は確実にあります
英語と日本語の両方で登録すれば、収益源を二重化できる
特に「自然な日本語」は合成が難しいので、ネイティブ音声の価値が高いんですよね

要するに、日本語話者ってだけでブルーオーシャンの可能性があるんです。

収益最大化のポイント

録音品質への投資: 高品質な録音は使用率に直結します
十分な録音量: 最低限30分じゃなくて2-3時間を目標にする
複数の音声バリエーション: 異なるスタイルの音声を複数登録
HQステータスの獲得: より高い単価設定が可能に
ニッチの特定: 競争が少なくて需要のある声質を狙う

AI副業ポートフォリオとしての位置づけ

パッシブ度で分類するAI副業の3層構造

私、AI副業は「いくら稼げるか」よりも「維持にどれだけ手間がかかるか」で選ぶべきだと思ってるんです。大きく3つに分けるとこうなります：

層1: 完全パッシブ（放置型） 🟢

ElevenLabs音声ライセンス
AI生成素材の販売（グラフィック、アイコン等）
デジタルテンプレート販売（制作後は放置）

層2: セミパッシブ（定期的に軽い作業） 🟡

アフィリエイト記事（SEO更新が必要）
コンテンツバンドル販売（制作+軽い営業）

層3: アクティブ（都度の労働） 🔴

フリーランスAI自動化ギグ
中小企業向けAIツール導入支援

この3層の特徴

層3が最も単価が高いけど、時間を食うしスケールしません
層1は少額だけど、一度仕込めば積み上がっていく → 時間の味方になります
ElevenLabsは層1の中でも維持工数が最小 → 究極の「種まき型」です

時給換算で見ると景色が変わる

これ、私がこの副業を面白いと思った一番の理由なんですけど。

仮にElevenLabsの設定を1時間で完了して、月$80が入るとすると：

初月時点: 時給$80相当
2ヶ月目以降: 追加労働ゼロで月$80 → 累計時給は上がり続ける
1年後: 1時間の投資で$960回収 = 時給$960相当

対して、時給$50のフリーランスギグは毎月同じ時間を投入し続ける必要があります。この違いが「パッシブ収入の本質」なんですよね。

もちろん月$80が保証されてるわけじゃないですけど、考え方としてはすごく大事だと思います。

リスクと注意点

ここからはデメリットも正直に書きます。いいことばっかり書いても意味ないので。

ビジネスリスク

プラットフォーム依存: ElevenLabsの方針変更で収益構造が変わる可能性があります
競合増加: Voice Libraryへの参加者が増えるほど、個々の収益は薄まります
AI技術の進歩: 完全合成音声の品質が上がれば、人間の声のクローン自体の需要が減るかもしれません
月額コスト: Creator Plan ($22/月) の費用を回収できないリスクは普通にあります

倫理的・法的リスク

声の権利: 一度アップロードした音声モデルがどう使われるかの完全なコントロールは難しいです
声優業界への影響: AI音声が人間のナレーターの仕事を奪うっていう議論は活発化してます
規制リスク: EUのAI Act等で合成音声が「高リスクシステム」として規制される動きがあります
ディープフェイク問題: AI音声技術全体への社会的不信感が高まる可能性も

ここは「自分の声を商品にする」ことに対して、どこまで許容できるかは人それぞれだと思います。無理に始める必要はないです。

体験談の信頼性について

⚠️ これ、言いにくいんですけど正直に書きます。

海外のMedium等で「ElevenLabsで月$○○稼いだ」系の記事が増えてますけど、多くはスクリーンショットによる収益証明がありません
ベースレート$0.03/1,000文字から逆算すると、月$80は約270万文字、月$320は約1,070万文字の利用が必要。人気ボイスなら達成可能ですけど、参入直後には厳しい数字です
「誰でも簡単に！」のニュアンスで書かれた記事は、アフィリエイト目的の可能性も考慮すべきです

こういう情報を見極める力も大事ですよね。