【一覧付き】生成AIサービスについて種類別に紹介
【2024年最新版】

2024.05.29 2025.03.04 コンタクトセンターの森編集部

現在急速に進化している生成AIを使用したサービスには、種類に応じてさまざまなコンテンツを作り出す機能があります。本記事では、企業の業務効率化にも活用できる生成AIの種類や、主なサービスについて紹介します。生成AIサービスについて知りたい方は、ぜひ参考にしてください。

【一覧付き】生成AIサービスについて種類別に紹介【2024年最新版】

ここが知りたい！！～消費者アンケート調査レポート～　消費者は生成AIでの顧客サービスを受け入れるのか？

【一覧】生成AIの種類とサービス

生成AIには、目的に応じたさまざまな種類やサービスがあります。

▼テキスト・プログラミングコード生成AI

Claude 3
ChatGPT
Gemini

▼画像生成AI

Stable Diffusion
Midjourney

▼音声生成AI

Text-to-Speech AI
VALL-E

▼音楽生成AI

Suno AI
MusicLM

▼動画生成AI

Sora
Runway Gen-2

生成AIサービスとは?

生成AI（ジェネレーティブAI）とは、テキストや画像などのクリエイティブなコンテンツを自動的に生成するAIのことです。

これまで主流だった識別系AIの機能は、事前に学習した膨大なデータに基づき、入力されたデータを特定・予測するものでした。一方、生成AIの機能は、収集したデータのパターンなどを学習して新しいコンテンツを生成します。

コンテンツを自動生成する機能を無償、もしくは有償で使用できるのが、生成AIサービスです。生成AIを文章、画像、音楽などの生成業務に活用することで、業務の効率化や生産性の向上につながります。

生成AIのメリットとは? 利点を生かした用途を具体例とともに紹介

テキスト･プログラミングコード生成

生成AIの種類のひとつが、テキストやプログラミングコードを生成するAIです。代表的なサービスとしては、「Claude 3」や「ChatGPT」などがあります。

Claude 3

「Claude 3」は、アメリカのスタートアップ企業であるAnthropicが開発し、2024年3月にリリースした生成AIです。LLM（大規模言語モデル）を使用し、直接対話をするチャット型の生成AIで、複雑なタスクでも人間に近いレベルで理解して文章を作成します。Claude 3の高性能モデルは、ChatGPTよりも精度などが高いとされています。

Claude 3には全3モデルがあります。「Claude 3 Sonnet」は基本無料で利用でき、スピーディーな処理が可能なモデルです。複雑なタスクまで理解して生成できる高性能モデル「Claude 3 Opus」と、スムーズな回答を得意とする最も高速なモデル「Claude 3 Haiku」はそれぞれ有料です。

参照：Anthropic｜Claude 3

ChatGPT

「ChatGPT」は、2022年11月にアメリカのOpenAIがリリースした生成AIです。独自開発のLLM「GPT」を使用した、対話型の生成AIです。2023年3月に「GPT-3」「GPT-3.5」よりも精度の高い「GPT-4」がリリースされてからは、個人と企業両方の利用者が増加しています。

ChatGPTは、公式サイトでメールアドレスを登録してアカウントを作るだけで利用可能です。登録後は無料で利用できます。高速・高精度、かつ拡張機能を備えた有料プラン「ChatGPT Plus」の利用も可能です。

参照：OpenAI｜ChatGPT

Gemini（旧Google Bard）

「Gemini（旧Google Bard）」はGoogleが開発し、2023年12月にリリースされた生成AIです。2024年2月には、同社のAIチャットサービス「Bard」もGeminiに名称変更されました。

Geminiはテキスト、画像、音声など、複数の異なるデータを同時に学習し、テキストと画像を生成するマルチモーダルモデルの生成AIです。複雑な質問にも精度の高い返答が可能です。

Geminiは基本、Googleアカウントがある場合に無料でAIチャットサービスなどを利用できますが、有料版の「Gemini Advanced」にアップグレードすることで、より高性能なモデルが利用できるようになります。

参照：Google｜‎Gemini と話してアイデアを広げよう

画像生成AI

画像生成AIとは、ユーザーがテキストで一定の条件を入力すると、画像を自動生成するAIのことです。主に「Stable Diffusion」「Midjourney」などのサービスがあり、活用によってデザインや絵の効率的な生成が可能になります。

Stable Diffusion

「Stable Diffusion」は、イギリスのスタートアップ企業であるStability AIが2022年8月にリリースした画像生成AIです。「潜在拡散モデル」というアルゴリズムが使われているオープンソースAIで、ユーザーが入力したテキストをもとに画像生成を行います。

Stable Diffusionはオープンソースのため、Webアプリケーション上の環境やインストールした端末上などでの使用が可能です。基本無料で使用できるうえ、作成可能な画像枚数に制限がなく、何枚でも画像生成ができます。

なお、Stable Diffusionで生成した画像は基本的に商用利用可能ですが、モデルによっては商用利用が認められない場合もあるため注意が必要です。

参照：Stability AI｜画像生成AI Stable Diffusion

Midjourney

「Midjourney」は、アメリカのデビット・ホルツ氏が設立した研究チーム「Midjourney」が開発し、2022年7月にリリースされた画像生成AIです。高度なAI技術が利用されており、画像のイメージをテキストで入力すると高品質な画像が生成されます。

Midjourneyは2023年3月に無料版が廃止されており、現在は公式サイトでアカウントを作成し、有料プランへの加入が必須となっています。有料プランは「Basic Plan」「Standard Plan」「Pro Plan」「Mega Plan」の4種類が提供されています。

参照：Midjourney

音声生成AI

音声生成AIは、入力したテキストから音声を自動生成して読み上げるAIです。「Text-to-Speech AI」「VALL-E」などの生成AIがあり、文字を読むのが困難な人向けのコンテンツ作成などに使用されます。

Text-to-Speech AI

「Text-to-Speech AI」は、2018年にGoogleが一般提供を開始した音声生成AIです。より自然な人の声を作成する技術「WaveNet」音声を含む、Googleのさまざまなテクノロジーを活用しています。

Text-to-Speech AIを使えば、アプリや端末で、人間の声に近い自然な音声を再現できます。

なお料金は、音声の種類と、送信された文字数に応じて変わります。音声ごとに無料枠が設けられていますので、詳しくは公式サイトをご確認ください。

参照：Google｜Text-to-Speech AI

VALL-E

「VALL-E」は、2023年1月にMicrosoftが発表したAIです。VALL-Eは、Microsoft独自の複雑な音声言語技術「ニューラルコーデック言語モデル」を取り入れた、多言語テキストを音声に変換できるAIです。3秒間の音声データから人の声質を再現でき、再現した声で長文の読み上げが可能になります。

日本語に対応しているのは、2023年8月に公開された「VALL-E X」です。オープンソース版のため料金は無料です。

参照：Microsoft｜VALL-E X

音楽生成AI

音楽生成AIは、自動で音楽を作曲するAIです。学習した楽曲のパターンから曲を作成する生成AIには、「Suno AI」「MusicLM」などがあります。

Suno AI

「Suno AI」は、2023年5月にリリースされた、テキストを入力するだけで楽曲を生成できる音楽生成AIです。音楽家やAIの専門家チームが開発したAIで、高度な深層学習テクノロジーを利用しているため、幅広いジャンルの楽曲を生成することが可能です。Suno AIの公式サイトで、Discord、Google、Microsoftいずれかのアカウントを利用して登録すると、ログインして楽曲が作れます。

利用料金がかからない無料プラン「Basic」と、「Pro」「Premier」の有料プランがあります。

参照：Suno AI

MusicLM

「MusicLM」は、Googleが2023年5月にリリースした音楽自動生成AIです。雰囲気、目的、ジャンルなどをテキスト入力するだけで、楽曲が自動生成されます。一度に2曲の楽曲が生成される仕組みで、完成した楽曲はダウンロードが可能です。

Googleアカウントがあれば、GoogleのAIをテスト体験できるアプリ「AI Test Kitchen」で制限付きのMusicLMを無料で使えます。

参照：Google｜MusicLM

動画生成AI

動画生成AIは、テキストや画像から動画を自動で作り出します。動画編集作業などの業務効率化を可能にする動画生成AIには、「Sora」「Runway Gen-2」などがあります。

Sora

「Sora」は、OpenAIが開発した、テキストから動画を生成する動画生成AIです。2024年5月時点ではまだリリースされておらず、正確なリリース予定もまだ発表されていません。

Soraでは、さまざまなキャラクターと背景、自然なカメラワークなどを再現した、最長1分間のリアルな動画作成が可能です。精度が高い動画を作成できるため、一般向けの公開が近いと予測されています。

参照：OpenAI|Sora

Runway Gen-2

アメリカのRunwayが2023年に発表した「Runway Gen-2」は、テキストや画像を使って動画を作成できる動画生成AIです。テキストから、画像から、テキストと画像からの3パターンの方法で、最大16秒までの動画生成が可能です。

Gen-2には、無料で利用可能な「Basic」プランと、「Standard」「Pro」「Unlimited」「Enterprise」の4種類の有料プランが用意されていて、プランによって生成可能な動画数が異なります。

参照：Runway Research｜Gen-2 by Runway

まとめ

生成AIには多様な種類があり、活用することでテキスト、画像、音声、音楽、動画などの自動生成が可能になります。生成AIの活用方法には、「コンタクトセンターでの生成AIチャットボット」などがあります。生成AIによって、高度な問い合わせへの自動対応が実現でき、オペレーター業務の負担軽減やコンタクトセンター業務の効率化も可能です。

生成AIの進化によって、AIを業務に有効活用できる未来が期待できます。

この記事の推奨者

本部景一

新卒で通信業界の企業に入社し、社内インフラ整備からアプリケーション開発まで幅広い開発業務に参画。その後PMとして教育業界向けWebフィルタリングサービスの立ち上げを担当した。2023年にベルシステム24入社後は言語生成AIの実証実験などを担当している。高速な開発サイクルを実現できる小規模チームや社内環境の構築を得意としている。情報処理安全確保支援士(第22000号)

この推薦者の記事一覧

ナレッジマネジメントがもたらす生成AI活用の道筋～RAGとナレッジ整備の可能性～

生成AIの注意点とは? 利用時に気をつけること、リスク対策を紹介

生成AIとコールデータ：新しいビジネス価値の創出方法

【一覧付き】生成AIサービスについて種類別に紹介
【2024年最新版】

【一覧】生成AIの種類とサービス

生成AIサービスとは?