みなさんこんにちは!Senoo IT Consultingの妹尾です。
前回からおよそ2ヶ月が経ってしまいましたが、この間ChatGPT界隈では多くのアップデートがありました。今回はこれらの重要アップデートについてお届けしたいと思います。
今回は有料版のChatGPT Plusに関わる内容がメインですが、これをご覧になれば、無料版ではなく有料版を使ってみたくなる方も多いのではないでしょうか。
毎月US$20を支払いChatGPT Plusを利用している方は当然ご存知ですが、無料版のChatGPTのみを利用されている方は馴染みがないかもしれませんので、簡単にChatGPT Plusでできることを紹介します。
ChatGPT Plusを購入すると、ChatGPTの画面上でGPT-3.5だけではなく、GPT-4を選択できるようになります。その際、どのような機能と組み合わせて使用するのかをチャット開始前に選択することができるのです。
以下は、その選択メニューを表示したところです。
この機能は以前リリースされていましたが、問題があり使用中止となっていました。その間、インターネットの情報をもとにChatGPTと対話したい場合は、ブラウジングが可能なWebPilotなどのプラグイン機能を利用する必要がありましたが、改めてOpenAI純正のインターネット連携機能として復活しました。
これにより、例えば本日のトップニュースを取得して要約してもらうといったことも非常に簡単に行えるようになりました。
ChatGPT Plusを利用されている方はご存知だと思いますが、「Advanced Data Analysis」(旧:Code Interpreter)は自然言語での指示に従いGPT-4がPythonのプログラムを作成、実行してデータ処理などを行なってくれる、ChatGPT Plusで提供されている機能です。
これを使用すると、自然言語を使って、CSVやExcelファイルのデータをもとに手軽に分析を行なったり、グラフを作成したりすることができます。
参考までに、Webサイトのアクセスログを分析させてみたサンプル動画をご覧ください。
これまでは、自然言語で指示した内容について常に「プログラムを作って」処理を行おうとしていたため、例えばPDFファイルの内容を翻訳してもらおうとすると、
といったプログラムを作成して実行してしまい、せっかくのGPT-4の多言語能力を活用できませんでした。
しかし、最新の状態では、同様の指示に対し、
という動作をするように変更されています。これにより、プログラムを作成して処理を行う機能と、文章を読み込んで解釈する機能を統合して処理を行うことが可能になりました。
従来からChatGPTの携帯アプリには音声入力をOpenAIの「Whisper」という音声認識モデルでテキストに変換する機能がありましたが、今回ユーザが「完全に」音声で入力し、ChatGPTも音声で応答するという機能が実装されました。
実際には、音声入力→テキスト化→応答テキスト生成→音声応答、という流れを自動で行なっているのですが、その過程で、(1)音声入力から文字起こししたものをうまく解釈する、(2)音声出力に適した応答テキストを生成する、ようにChatGPTに細かな事前指示がなされている模様です。
音声認識では言語の自動認識も可能ですが、主言語をあらかじめ設定しておいた方が認識精度が上がります。また、この人間が話しているような少し引っかかりながらの話し方が、なんとも人間らしく感じてしまいます。
実際にロシアのウクライナ侵攻について解説してもらった様子をご覧ください。(周囲の雑音が入ってしまっている点はご容赦ください)
画像をアップロードして、その内容について会話できるようになりました。
これを応用すると工夫次第で色々なことができるようになります。例えば下記のようなことも実現可能です。
下の動画は、ある人から、中国語の本を見せられて「日本で売っているこの類のものを買ってきて」と頼まれた際に、「そもそもこれって何だっけ?」ということから調べた時のものです。本の内容(中国語)を読み取って日本語で解説してもらいました。
DALL·E 3とは、OpenAIが開発したテキストから画像を生成するAIモデルです。
これまでもDALL·E 2というAIモデルがあり、API経由などで利用できましたが、DALL·E 3ではAIモデル自体の性能が大幅に向上した上、ChatGPTとの統合により、会話形式で画像生成や修正ができるようになりました。しかも英語以外でもOKです。
なお、生成した画像は自分のものとして商用利用も可能(*1)です。そのため、著作権に抵触するような画像や、暴力的、成人向け、憎悪的な画像を作成するような指示はブロックされます。
*1: マイクロソフトのBing Image CreatorもDALL·E 3で画像生成していますが、利用規約で「合法的な個人的、非商業的な目的であれば、オンラインサービス外で創作物を使用することができます」(you may use Creations outside of the Online Services for any legal personal, non-commercial purpose.)とあるため、商用利用はできないようです。
下の動画は、試しに簡単な日本語の指示で画像を作成したものです。実際には、画像のアスペクト比や配置、バランス、視点、描画スタイルなど、非常に多彩な調整を行うことができますので、自力でWebサイトやPowerPointに張り込む画像作成はできてしまいます。実際、このブログ上部のアイキャッチ画像もDALL·E 3で生成しました。
(なお、現在はサーバ資源の節約のためか、一度に2つの画像しか生成できなくなっています)
さらに、先に紹介した画像入力機能を使い写真の描写テキストを作成し、DALL·E 3の入力にすれば、写真に似たイラストや水彩画など、色々な画像を生成することも可能です。
ChatGPTは2021年9月までの情報でトレーニングされた状態でリリースされており、最新の知識は持っていませんでした。
最近GPT-4が2023年9月下旬の更新で2022年1月までの知識に、2023年10月下旬の更新で2023年4月までの知識に更新された模様です。また、GPT-3.5についても2022年1月までの知識に更新されているようです。
なお、APIで利用できるGPT-4はまだ6月13日版(「gpt-4-0613」というモデル)であり、更新は反映されていません。
さて、前回お伝えしたChatGPT Enterpriseについてですが、当社からOpenAIへコンタクトした際には小規模事業者であるということを伝えていたので、OpenAIからは「小規模チーム向けのプランも鋭意検討しており、でき次第案内します」という旨の返信をいただきました。
一方、X(旧Twitter)で海外の方が発信されているリーク情報によると、ChatGPT Enterpriseの利用についてはボリュームのコミットメントが必要なようです。例として出ていたのは、毎月US$60/アカウント、150アカウント以上というものでした。(より多くのアカウント数であればディスカウントがある模様)ChatGPT Plusが毎月US$20/アカウントですので、同等の機能で、セキュリティ強化、ユーザ管理機能、速度2倍、4倍の入力長、を実現するような(おそらく専用サーバに近い)AIコンピューティング資源の確保にはこの程度の費用は必要かもしれません。
当社自身もそうですが、この規模ではなかなか導入できないため、SMB向けでセキュリティが強化された「Business」プランのようなものができるとChatGPTの活用を加速させられるのではないかと思います。
OpenAIには頑張ってもらいたいところです。
今回はお伝えしたいことが多くて長文になってしまいましたが、いかがでしたでしょうか。
当ブログ執筆中にも、10月29日から一部ユーザに対して、「GPT-4 All tools」という、プラグイン以外の機能を統合、自動で連携できる機能が実装されたという情報も入ってきています。また、11月1日には企業向け(Microsoft 365 E3/E5ライセンスユーザ)に月額US$30/アカウントでMicrosoft 365 Copilotがリリースされました。
いよいよ、趣味や研究ではなく、本格的に日常業務で生成AIの機能を使いこなしていく時代になっていこうとしていると思います。
今後も新たな情報が入り次第発信していきますので、お楽しみに!
ChatGPTの活用やITに関するご相談は当社までお問い合わせください。折り返しご連絡差し上げます。