[2023年10月配信]
今回は、2023年夏に日本語でも利用できるようになったBe My EyesのAI機能を紹介します。
Be My Eyesは、視覚障がいのある方と目の見えるボランティアをつなぐアプリです。ビデオ通話を使い、視覚障がいのある方が目の見えるボランティアに無料で視覚的支援を受けることができます。
2023年9月からは、日本語でも、ChatGPT4を使用したバーチャルアシスタント機能であるBe My AI機能が使えるようになりました。この機能は、撮影した写真をBe My AIを経由し、ChatGPTが分析し、写真の見た目を説明するものです。
さらに、チャット形式で質問を重ねることで、より詳細な情報を得ることができます。
もちろん、Be My AIの説明で不十分な場合は、目の見えるボランティアに通話し、詳細な情報を教えてもらうことができます。
今回は、複数の写真をBe My AIの認識度を試してみました。また、必要に応じてITステーション職員に正しい写真の解説をしてもらい、それぞれを比べてみました。
詳細は以下のホームページを参照してください。
http://www.itsapoot.jp/mailmaga/BeMyEyesAIcheck.html
まず、ある商品を写した写真です。
Be My AIの解説は下記のとおりです。
「この写真には、いくつかのカップヌードルが机の上に並んでいます。カップヌードルは赤と白のストライプのデザインで、「カップヌードル」という文字とともに、それぞれ異なる年号(1971年、1986年、1992年、1995年など)が書かれています。机の上には、カップヌードルの他に、ノートパソコン、携帯電話の充電器、1.5リットルのコカ・コーラのペットボトルなどがあります。ノートパソコンは黒く、キーボードが見えています。」
カップヌードルやコカ・コーラのボトル、パソコンなど、写真に写っているものでBe My AIが認識できるものは説明されます。
この写真のメインはカップヌードルですので、どのようなカップヌードルが写っているのか尋ねてみたところ、「6つのカップヌードルがあること」「左から右に年代順に並んでおり、1975年、1977年、1986年、1991年、1992年、1995年のものがあること」説明がありました。
職員によると、各カップヌードルには、その年の流行語が書かれているそうですが、それを読み取ることは難しかったようです。
カップヌードルなどの商品情報が分かるのであればと思い、ある商品のパッケージの写真を認識させてみました。
まずは表面です。
「この写真は、スープカレーのパッケージのようです。上部には大きな「Soup Curry」という文字が書かれており、その下には「極上鶏」と「スープカレー」という日本語の文字があります。写真の中央には、スープカレーのボウルがあり、中にはじゃがいもと鶏肉が入っています。ボウルの上にはスプーンがあり、その上には鶏肉が載っています。また、写真の下部には「1食260g」、「はたで2倍大」という文字が書かれています。ボウルは青と白のストライプの布の上に置かれています。」
商品名に加え、パッケージデザインまで教えてくれることは大変うれしいですね。と思ったのですが…。実はこのカレー「極上鶏のスープカレー」ではなく、ホタテのスープカレーなのです!商品パッケージに 描かれている絵を説明してくれることはありがたいのですが、肝心の商品名を間違えられると、食べたときにびっくりしますよね。
さて、気を取りなおして、裏面です。
「この写真は、食品のパッケージの一部です。上部には、茶色のソースでコーティングされたジャガイモが入ったボウルの写真があります。その隣には、日本語で「北海道産ジャガイモをたっぷり使った、こってりとしたソースと相性の良い、ポテトのボール」と書かれています。下部には、製品の情報、成分、栄養成分表、お問い合わせ先、賞味期限などが記載されています。また、バーコードも表示されています。」
どうやら、パッケージに描かれているホタテのイラストをジャガイモと認識してしまっているようです。また、「北海道産ジャガイモをたっぷり使った、こってりとしたソースと相性の良い、ポテトのボール」という説明文はパッケージのどこにも書かれていません!いったいどこからこの文章は登場したのでしょうか。
他の製品パッケージや印刷した資料でも試してみましたが、Be My AIは写真に映し出されている写真や一部の文字から想像を膨らまし、独自に作文をしてしまうことがあるようです。
もちろん、マイナス面だけではありません。バーコードの位置を尋ねると、「写真の下部、中央付近、賞味期限の下側」と説明がありました。
他の商品でも試してみましたが、バーコードやQRコードの位置は比較的正確に教えてくれます。文字を認識するOCRアプリではバーコードなどがあることやその位置までは説明されないので、この点は便利です。また、賞味期限や原材料、調理方法など、読んでほしい情報を尋ねると、読み上げられます。
OCRアプリでは、映し出されている文字をすべて読み上げるため、その中から自分が必要な情報を聞き出すことはなかなか手間がかかります。
ただし、必要な情報を読み上げる機能は、パッケージなどをはっきりと写さないと利用できないようです。私が撮った写真では、「お尋ねの情報はありません」「写真がぼやけていて読み取れません」「パッケージに書かれているようですが、わかりません」などと言われ、情報を読み上げてもらえませんでした。しかし、他の職員がピントを合わせてきれいに撮った写真を使用すると、「わからない」という返答をすることなく、必要な情報をすべて読み上げました。
ちょっと悔しかったので、私の撮った写真を文字読み取り機能のOCRがあるSeeing AIで読ませてみました。すると、作り方、賞味期限、保存方法など、Be My AIでは読み上げなかった情報を認識して読み上げることができました。ピントを合わせて写真を取ることができない場合は、Seeing AIなどのOCRアプリを利用してみると、情報を得られることもあるようです。
一方で、Be My AIだからこそ使える機能もあります。
架空の店の営業カレンダーとして、赤で塗りつぶした日を定休日、青で塗りつぶした日をディナーのみの営業とし、2023年11月から2024年2月までを作り、印刷しました。
「この写真は、2023年11月から2024年2月までのカレンダーが印刷された紙です。各月のカレンダーには日付が表示されており、いくつかの日付は赤色または青色でハイライトされています。ページの下部には、営業時間が「ランチ: 11:00-15:00」、「ディナー: 17:00-22:00」と記載されています。また、電話番号「0987-28-9999」が記載されており、予約を受け付けていることが記載されています。さらに、休業日についての情報も記載されています。」
カレンダーであること、赤や青で日にちがマーキングされていること、ランチやディナーの時間、電話番号が読み上げられました。
ここで、気になるのが、どの日が赤や青でマークされているかということです。11月の赤色でマークされている日にちを尋ねると、2日、15日、30日と、2月の青色でマークされている日にちを尋ねると、22日、25日と正確に読み上げました。
OCRアプリであれば、ただ日にちを読み上げるだけなので、このようにマークされている日にちなどが読み上げられると、自分で定休日などを確認できるので、ありがたいです。
ただ、このような特定の情報を得る機能は常に安定しているわけではありません。12月の赤色でマークされた日にちを尋ねると、11日と27日(正しくは、4日、19日、29日、30日、31日)、1月の青色でマークされた日にちを尋ねると、8日、20日(正しくは、9日、27日、30日)など全く異なる日にちを読み上げることもあります。また、1回目は、正しい日にちを読み上げても、2回目は全く違う日にちを読み上げるということもありました。
まだまだ改善の余地がありそうですが、今後の期待が高まる機能です。
さて、ここまでは主に文字情報の読み上げについて紹介しました。では、風景はどうでしょうか。
ある建物を写した写真をBe My AIで分析してみました。
「この写真には、青い建物が写っています。建物の屋根の上には、巨大な猫のオブジェがあり、建物の壁には猫の足跡が描かれています。建物の前には、50の制限速度を示す標識と、右矢印が付いた標識があります。建物の近くには、いくつかの他の建物、車、そして駐車場が見えます。空は曇っているようです。」
大まかな写真のイメージはできますね。
さらに詳細な情報を知りたい場合は、「建物は何階建て?」などと質問することができます。
この写真について質問を重ねた結果、「青い建物は5階建て」、「建物の上にあるネコのオブジェは黒色」、「壁には6個のネコの足跡が描かれている」「建物近くには、白いSUVと白いバンが止まっている」ということが分かりました。
さて、この説明は正しいのでしょうか?
職員に解説してもらいました。
6階建ての青い外壁のビルがあります。屋上エレベータ機械室の屋根によじ登った大きなゴリラのオブジェがあります。ビルの外壁にはゴリラの足跡があります。
また近くのピンクの3階建ての建物の階段部分のひさしでは子ゴリラが手をあげています。
建物は大きな道路から見え、車が行き来しています。また近くに駐車場があるようで冷蔵機能付きトラックが何台も停まっています。
道路を跨いだ標柱があり50キロ制限の標識があります。近くには、照明灯や消火栓表示板が見えます。
あら、建物の上にあるオブジェは「ネコ」ではなく、「ゴリラ」だったのですね!また、青い建物の他にピンクの建物があり、そこにもゴリラのオブジェがあることは、Be My AIでは説明されませんでした。
多少の違いはありますが、大まかな風景が説明されるので、いつどこで撮った写真であるのか判断できるため、それだけでもありがたいですね。
上記以外にもカメがひっくり返っている様子やキャラクターが描かれた電車、電車内のつり革、食べ物の写真などなど様々な写真を分析してみました。
キャラクターでは、マリオは「マリオ」と認識しましたが、すみっコぐらしは「着物を着たキャラクター」、埴輪は「人の顔のデザイン」などと認識しないものも多くありました。
また、食べ物では、とんかつを「一口かつ」や「メンチカツ」、竹輪キュウリを「アボカド入りの巻きずし」、ウィンナーを「ローストビーフ」などと、誤認識もありました。AIで認識していることもあり、同じ写真でも認識させるごとに説明が異なることも多々あり、不安定なところもあります。
まだまだ発展途上ではありますが、Be My AIは写真の概要を知ることができ、さらに質問を重ねることでより詳細な情報が得られるようになり、写真の管理がより便利になります。
Be My AIとSeeing AIなどのOCRアプリを組み合わせたり、必要に応じて使い分けることで、より多くの情報を得ることができ、今まで人に見ていただいたり読んでいただいていたものを自分のペースで確認できるようになってきたという点は、本当に大きな進歩だと思います。今後のそれぞれのアプリの発展が楽しみです。
では、最後に、ある写真をBe My AIで分析した結果を以下に記載します。
さて、この写真は、どこを写した写真でしょうか?
答えは本記事末尾にあるURLをご参照ください。
合わせて今回分析した写真も掲載していますので、合わせてごらんください。
「この写真は、広くて明るい室内の空間です。床はオレンジと茶色のタイルでできており、部屋の中央には大きな丸い模様があります。左側には、情報を表示するためのボードと、その前に配置されたいくつかの椅子とテーブルがあります。右側には、自動販売機、パンフレットスタンド、そしてもう一つのテーブルと椅子があります。部屋の奥には大きな窓があり、木々が見えます。天井には照明が取り付けられています。」
答え合わせの写真URL
http://www.itsapoot.jp/mailmaga/BeMyEyesAIans.html