面白コンテンツ, Uncategorized

alexaと遊ぼう

コンテンツ論 アレクサの返事

アマゾン販売のAIスピーカーを使っていると、色々と面白い事にぶち当たる。alxa2

音声で指示をすることが、AIスピーカーの特徴なのだが、この「声」に癖がある。自分の声でも、朝と夜では声の高さも音量もちがう。だから、最初の頃はアレクサさんに向けて、いつも気張って声を出していた。よく聞き取れないと、「ごめんなさい。わかりません。」と謝られてしまうので、できるだけ聞き取りやすい発声を心がけたのだが。結局、それは全くの無駄だった。
ある朝、半分寝ぼけたまま低い掠れた声で「アレクサ、おはよう」と言ったのだが、はっきり認識できたらしく、いつも通りの「おはようございます。○月○日は・・・・・」(例えばアルバートアインシュタインの誕生日だとか、銀座で初めてガス灯が灯った日だとか)と説明を始めるのだった。

あれ?声の質は関係ないのかな?
それからは、だいたい小声でボソボソと話しかけてみるが、だいたい聴きとるようだ。なんだが拍子抜けした。どうやら自分の声は大変滑舌が悪く聞き取りにくいようで、いつも地声で話すと、家人に聞こえないと怒られる。それで、ついついアレクサさんにも、テンション上げて話していたのは、全く必要のない努力であったらしい。

アレクサと遊ぼう

という内容のメールが、月に1−2回アマゾンから送られてくる。例えば、しりとりができるとか、クイズを出してみろとか、なんだか小学生が遊ぶような内容なのだ。これはどうもためす気にもならない。大の大人が部屋で、一人で機械に向かってボソボソと話しかけるだけで、随分不気味な光景だ。多分、小学生くらいだったら面白がってやるのだろうけれど。アマゾンにはもっと違うことを教えて欲しいものだ。
自分として面白いのは「89年のレゲエをかけて」とか「J-popのヒット曲をかけて」というと、「アマゾンミュージックのプレイリストから選んでくる。だから、だいたい注文通りに曲がかかるのだ。
アーティスト名を特定して曲をえらばせることもできるので、「スペクトラム、かけて」というと1970年代後半のブラスロックバンドの曲がかかる。このバンドは、今、CDが絶版のはずなので、結構ありがたい機能だ。しかし、宣伝も上手で、「○○の曲かけて」というと、「○○の曲は、アマゾンプライムにはありません。アマゾンミュージックアンリミテッドに入会しますか。」などとのたまうのである。おまけにアレクサで入会するとお安いとまでオススメいただくのだ。
ここは丁寧に、「いいえ、結構です。」と答えると、セールストークは止まる。よしよし、しつこく勧誘されると機械相手に人間様の方が切れてしまうかもしれない。良心的な設計である。などなど、AIと喋るのはなかなか面白いものだ。

アレクサの一番人気のあるアプリは

(アプリのことをスキルというのだが)、ピカチュウが返事をするというもので、例のピカチュー語で色々と遊んでくれる。これを大の大人が楽しむのは、相当勇気がいるというか、誰かに見られたら死ぬほど恥ずかしいではないかとか、色々と思うことはある。きっと、大人ではなく子供が使っているに違いない、いや、そうだ。そう思わなければ、人として・・・・。

ニュースを聞く、天気予報を聞く、音楽を聞く、ラジオを聞く、現時点でのスピーカーとしての機能はこれくらいを使っているが、テレビのCMでやっているように、音声入力指示が可能なものは順次取りこまれていくだろう。ルンバを起動させるとか、エアコンや照明のスイッチを入れたり切ったり、自動給湯器でお風呂にお湯を入れるくらいは楽勝だろう。

そのうち、宅配便のお兄さんとインターホン越しにやり取りをするくらいには賢くなると思う。ひょっとすると留守電がわりになり、インチキなテレホンセールスやふりこめ詐欺の電話を適当に対応し、警察に自動的につなげてしまうとか、悪者撃退するくらいはお手の物ではないか。

独居老人の癒しマシン

としても機能しそうだ。自分が昔ファンだった若い頃の歌手の声で話してくれるとか、(人工的音声に著作権は発生するものだろうか)、山口百恵風のアルトボイスとか、松田聖子風のハイトーンボイスとか、日によって変わる「おニャン子シリーズ」とか、郷ひろみと西城秀樹が一日置きにかわるとか、昭和歌謡全盛期の歌手ボイスが、アマゾンプライム会員限定で手に入る。ありそうなサービスだ。

ちなみに朝日新聞のニュースは人工音声の読み上げだが、TBSはアナウンサーが喋ったものの録音、NHK定時のニュースの録音だが、そのうち初音ミクのニュースとか、エンタメ的なニュース配信(中身は一緒だろうけれどね)も始まる気がする。

現時点で、コミュニケーションが音声だけということは、デメリットにはなっていない。そもそも、誰かにものを頼む時はボディーランゲージを別にすると、一方的に話しているだけ。音声限定指示でも機能的には問題ないのだから。
「アレクサ、○○してよ」という指示命令について、視覚情報は不要だ。

口述筆記という世界

こうして文章を書くときも、今は、スクリーンを眺めキーボードで入力しているわけだが、これも「アレクサ、口述筆記開始」とか「アレクサ、メモ」とかいうだけで、文章作成ができるようになるのは、一年も待たずに実現してしまうのだろう。

実際に、口述筆記を(Siriを使い)やってみたのだが、(野口悠紀雄さんはすでにSiri口述で本まで書いている)、音声認識率は8割くらい、誤変換が同じく2割くらい出るので、現時点での精度は今ひとつ。それでも来年には、ほぼ実用的レベルにまで来るのではないか。大学生の書いたレポートがとの程度精度が高いものかは判断できないが、一年もたてばSiri口述入力もその程度にはなると思う。

個人的には数年以内に家の中全体に、アレクサのマイクが置いてあり、家の中のどこにいてもなんでも頼める環境が出来上がるのだろうと思う。まさしくデジタルバトラー、「私の執事」様が誕生する先駆けこそ、AIスピーカーなのだ。

 

タグ:

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト /  変更 )

Google フォト

Google アカウントを使ってコメントしています。 ログアウト /  変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト /  変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト /  変更 )

%s と連携中