システム設計　オフィスエヌ: AI

ラベル AI の投稿を表示しています。すべての投稿を表示

2020年11月24日火曜日

官報掲載統計センター【ＡＩ技術を用いた文字認識サービスの提供業務】

私がシステム設計、提案した案件が官報に掲載されました。統計センター【ＡＩ技術を用いた文字認識サービスの提供業務】です。これは紙の統計調査票をAI-OCRという文字認識技術で自動読み取りしてデータの整備を行うというもので、AI技術の実使用として国内最大規模のものです。令和2年国勢調査を含む大規模調査の自動読み取りに5年間使用されます。

第3次AIブームも重要なマイルストーンを通過しました。

期待値だけでは技術の自然成長はあり得ません。実使用に耐え、経済価値をもたらすかがポイントです。同じAI、ニューラルネットでも音声認識はOCRほどお金になりません。官庁であれ民間であれ業務情報は書類として記録されており、オーディオで保存されている訳ではないからです。画像認識の応用として医療がありますが、医師抜きの画像診断に診療報酬をつけられる訳でもなく、お金になるのでしょうか？AI-OCRがちょうど実使用期に入った良いタイミングでこの入札がありました。書類を対象とするAIは今後も発展していくでしょう。

AIだけでは実用レベルのシステムは出来ません。他のIT技術を組み合わせた全体設計となって、ようやく使い物になります。要件分析、基礎設計、プロジェクト計画など全てを私が行いました。建築のような目に見えるデザイン、意匠はありませんが、システムにも筋のいい設計、悪い設計があります。基礎技術を使って費用対効果の高い、シンプルで安定したシステムを設計するのが私の得意です。1人称で書いていますが、本当に1人称です！入札提案は難易度の高い仕事ですが、落札提案がまさか1人の手によるものだったとは競合もあきれ返ることでしょう。

入札提案の実際はまた次の機会に

永島志津夫

全社のシステムを少ない人数で見ていれば時に見落としもあるかもしれません。
オフィスエヌ ショートレビュー5万円から。
連絡先 office.nagasima#gmail.com (#を@に変えてメールをお願い致します)

2020年9月7日月曜日

コンペ提案〈勝ち抜き〉

RFPとか競争入札の提案活動のお話です。私はベンチャーが性にあっているので、だいたいチャレンジャーサイドでした。競合は大手、有名どころばかり、そんな不利な立場からの勝ち抜き、仕事の醍醐味です。

この8月（2020年）まるまる、某AIコンペに費やしました。夏を制する者は受験を制す、と言いますが8月までに下期の案件が決まるのでシステムの仕事でも8月は重要です。RFP対応とかコンペはこれまでもこなしてきていますが、これだけどっぷりというのは初めての経験です。

コンペは最後にだいたい2社の争いになります。チャンピオンサイド（大手有名どころ、既存ベンダー）対チャレンジャー（ベンチャー、新顔）になることが多いです。チャレンジャーがコストに勝るからで、大手の似たような提案は途中で絞り込まれることが多いです。コンペは、コンペをして発注先を決めたという手続き自体に意味があることも多く、はじめから当て馬というケースも多々あります。そうでなくともチャレンジャーサイドは負けること多く、光る技術、製品があっても、トータルで大手企業の求める品質基準についていけず、落とされます。会社の名前が品質を表すものではありませんが、名前で選ばれるのが現実です。

勝率は高くはありませんが、チャレンジャーが勝ち抜ける例があるのも事実です。なぜか？と問うよりも、実力勝負、興味ありませんか？ ” ここがロドスだ、ここで飛べ！ ”

高校受験とか大学受験はみんな実力勝負でしよね。仕事でもその道何十年という経験を積んだ以上、自分の力で勝負したくありませんか？そんな機会を多く経験してきた私は幸せなのだと思います。システム大手では専門分野毎に、アプリ、基盤、プロジェクト管理・・と分担します。そもそも組織、部署が分かれていますから、担当分野以外のことに手を出せないようになっています。チャレンジャーサイドに分があるとしたら、一人の意思の全体設計で大手ではできないようなQCDを実現することにあります。顧客が見落としている大事なポイントがあれば、勝算は上がります。チャレンジャーの描くストーリーが評価基準になるからです。競合関係にない相手の場合、能力として自分より下の人間よりも上の人間を選ぶ傾向があります。 ”何でもやります” という提案よりも、 ”こうしなさい” という提案が選ばれます。名前で有名どころを選ぶのも同じ理由です。チャレンジャーはストーリーでそれ以上のことします。提案担当ができることと言えばそれくらいです。

競争ですから、案件の中身、要求仕様もさることながら、案件の状況を知ることが大切です。見極めの一番のポイントは、なぜ依頼をしたかの理由、経緯そして今後の段取りです。段取りがあいまいな相手に付き合う必要はありません。相手を立てれば案件が取れる訳でも、事業や自分が成長する訳でもありません。発注者に思い違いがないようこちらの出来ること、立場を知ってもらうことが大事です。コンピュータは人間ほど利口ではないし、簡単ではないし、開発には時間もお金かかるということです。私は最初にはっきりそれを言います。勝算のない案件に時間を使うことよりも実需に合わせた製品コア機能の拡充に時間を使うべきです。

ところで初めから勝算のない当て馬案件、見分けは簡単なのですが営業の立場だとなかなか捨てられません。ノルマがあるからですが、結局期末に悲しい結果を迎えます。当て馬ばかりというのは、営業の問題ではなくて製品、事業が当て馬レベルでしかないということです。そういう会社からは早く離れた方がいいです。ITの場合、営業で製品の不足を補うことは難しいです。いい仕事をするためには、いい環境に身を置きましょう。自己中心的、わがままでいいと思います。会社や上司も、みなさんの先のキャリアを考えている訳ではありません。その時々で役に立つ人間が欲しいだけです。自分のキャリアは自分で作る、そういう心構えがなければ、意思の通った全体設計なんてできないと思いますが、いかがでしょう。

永島志津夫

2020年5月15日金曜日

使える AI 使えない AI

コロナの影響で派手な催しもできず AI / IT バブルがすっかり鳴りを潜めた感がありますが、本当のところはどうなんでしょうか？ IT なんて不要不急の代名詞かと思いきや AI 系は影響を受けていないようです。よっぽど医療関係のほうがダメージが大きいです。

わからないものです。医療のほうが不要不急だったとは。ただ区別しないといけません。医療は個人のニーズで、AI / IT は企業のニーズです。たまたま私はそのふたつを掛け持ちしているので比較してしまうのですが、企業活動は個人活動を凌ぐ力、強さがあるようです。

AI にお金払っている個人います？いませんね。パソコン相変わらず賢くありません。このブログも賢くないかな漢字変換で効率悪く作っています。お金出して ATOK 入れたほうがいいのは分かっていますが、人間がカバーして良しとしてしまいます。

ところが、企業は AI にお金払います。AI が全部できる訳ではないです。本当に限られたシーン、適切なユースケースだけです。ただボリュームが大きくなると人間の 1/10 以下のコストで業務をさばきます。24時間365日さばき続けます。10倍、1/10 というのは、パラダイムシフトが起きる目安で、以前のニューラルネットや AI ブームが終わってしまったのは、せいぜい 3倍、1/3 どまりだったからです。

さてタイトルの “ 使えるAI 使えないAI ” 決め手は認識率だけではないです。ユースケース設計もです。認識率が仮に 80% でも、サンプリング調査であればサンプル数を 25% 増やせば必要なデータは得られますね。ちょっと机上計算をしてみましょう。

・1 サンプルに10円かかる調査で 1000サンプルなら 1万円、1250サンプルなら 12,500円
・1サンプルを人間がデータ化するのに 10円、AI だと 1円だとします。
　1000サンプルを人間がデータ化するには、1万円
　1250サンプルを AI がデータ化するには 1250円
結果、人間だと2万円、AI だと13,750円です。2万円と1万4千円ではインパクトないですが、2億円と1億4千万円だとしたら、 AI に切替ない経営陣は責任を問われます。

使える AI はユースケースに利があります。利があるユースケースをターゲットにして不要不急のコストをかけずに市場を拡大しています。AI もまた資本主義の申し子、おそるべし資本主義！資本主義の辞書に自粛という言葉はないようです。

永島志津夫

全社のシステムを少ない人数で見ていれば時に見落としもあるかもしれません。

オフィスエヌショートレビュー5万円から。

連絡先 office.nagasima#gmail.com (#を@に変えてメールをお願い致します）

2020年4月28日火曜日

システム開発　原価計算・資産計上

以前取り上げた工事進行基準廃止！ 2021年4月から強制適用の影響いかがでしょうか？分割検収が一つの手ですね。要件定義と設計開発が同時に進むようなアジャイルでは分割検収できないのでウォータフォールに逆戻りしている案件もあるのではないでしょうか。その検収ですが異質なのがAI領域ですね。納品時点では認識率が目標値に達していないことがあります。使い続ければユースケースに最適化されていくことは分かるのですが数値保証はされません。“資産計上していいのか？” 経理部さんを悩ませます。

AI技術を搭載した業務システムが導入され、自社業務・自社データで受入試験開始します。1日目で気付くと思います。“カタログスペックまず出ません”。コンピュータって賢くないです。AIだろうと電卓だろうと同じ、しょせん足し算と条件分岐の組み合わせです。コンピュータにはコンピュータに向いた仕事を定義して、単純ロジックに整理してあげないとエラーが多くて使い物になりません。それがユースケースです。ユースケースを整理できるAIはまだありません。一番面倒なところは人間仕事です。

いったん適切なユースケースが与えられれば、AIシステムは処理データ量・使用時間とともに精度が向上していきます。かな漢字変換（ATOKとか）もそうですが、使うほどにユースケースに最適化されていきます。かな漢字変換も入力効率が上がっていきます。大規模なAIシステムだと経済効果が大きなものになります。当初想定した投資対効果を上回り、めでたしとなるのですが、システムの資産価値はどうでしょうか？ソフトウェアなら5年の減価償却が基本ですね。減価償却ということは費用処理できる訳ですが、使うほどに生産性の向上するソフトで利益圧縮ができるなんて経営側から見れば打ち出の小づちです。本来なら、販管費から一部、資産に振替えていかなければならない気がします。類似するのは製造原価計算の副産物の原価控除でしょうか。

大手鉄鋼メーカーの経理部の方にお聞きしたことがあるのですが、現在の製造原価計算法は鉄鋼製造に由来しているところが少なくないそうです。AIソフトの普及、進展とともに減価償却の逆で資産が年々増える会計処理が制度化されるかもしれません。その際は単純な計上基準であってほしいですね。

ところAIソフトですが、最初からカタログスペックに近い値が出るのは不吉なサインです。自社業務のユースケースを学習させる余地がないからです。他社業務のユースケースで学習飽和したニューラルネットを再学習させるのは難しく、学習量の少ない未熟なニューラルネットを強化する方が容易です。

永島志津夫

全社のシステムを少ない人数で見ていれば時に見落としもあるかもしれません。

オフィスエヌショートレビュー5万円から。

連絡先 office.nagasima#gmail.com (#を@に変えてメールをお願い致します）

2020年4月16日木曜日

湿度75% が飛沫感染の予防目標か？

時節柄、今回も予防衛生の話題からです。感染という言葉を聞かない日がないくらいですが、ウィルス感染の前段階に “吸着” というプロセスがあります。吸着とは宿主細胞表面にウィルスが安定的に密着した状態です。ウィルスは宿主細胞に自力でたどり着くすべがないので、宿主細胞表面に密着できるかどうかは偶然です。健康な粘膜表面は粘液で覆われているので、ウィルススケールでは三次元の障壁となります。粘膜・粘液保護の弱い部位にウィルスが付着することが吸着を有利にします。吸着できなければ細胞内への侵入（≒感染）プロセスには進めません。タイトルの通り、湿度75%以上が飛沫感染の予防目標ではないか、というお話（仮説です）。

生まれてから死ぬまでの全ての間、生物は常に微生物、病原体にさらされていますが、免疫システムがバランスを取りながら病原体から身を守っています。免疫システムの複雑さは神経系に例えられるほどで、人間が90年前後生きられるのはこの免疫システムに負うところが大です。過労・睡眠不足は要注意ですが、普段の健康状態に問題がなければ、心配することはないでしょう。心配の精神ストレスの方が考えものです。

予防衛生の一つ、飛沫感染対策です。「インフルエンザってそんなに怖いの？」？の38ページをごらんください。鼻、のど、気管支、肺への付着率と粒子径の関係を調べたものです。大きな飛沫は鼻には付着しますが、肺にはほとんど届きません。粒子が小さくなる程、肺への付着率が上がります。また肺の場合は鼻（鼻腔）よりもはるかに少ないウィルス数で感染が成立するとみられています。肺胞組織の健全性が損なわれている場合はさらに感染率が上がります。コロナに限らず、肺への感染は急速に症状が進みます。注意すべきはこの点です。肺に到達するような微粒子をどう防止するかです。

0.1mmオーダーの飛沫粒子は飛散中の乾燥でマイクロメートルサイズの微粒子になります。乾燥を左右するのは主に湿度で、室温 15-25℃ では、75% 以上の湿度があれば微粒子化までに5秒程かかります。なので飛沫を吸い込んだとしても、微粒子状態ではないので鼻腔で留まるだろうというものです。もちろん鼻呼吸していればですよ。湿度75%というのは東京では6月から10月頃の気候です。体感的には季節風が南風に変わるゴールデンウィークあたりから変化が表われるのではないかとみています。またアンブロキソールという薬が肺・気管支粘膜保護に役立ちます。高齢の方は医師にご相談下さい「生体防御因子群の分泌を促進する塩酸アンブロキソールの抗インフルエンザ効果」。

飛沫乾燥時間見積（湿度75%、飛散速度3m/s）

縦軸：時間(秒）、横軸：気温（℃）

飛沫乾燥時間見積（気温20℃、飛散速度3m/s）

縦軸：時間(秒）、横軸：湿度（％）

今年の夏は、換気対策で部屋の空気を入れ替えながらのエアコン使用でしょうか。換気とともに亜熱帯の湿気が部屋に入ってきますが、ドライ運転はしない方がいいですね。蒸し蒸ししたオフィスにいるくらいなら自宅で快適にしていたい訳で、テレワークが定着してしまいそうです。

テレワークは組織を疎結合化し瞬発力発揮に弱くなります。事情はどこも同じで慣れてきたのか、鈍くても文句あまり言われません。一方、自律的で集中力を持続させやすいというメリットは大きいです。こんな騒ぎの最中でもシステムの仕事は減りませんし、生産性も下がっていないようです。テレワーク向きの仕事だったということもあるのでしょうが、AI系は加速している感じもします。システムは人の仕事を機械に置き換えることを目標とするものなので、この勢いで進んだらコロナ騒ぎが落ち着いた後も一部雇用は永久に戻らないでしょう。
機動性、瞬発力を取柄とした人・組織は相対的に順位を下げ、鈍だが、その人・その組織にしかアウトプットできない仕事がニッチを広げていきそうです。
図らずも、社会進化の真っただ中に居合わせてしまったようです。

永島志津夫

追記
　風疹患者数、川崎病患者数が半分程度に減っているようです。予防衛生習慣が広くこのまま定着してくれたら、まさにティールです。

2020年2月11日火曜日

記号処理とニューラルネット後半〈Python AI ニューラルネットその7〉

ニューラルネットに記号処理・記号学習を組み合わせたら、というお話の後半です（前半はこちら）。欲張って中間層を50セルにし、第二位と誤答データだけで学習させたネットの結果（記事はこちら）を記号学習させました。結果は98.5%となりました。

中間層50セルで誤答データのみで再学習、epoch 1-17 が1つ目のニューラルネット、それ以降が2つ目のもの

記号学習は記号列生成と重み付け（学習）の2つのステップがあるのですが、今回は単純なので生成は端折りました。

記号列です

正解｜第一位｜第二位｜誤答学習による第一位
ニューラルネットの表現では入力層が 10 + 10 + 10 、出力層が 10 、この組み合わせが 10,000 ( 10 * 10 * 10 * 10 ) あるイメージとなります。

学習アルゴリズム

各記号列の重み付けは 10 * 10 * 10 * 10 = 10,000 のカウンター配列で表現します。学習データの結果に該当する配列要素をカウントアップしていきます。

評価アルゴリズム

テストデータに対し評価を行います。第一位誤答時に、第一位、第二位、誤答学習ネットによる第一位の記号列に相当するカウンター配列から最もカウントの多かった正解* を選びます。numpy.argmaxで一発ですね！

以上です。何と単純なアルゴリズムでしょう。くどいことを言えばAICを参照して冗長なパラメータをまとめてもいいのですが、アルゴリズムの単純さをそのままにしました。

これでもダメなケースはアフィン変換で伸ばしたり、縮めたり、回したり、動かしたりなのですが、計算コストがかかります。なので、簡単なアルゴリズムである記号処理を先に適用して良いかと思います。また記号処理はバイアスをかけられる利点があります。* 最もカウントの多いものを選ぶ代わりに、答えの候補のカウント値や順位を参照します。

MNISTのデータだとコンテキストはないのでバイアスの実験にはなりません。面白そうなサンプルがあったらまたブログにしますね。

永島志津夫

2020年2月7日金曜日

記号処理とニューラルネット前半〈Python AI ニューラルネットその６〉

ニューラルネットに記号処理・記号学習を組み合わせたら、というお話です。前回、“多層化が認識の本筋ではない” ことに触れましたシステムの費用対効果〈Python AI ニューラルネット - MNIST その5 その続きになります。

まず、テスト結果を見てみましょう。

中間層50セルのテストデータ評価

出力	0	1	2	3	4	5	6	7	8	9	合計
誤答	54	25	59	70	62	39	57	46	61	64	537
正答	962	1,114	967	953	932	808	919	961	912	935	9,463
合計	1,016	1,139	1,026	1,023	994	847	976	1,007	973	999	10,000

出力の３や９の誤答率が高いですね。どのように間違えているか見てみましょう。

同、出力別正解対応表

出力正解	0	1	2	3	4	5	6	7	8	9	合計
0			2	2		4	7	2	1		18
1			2	2		1	5	2	9		21
2	11	1		7	10		9	9	16	2	65
3	1	1	16			14	1	11	10	3	57
4	1	2	4				10	2	3	28	50
5	11	1	3	25	3		14	5	15	7	84
6	11	3	3		10	6		1	5		39
7	3	7	25	7	5					20	67
8	5	3	3	16	6	8	11	6		4	62
9	11	7	1	11	28	6		8	2		74
合計	54	25	59	70	62	39	57	46	61	64	537

これを見ると、誤答パターンがあるのに気付きますね。

出力 = ３では誤答70例中、正解 = 5, 8 で41例と過半数を占めます。“３のような５”、“３のような８” の悪筆が比較的多かったとも言えます。出力 = ３で間違えたら 5 と再回答すれば 25 / 70 ≒ 36% の確率で正解します。

出力層第二位の結果に注目して詳細を見てみましょう。出力層第二位の結果を含めると正解率は向上します。
システムの費用対効果〈Python AI ニューラルネット - MNIST の続き〉

二位出力別正解対応表（一位出力＝３で誤答）

二位出力正解	2	4	5	6	7	8	9	合計
0			1			1		2
1			1		1			2
2		1	2		1	3		7
5			25					25
7					3	2	2	7
8	1		1	1		13		16
9			1			3	7	11
合計	1	1	31	1	5	22	9	70

二位出力＝正解のケースは誤答総数70例中、48例（ 25 + 3 + 13 + 7）です。なので二位出力を再回答すれば 48 / 70 ≒ 69% の確率で正解します。では全てのケースで二位出力を再回答すればよいのかというとそうでもありません。

二位出力別正解対応表（一位出力=9で誤答）

二位出力正解	2	4	5	6	7	8	合計
2						2	2
3			1		1	1	3
4		1	2	1	10	14	28
5		1	2		1	3	7
7	1	5	6		3	5	20
8		1			1	2	4
合計	1	8	11	1	16	27	64

最も多い正解は 4 で 28例です。4と再回答すると 28 / 64 ≒ 44% の確率で正解します。ところが二位出力＝正解のケースは 8例しかありません。正解確率は 8 / 64 ≒ 13% とかえって悪くなります。 “９のような４” 、 “９のような７” は単純なニューラルネットには難し過ぎるようです。
そこで二位出力が２，４，５の時は７と答え、６，７，８の時は４と答えると 37例が正解になります。正解確率は 37 / 64 ≒ 58% です。

このような再回答ロジックにより正解率97.4%（誤り率2.6%）に改善できます（元の正解率94.6%（誤り率5.4%））。なお、第二位再回答では正解率96.9%（誤り率3.1%）です。

実はここまでが前置きになります。今回のお題は記号処理とニューラルネットです。このような再回答ロジックを “人間が” プログラムで組むことは簡単ですが、果たしてニューラルネットで表現したり、学習することはできるのでしょうか？

長くなったので２回に分けます。次回に続く。

永島志津夫

登録: 投稿 (Atom)