2017-08-30

失格旅人という言葉を知った話

headlines.yahoo.co.jp

このネタに関してちょっと前に経験した話。台湾支社、台湾人の仕事仲間が休みに家族で北海道のオートキャンプ場を回るツアーを計画していて、お願いされて予約を手伝ってあげたことがあった。とある北海道のキャンプ場に予約の電話をした際に、「利用者は台湾人で日本語が話せない（英語はOK）」と伝えたとたん問答無用に拒否られた。そのおっちゃん曰く、「以前、台湾からの客を受け入れてトラブったことがあり、言葉も通じず困った」とのことだ。

その台湾人はそんな場所で迷惑をかける人では決してないことは自信もって言えるのだが、そのおっちゃんは知らないことだし、面倒の種を事前に回避したいとうことだろう。それこそインバウンド観光産業を盛り上げていかない北海道の観光地なのに、こうしたところのカバーがまだまだできていないことが感じ取れた。そのキャンプ場の規模はわからないが、中国語しゃべれる人材一人雇うのも大変かもしれない。。。*1

私も大バカ者で、今考えれば適当な嘘をつくべきだったが、そのまま台湾人に伝えてしまった。やはりショックを受けてしまい、「わたしは「失格旅人」ではない。」（英語のやり取りにこの漢字が混ざっていた）とコメントした。

気になってこの言葉を調べた。ニュアンスだけだがおそらく、台湾人内で特に日本旅行などでマナーを守らない旅行客のことをこういうようだ（間違っていたらすいません）。こうした同国の人を叱責する言葉ができるぐらい台湾では旅行でのマナーを気にし、よい旅人でありたいという人が多いということだろう。そんな人たちの意をくむ意味でもなんとかお互いがハッピーになれるような策があってほしいものだと強く感じる。

*1:ちなみに、ほかのキャンプ場では同じ条件ですんなり受け入れてくれた。英語を話せるスタッフもいないようだったが、全然Welcomeな雰囲気を出してくれた。当然だが、受け入れるかはキャンプ場による。

2017-08-20

反復性肩関節脱臼術後三か月

身体

手術後３か月たちまして。

リハビリを週２ペースでいっております。リハビリは手術をした病院ではなく、町の整形外科院に通っています。その病院はおそらくあまり私のようなケースを扱うことは珍しかったのか、当初は戸惑っていたようにはみえますがいろいろ献身的にサポートをしてもらっています。おかげでかなり上のほうまで腕が上がるようになりました。

ただ、前回の手術をした総合病院の検診をしたところ、可動の幅がもう少しあっ他方がいい。もし次回の検診ですすみがよくないようならば筋肉を緩める注射をしたほうがよいとのこと。

もう少しがんばっていきたいなと思います。

bython-chogo.hatenablog.com

2017-08-12

ジョジョの奇妙な冒険　ダイアモンドは砕けない　第一章

映画

久しぶりに映画観ました。ジョジョの実写化映画。しかし最近はジャンプ漫画の実写化が多いですね。人気作品は認知度があるからある程度の収益が認められて、予算が落ちやすいということなのでしょうか。

f:id:bython-chogo:20170812005125p:plain

映画『ジョジョの奇妙な冒険ダイヤモンドは砕けない第一章』公式サイト

実写化されるのは原作のジョジョの第四部、日本の杜王町を舞台に東方仗助を主役にスタンドバトルが繰り広げられたジョジョ内でも人気のある部。個性あふれるスタンド使いたちが登場し、「力の強さ」だけではなく、頭脳戦とチームワークで敵スタンド使いを倒していく熱いバトルが持ち味となっている。

勝手な推論を続けさせてもらうと、実写化に当たり、4部を選んだのは「ギリ実写化可能」な舞台だったからといえるのではないだろうか。すべての始まりの一部や、一番人気の三部は実写化するにはあまりにも現実味をもった絵作りが難しそうである。また3部は長旅を続けていろいろな国の人が登場するため、旅前提により映画の尺と物語の進行度の兼ね合いも難しそうだ。その点4部ならば、舞台は日本の一都市（杜王町は仙台市がモデル）で、進行度の調整もあるていど自由にできそうだ。日本人に親近感があり、さらに実写化しても比較的リアリティ感が保てそうな4部を選ぶのは当然かもしれない。

しかしながら、日本の一都市というのはあまりにも観客に身近すぎるため、登場人物が浮きすぎてしまう。漫画の登場人物の姿格好に似せようとすればするほど、現実世界ではとても奇抜な方たちになってしまうのだ。ジョジョのパラドックスといま思い付きで名付けた。製作者サイドがこのリアリティラインの調整を頑張っている様子はすごく感じ取った。例えば杜王町の町の感じは劇中で「日本の一都市」と堂々と語らせているにはあまりにも欧米的な雰囲気が強い。がちがちな日本の都市感を背景にしてしまうとリアリティラインが上がりすぎて、登場人物とのギャップが激しくなってしまうことを防いだと考えられる。

そんな努力はみられるのだが、残念ながら登場人物のういている感じはぬぐいきれない。例えば仗助が髪をからかわれてブチ切れるというシーケンス。これは4部にはなくてならないものだと思うのだが、残念ながら登場人物ほとんどの髪型は（原作に忠実に再現しているため）、おかしい。もっとからかいたくなる髪型のやつはたくさんいるどころか、最初にからかっているヤンキーですら「おまえがいうな」状態になってしまっている。

もう一つ、すこし残念だったのはスタンドのCGがどうもゴム人形や特撮の着ぐるみみたいに見えてしまった。なんかちょっと安っぽい。これは現実に形状の「スタンド」を現実空間に押し込んだためにでるギャップで解決策はないのかもしれない。

文句ばかりではなく良かった点をあげると、個人的にクレイジーダイアモンド v.s. バッドカンパニーはちょっと燃えた。これは見れてよかったかなと思いました。

今作は第一章となっていますが、今後何章まで続けるのかは不明ってことでしょうか。今回、バトルははじまっていないですが、由香子、露伴、鈴美、（トニオも？）あたりの伏線もいろいろ込めてくれたようです。不安なのが観客動員数によって無理やり幕引きとかそういう事態はファンとしては望まないです。また、しょうがない、ということは重々承知の上、一言。レッドホットチリペッパー省いたかー！ザ・ハンドでざっくり削り取られたんかー！ある程度まとまりをつけるためには個性的な４部キャラの（泣く泣くの）選定は必要になってくるでしょう。そのあたりの采配も期待をしておりますので、次回もなにとぞよろしくお願いいたします。

2017-07-10

統計検定2級　結果

統計

合格でした。まじでほっとした。PDFのならびが上から下に並んでいるので落ちたかと思ったよ。。。

2017-06-24

異常検知と変化検知 - 第3章 k近傍法

Python

モチベーション

異常検知と変化検知 (機械学習プロフェッショナルシリーズ)

作者: 井手剛,杉山将
出版社/メーカー: 講談社
発売日: 2015/12/04
メディア: Kindle版
この商品を含むブログを見る

この本読み始めました。専門知識とか、数学の基礎知識が多く私が理解するにはちょっとハードルが高めだったのですが、Pythonで可視化して、どのようなアルゴリズムなのかを理解しながらゆっくり進めたいと思います。このエントリーでは 3章の「近傍法による異常検知」から k近傍法を可視化したうえで方法を説明できればと思っています。アルゴリズムの詳細をかききるのは難しいかと思いますので、気になった方は本を参照いただければと思います。

k近傍法のサマリ

簡単な例として、異常と正常のラベルがついた (x, y) の二次元のサンプルがあるとします。サンプルそれぞれの点から k 個の近い点をチェックしてその正常値、異常値が含まれる割合を求めて、異常値と判断する割合の閾値を計算します。その後、新しい値が来たときに同じような割合の計算をして設定した閾値を超える場合はAlertを出すようにします。

詳細は本書と、外部ですが以下のスライドがわかりやすいかと思います。異常検知と変化検知第4章近傍法による異常検知

今回は正規分布をランダムにだす numpy の関数 randn() を使ってサンプル値を作成します。

num = 100 # 正常値の数
inum = 5 # 異常値の数
# randn()で正常値を 100個、異常値を中心をずらして5個　設定
smpl = [[randn(), randn(), 0] for i in range(num)]
smpl += [[randn()*0.4 + 2.0, randn()*0.4 + 2.0, 1] for i in range(inum)]

図示すると以下のようになります。 f:id:bython-chogo:20170624200213p:plain

参照数 k と閾値 F値をサンプルより計算する

少し驚いたのですが、サンプルから最適な参照する近傍数kと閾値であるF値が高くなるa_thの値を変更しながら一番最適な閾値を見つけるのが事前にやる作業になります。これが経験分布ってことで正しいのでしょうか。そのあたりわかっていません。

kの候補の値を１～６まで、a_thの候補の値を0~5まで0.1まで細かく確認して、F値を計算します。

        klist = [1, 2, 3, 4, 5, 6]
        athlist = [0.1*(1+i) for i in range(50)]
        # 現在までの最大値を記録 [k値、a_thの値、最終的な閾値F値]
        maxset = [0, 0, 0.0]
        for kv in klist:
            for av in athlist:
                self.k = kv
                self.ath = av
                tmp_set = [kv,av,self.calc_ath()]
                #print "k, ath, f", tmp_set
                if tmp_set[2] >= maxset[2]:
                    maxset = list(tmp_set)

閾値を比較するためにのF値の計算は calc_ath()の関数で計算します。F値に関しては一章に書かれてますので、ご参照いただければと思います。

k 値と a_thの値から導き出された F値をプロットしてみます。 f:id:bython-chogo:20170624190238p:plain ちょっとわかりずらいからと思いますが、k=4の時のF値が 0.3636…と一番高い値になります。このF値が基準として、異常値の判定をおこないます。

F値が超える範囲にいろをつけてみた

参照する近傍数K=4で設定して、0.3636を超える場所を薄赤で表示してみます。

    def plot_abn(self):
        k, ath = self.check_better_comb()
        print k, ath
        xl = []
        yl = []
        
        # 縦横-3.0 から 3.0まで0.1でF値を計算してプロット
        for x in range(60):
            xd = x*0.1 - 3.0
            for y in range(60):
                yd = y*0.1 - 3.0
                dltList = []
                # 各地点とサンプル間の距離を計算
                for j, smp in enumerate(self.smpl):
                    dltList.append([self.delta(smp[0:2], [xd, yd]), j])

                nml, abnml = 0, 0
                n_cor, ab_cor = 0, 0
                # 近い順に k 個のサンプルを抽出してF値を算出。
                # 閾値を超えた値をxl, ylに記録
                for j, dl in enumerate( sorted(dltList)):
                    if j == k:
                        break

                    if self.smpl[dl[1]][2] == 1:
                        abnml += 1
                    else:
                        nml += 1

                if np.log(self.pi0*abnml)-np.log(self.pi1*nml) > ath:
                    xl.append(xd)
                    yl.append(yd)

        plt.xlim(-3.0, 3.0)
        plt.ylim(-3.0, 3.0)
        plt.scatter(xl, yl, color='r', alpha=0.1)
        self.ploting()
        plt.show()

表示すると以下のようになります。異常値である赤の周りが異常値として判定されるいるのがわかります。多少正常値のサンプルも入ってきますが、アラートを上げる範囲としては妥当といえるかと思います。 f:id:bython-chogo:20170624190618p:plain

ソースコード

以下、今回利用したソースコードになります。ご確認を

import numpy as np
import matplotlib.pyplot as plt
import random
from numpy.random import *
%matplotlib inline

num = 100
inum = 5
smpl = [[randn(), randn(), 0] for i in range(num)]
smpl += [[randn()*0.4 + 2.0, randn()*0.4 + 2.0, 1] for i in range(inum)]

class KNearest():
    def __init__(self):

        self.num = num
        self.inum = inum

        self.pi0 = self.num*1.0/(self.num+self.inum)
        self.pi1 = self.inum*1.0/(self.num+self.inum)
        
        self.k = 5
        self.ath = 0.1
        self.cand = []
        
        self.smpl = smpl

    # サンプルのPlot
    def ploting(self):
        plt.xlim(-3.0, 3.0)
        plt.ylim(-3.0, 3.0)
        for s in self.smpl:

            if s[2] == 0:
                plt.plot(s[0], s[1], 'bo')
            else:
                plt.plot(s[0], s[1], 'ro')

    # 2地点の距離の計算
    def delta(self, a, b):
        return (a[0]-b[0])**2 + (a[1]-b[1])**2

    # a_thからF値計算。。。データ消してしまった　orz..後ほど
    def calc_ath(self):

    # 最適なF値の計算
    def check_better_comb(self):
        klist = [1, 2, 3, 4, 5, 6]
        athlist = [0.1*(1+i) for i in range(50)]
        
        maxset = [0, 0, 0.0]
        for kv in klist:
            for av in athlist:
                self.k = kv
                self.ath = av
                tmp_set = [kv,av,self.calc_ath()]
                #print "k, ath, f", tmp_set
                if tmp_set[2] >= maxset[2]:
                    maxset = list(tmp_set)

        return maxset[0], maxset[2]

    # F値のプロット
    def plot_better_comb(self):
        klist = [1, 2, 3, 4, 5, 6]
        athlist = [0.1*(1+i) for i in range(50)]
        
        result = {}
        maxset = [0, 0, 0.0]
        for kv in klist:
            result[kv] = []
            for av in athlist:
                self.k = kv
                self.ath = av
                result[kv].append(self.calc_ath())

        for kv in klist:
            plt.plot(athlist, result[kv], label='k =' + str(kv))
        plt.legend()
    
    # F値を超越して異常と判定される範囲をプロット
    def plot_abn(self):
        k, ath = self.check_better_comb()
        print k, ath
        xl = []
        yl = []
        
        
        for x in range(60):
            
            xd = x*0.1 - 3.0
            for y in range(60):
                yd = y*0.1 - 3.0
                dltList = []
                for j, smp in enumerate(self.smpl):
                    dltList.append([self.delta(smp[0:2], [xd, yd]), j])

                nml, abnml = 0, 0
                n_cor, ab_cor = 0, 0
                for j, dl in enumerate( sorted(dltList)):
                    if j == k:
                        break

                    if self.smpl[dl[1]][2] == 1:
                        abnml += 1
                    else:
                        nml += 1

                if np.log(self.pi0*abnml)-np.log(self.pi1*nml) > ath:
                    #print xd, yd
                    xl.append(xd)
                    yl.append(yd)

        plt.xlim(-3.0, 3.0)
        plt.ylim(-3.0, 3.0)
        plt.scatter(xl, yl, color='r', alpha=0.1)
        self.ploting()
        plt.show()

2017-06-20

2017年6月統計検定2級　反省会会場

統計

日曜に受けた統計検定2級の公式解答がでてきました。
http://www.toukei-kentei.jp/wp-content/uploads/ans2017j_grade2.pdf

bython-chogo.hatenablog.com

結論から言うと、24/35 、率としては68％となりました。うーん微妙。よくよく見てみると基本的なところが間違っていて全然理解できないことがよくわかりました。。というわけで反省会！赤のところが間違っているところで、コメントをつけたしておきました。ただ見直してもよくわかってないようで、いろいろまずい部分が浮き彫りになっています。

[1] ④
Ⅰ　○　TV保有率はずば抜けていてPC保有率と被らない故
Ⅱ　○　PC保有率の第3四分位数12都道府県はDVD/BD保有率と被らない
Ⅲ　×　SP保有率とMP保有率はオーバーラップするため高いかどうかの判断がつかない
[2] ③　MPの最高値は75～80でb, SPの最高値は80~85でa,
[3] ③　茨城の中央値は28841で足していくとD内
[4] ②　同じく長野の第1、第3四分位数の値まで足していくと、BとD
[5] ⑤　北海道のA～Fまで足しても20％に満たない（エ）、秋田のA～Bを足して10％に満たない（ウ）
[6] ③　1668/995 = 1.68, 68%増
[7] ②
Ⅰ　×　季節性の傾向ならば前年同月比でもよくね？
Ⅱ　○　図より拡大している
Ⅲ　×　伸び率は訪問数の差分に影響しない
[8] ③　自信なし！自己相関係数とコレログラムをお勉強
=>　やはりまちがっていた！でも正解の絞り方がわからない。。。①なのかー①なんだなー。

[9] ④　目分量、強い負の相関だけど、-0.9まではないか
[10] ②　目分量、ちょうど間とおてる
<span style="color: #ff0000">[11] ③　F値が、推定値/標準誤差で -6.27, 自由度はサンプル数25-1</span>
=> いやー、どうどうと間違った解答をｗ　自由度は 25-2 みたいです。。。おいうことでたぶん⑤

[12] ④
①　×　制度は悪くなる
②　×　迷った。各層内の散らばりを小さくする必要があるのか？
③　×　渋谷でやったら渋谷ピーポーの傾向が強くなる。無作為にはならない
④　○　非がない
⑤　×　渋谷ピーポーのお友達紹介したら渋谷ピーポーの傾向が強くなる。
[13] ⑤　自信なし。④だったか。
=>　③でした。ｗで恥の上塗り。
　　b = (X-Y)/2 - (ε1 - ε2)/2 だから、σ**2/2, なのかなぁ。。

[14] ④　超パニックになっていたが、0.1 * 0.4 だわね
[15] ③ 規格外率 0.1*0.4 + 0.05*0.3 + 0.02*0.3
[16] ②　条件付き確率　(0.1*0.4) / [15]
[17] ③　5C4 (0.7)**4 (0.3)**1
=> ああ、間違えてもうた。そうか、4戦目までに名人が3勝1敗の場合、4C3 (0.7)**3 (0.3)**1 で5戦目に名人が一勝するために、0.7をさらにかけるのね。すると、0.28812で①でした！
[18] ②　多分間違えた⑤が正解か。6戦目までで引き分けている確率 6C3(0.7)**3 (0.3)**3 = 0.185<
=> やはり⑤でした。稼げた問題だけに超もったいない2問です。
[19] ④　自信ない。複数の標本が合わさるやつ苦手ね。
[20] ④
Ⅰ ○　足しても引いても平均0は0
Ⅱ ○ [19]が正しいこと前提だと真だが、果たして
Ⅲ ×　わからない。。。
=>　Ⅲは○だったようです！これはどういうことだ。
[21] ③　自信ない。正規分布で、0.05の上側は1.64となるので、カイ２乗だから、1.64の２乗つーことで選んでみました。
=>　完全に導き方ミスりましたね。カイ２乗分布表から0.5 自由値１の値をみつければ。3.84ですので④
[22] ⓶　[21]から、Wn/2 = 1.355, カイ２乗分布でそれを超えるのが、自由度７のとき、じゃあ nは１足して８！　それらしいあてずっぽだし、[21]の解答に依存する
=>　ラッキーパンチ！一定確率であてずっぽが当たるのは皆平等に与えられた権利です。これはやっぱり分布表からでしょうね。2nが0.05を超える直前の値は7ですね。するとnは8になるようです。
[23] できなかった。とりあえず③と埋めてみた

=>　やっぱりミスってた。んでまだ答えがわからんぞ。がんばろ。
[24] ⓸　標準誤差 = 標準偏差/root(n)、正直パニクった
[25] ⑤　計算して出てきたのがこれだけど、ミスってないか不安。1.64で算出
[26] ①
Ⅰ ○　不偏・・・だよな？
Ⅱ ×　許容範囲を広めるので、広くなる
Ⅲ ×　1/root(3)倍になるはず。。。
[27] ②　自由度はそれぞれ１引く
[28] ①　27*49/100
[29] ②　(2-1)*(2-1)
[30] ④　あれ、足せばいいんですよね・・・？

=>　あちゃー、不偏分散は(n-1)で割らなきゃダメです！割ったら ①ですね。
[31] ⑤　地域は４つなので、自由度は３、F値は平均平方の比率
[32] ②　Prが0.0405で５％以下、なので棄却できない

=>　これはやばい。検定の基本的な部分を間違えて覚えちまっている。5％以下なので、帰無仮説を棄却！しなきゃだめ。①

[33] ②　問１５は理解するのに時間がかかりパニクった。時間なくなるし。31.9 + 0.3 * 28 - 4.43
[34] ①　Prが全部5%未満なので採用

=>　有意に「正」となるパラメータね。。。ひっかかった。β2は負のパラメータだわさ。
[35] ⑤　
①　×　博士号と理論研究の関係性はわからない
②　×　PhDAgeが少ないが最盛期も少なくなる
③　×　理論研究者のほうが４年半ほど早く最盛期に到達する
④　×　t値の判定から、４年半の差は統計的に有意である
⑤　○　だから、理論研究やれば４年半早く最盛期迎えられるの！

なんどもいうようですが、やばい。合格できるのかはなぞですが、基本的な部分がことごとく間違った理解をしていることが明らかになりました。[8][13][20][23]についてはきちんと解答が導けないありさま。受かるかまだわかりませんが、まだまだ精進が必要！

2017-06-18

統計検定試験その後の散歩

雑記

前回のエントリの通り、本日統計検定２級をうけてきました。実は午後に準１級も申し込んでいたのですが、ほとんど勉強できなかったうえ、２級でぎりぎりの状態だったのでやめることにしました。会場は文京区の中央大学キャンパス。そこの近くに文京シビックセンターによってから帰ることにしました。文京区の区役所なんですが実はここの上が無料の展望台なんです。東京２３区のど真ん中にあるため、２３区のランドマークがたくさん見渡せるのでおすすめ。 f:id:bython-chogo:20170618231923j:plain

統計検定会場となった中央大学のキャンパスです。いい眺めでしょ。

シビックセンターをあとにしたあと、ふらふらと歩いていたら神社が。そこには金毘羅宮とかかれていました。そういえばブラタモリでやっていたことを思い出してお参りに。

f:id:bython-chogo:20170618232129j:plain

そこから変なスイッチが入ってしまいました。よっしゃこのまま歩いて神田明神に行ってみようじゃないの！って感じで、水道橋駅から神田川をのぼって御茶ノ水、神田明神に到着。

f:id:bython-chogo:20170618232251j:plain

なんか巫女さんとか宮司さんとかがいそいそと歩いていて、行事をやっている様子。境内の真ん中に藁のワッカができていて説明書きを読むとその中を通りながら８の字歩くとご利益があるようだけど、さすがに一人では恥ずかしいので却下。お参りだけして後にしました。

もうここまで来たら湯島もいっちゃうでしょ。一度はいったスイッチぶっ壊れちゃってるようです。

f:id:bython-chogo:20170618232602j:plain

境内に入るとなにやら儀式をしている音が。そこでは神前の結婚式がとりおこなわれているようでした。音に合わせて２人の巫女さんが舞を踊っているようで、思わず前前前世を唄ってしまいそうなのをこらえながらお参りを済ませました。

いや、ここまでいろんな神様にお願いしたから統計検定も大丈夫でしょう！とルンルンで途中で見つけた定食屋にはいって、遅めの昼飯でラーメン・チャーハンセットを幸せにいただきました。きっと神様にも私の祈りが届いたのでしょうか、もしくは普段の行いかよかったのか、店をでたら激しい雨が降り始めてきてしまい、駅までダッシュしたのですがびしょ濡れになるはめに。。。きっと神様が僕の浅はかな信仰心とあるく不謹慎ぶりを見抜いて罰をあたえたもうたのでしょう。

統計検定の結果も思いやられます。

思考ノイズ

無い知恵を絞りだす。無理はしない。

失格旅人という言葉を知った話

反復性肩関節脱臼術後三か月

ジョジョの奇妙な冒険　ダイアモンドは砕けない　第一章

統計検定2級　結果

異常検知と変化検知 - 第3章 k近傍法

モチベーション

k近傍法のサマリ

参照数 k と閾値 F値をサンプルより計算する

F値が超える範囲にいろをつけてみた

ソースコード

2017年6月統計検定2級　反省会会場

統計検定試験その後の散歩

モチベーション

k近傍法のサマリ

参照数 k と 閾値 F値 をサンプルより計算する

F値が超える範囲にいろをつけてみた

参照数 k と閾値 F値をサンプルより計算する