1. まとめトップ

この記事は私がまとめました

ntsujiさん

「みんなの顔文字辞典」の中の人からのSimeji_jpアカウントへの問い合わせから始まりました

.@Simeji_jp 昨日19時頃バイドゥのIPアドレスから短時間のうちに30万回を超える不審なアクセスが弊社のサービスにありました。繋がりづらくなり利用者の方に大きな迷惑がかかりました。DoS攻撃として被害届を出すことも検討してます。アクセスの意図など早急に説明をお願いします

@mitsuaki_i お問い合わせいただきありがとうございます。Simejiサポートです。只今事実関係を確認中でございます。確認が出来次第、早急にご連絡致します。大変恐縮ではございますが、今しばらくお待ち頂けますでしょうか?

攻撃元IPはダイレクトメッセージで送りました。どうぞよろしくお願いします。 RT @Simeji_jp: @mitsuaki_i お問い合わせいただきありがとうございます。Simejiサポートです。只今事実関係を確認中でございます。確認が出来次第、早急にご連絡致します。大変恐縮で

.@Simeji_jp ご返答はいつ頃になりますでしょうか?また、210151件は弊社サーバーが200番を返したようですので、そのアクセスによって得られた情報を全て削除をして下さい。

.@Simeji_jp メンションでお返事頂いてもいいでしょうか? クローラーという返答には納得がいきません。baidu.jp/spider/ こちらにも記載されていないアドレスですし、クエリパラメータは弊社のAPIを叩くように記述されてました。

アクセス元は公表されていないアドレスから。
アクセス内容は「みんなの顔文字辞典」の変換結果を問い合わせるようなものだったのでしょうか。

@mitsuaki_i 返信が遅れ、誠に申し訳ございません。確認結果については先ほどダイレクトメールでお送りしました。ご確認の程宜しくお願い致します。

. @Simeji_jp 故意ではないという事ですが特定のホストに対してパラメータを設計してリクエストを投げるのが故意では無いとしたらなんなのですか?原因についての説明は納得がいかないままですし、当初求めた目的/意図に対する説明がまったくありませんので納得がいく説明をお願いします

今日は納得いく説明はもらえそうにないな。 "公式ページには全く記載がないクローラーが、情報収集の為に、弊社のAPIのクエリパラメータに合わせて一般ユーザーのアクセスが困難になるほど大量の30万回のリクエストを行なった。故意ではなく過失であった。" 返事をまとめるとこんなところ。

.@Simeji_jp 納得いくお返事がなかったので追加で一点ほど。弊社に対する一連のアクセス(検索のリクエスト)に、御社クラウド変換で使っているような(人名や話し言葉の)テキストがリクエストの回数分含まれているんですが、これは御社では社外に送信して大丈夫な情報なのでしょうか?

.@mitsuaki_iさんと シメジとの流れの結果が気になるんだけど   結局30万件もなにしてたの・・・ 岡崎の図書館だと30万もリクエストなげてたら逮捕ですよ???

岡崎市図書館のときは1秒間に1アクセス程度でしたね。
今回のものはおそらくそれ以上っぽいです。

@satoweb まだ回答待ちなのですが… バイドゥ社が欲しい情報を、弊社が管理するサーバーから(弊社が気づく前に)大量に収集しようとしたんだと思います。その際バイドゥ社が持っている語彙情報は社外に送信しても構わないスタンスだったんだと思います。 ログを見る限りそんな感じです。

@mitsuaki_i お待たせしております。ご質問に対する回答を、メールにてお送りさせていただきました。ご確認頂けますと幸いです。

.@Simeji_jp 金曜日に頂いたDMでしょうか?その後で、こちらからした質問に対して御社の回答を頂きたいのですが… RT @Simeji_jp: @mitsuaki_i お待たせしております。ご質問に対する回答を、メールにてお送りさせていただきました。ご確認頂けますと幸いで

この辺りから、メンション-DM、書面-対面と平行線を辿ります。

メンションで返さないのは隠したいというやましい気持ちがあるからなんだろうけど、だったらアプリの通信から取得したような公開されてない(顔文字検索用)APIを無理やり叩きまくるなと。しかも検索ワードは(たぶん)IMEのクラウド変換に使ってるテキスト。

「クローラーの過剰アクセス」って返答だけど、 robots.txtは無視するし、UAはPython-urllib/2.7、IPはアクセス毎に0.1秒単位で変わってる。 すぐバレる嘘をどうしてつくのか。DM読み返したら腹が立ってきた。

どのような管理下(管理されていないのかもしれませんが)で使用されたクローラーなのかは不明ですが、公表されていない名前でアクセスしてきて頻繁にIPアドレスも変更してくるというのはかなりお行儀が悪いと言うか故意と思われても仕方のない挙動ですね。

昨日のバイドゥとのメール バ「お詫びします。誠意ある対応したい。直接会いたい」 弊「会ってどういう話ができるの?」 バ「謝罪。今回の目的と説明。今後の改善」 弊「その内容を正式な書面で下さい」 バ「直接会いたい」 弊「書面にできない理由は何?誠意ある対応お願いします」 -返事待ち

やましい気持ちがあるのかどうかは不明ですが、あまり形の残るものにしたくないのかもしれませんね。

.@Simeji_jp メール拝見しました。「書面で謝罪を下さい」に対して「直接会いたい」の一点張りで全く会話になりませんね。事前に申し上げた通り公開で話を進めます。 RT @mitsuaki_i: .@Simeji_jp 金曜日に頂いたDMでしょうか?その後で、こちらからした質

ここでDMの内容を公開。クローラーに対する公式回答を求めるのですが…

.@Simeji_jp DMの内容を公開しますがクローラーとの事でしたね。。。 pic.twitter.com/lMRGsGlYdg

実質、今回の出来事を認めたわけですが、文面にあるUAの把握が出来ていないということを信じる前提ならば、きちんと把握されたアクションではなかったのかもしれませんね。
収集したと認めている「みんなの顔文字辞典」の情報はどのように破棄されたのかは気になるところです。

.@Simeji_jp つまり御社のクローラーは公式サイトに記載はない、UAはPython-urllib/2.7。robots.txtは無視し、アプリの内部や通信経路からURLを取り出し、1秒間に10~100回アクセス。毎回IPを変え、不審な動作をするという公式回答でいいんですか

.@Simeji_jp 今回、御社が使ったIPアドレスは以下の通りです。御社で把握できていないかもしれませんので再度ご確認下さい。 gist.github.com/justoneplanet/… RT @mitsuaki_i: .@Simeji_jp つまり御社のクローラーは公式サイトに記載

.@Simeji_jp ご回答に時間がかかるようですので2点目の質問です。 御社が今回のアクセスでパラメータに付けた単語は、御社のクラウド変換で使うようなテキストではないのでしょうか?これらは外部に送信しても良い情報だったのですか?ログをWebで公開しても問題ないですか?

.@Simeji_jp 明らかにして欲しい事は以上です。誠実なご回答をお待ちしております。どうぞよろしくお願いします。

.@Simeji_jp @baidu_japan 何もご連絡がないのですが無視する方針ですか?社内で協議中ですか? ログの公開を考えてます。公開に問題があるのかないのかハッキリと本日18時までにTwitterで回答下さい。ない場合は問題ないと回答したとみなしWebで公開します。

1 2 3