Entry

scraping kiddies 対策は利用規約で縛るより利用しつくす方が得

2008年08月16日

こちらの話から。

Pipes: Rewire the webを使うと他人のサイトが簡単にスクレイピング出来てしまう。これまでスクレイピングするのにはほんのちょっとだけ技術的心理的障壁があった。今はそれすら要らない。loopとfetchだけわかればいい。広告を消すのも全文配信させるのも簡単に出来てしまう。

書き手・読み手は、どこまで情報をコントロールする権利があるんだ?

大半のウェブコンテンツは,なんの管理もなくタダで公開しているわけで,そういうフレームワークに乗っかっている以上,書き手が提供する金目の情報は,いくらでも利用されると思った方いいんだと思います。で,この話に対する反応で,「情報をコントロールする権利は利用規約による」ってなもんがあるんですけど,利用規約なんてもんに頼っていたら,「マッシュアップ」なるもんを標榜する PHP script kiddies のいいようにヤられるだけなんじゃないかな……と。法律や契約って,コトが起きた後でないと働かないから,事実上ヤられたらオシマイ。利用規約違反に関する裁判例のひとつでも出て,ガッポリ賠償金を取れるってなら別ですけど。

他人のフィードのアフィリエイトIDを全部自分のものに書き換えて公開するのは?

書き手・読み手は、どこまで情報をコントロールする権利があるんだ?

ネットって,情報を取得するための仕組みはたくさん用意されているけれど,配信条件を設定する仕組みについては,あまり進んでない気がします。せいぜいサーバ側でアクセス制限をかけることくらいでしょうか。mixi のように認証を経由して利用する仕組みは,ネットのはじめの頃からあるという意味で,非常に原始的だったわけですけれど,実際のコミュニティサイトでは利用されていなかったから,衝撃的に真新しかった。

ともあれ,上記引用のように,アフィリエイト ID を書き換えるような script kiddies の場合は,割と対処が簡単で,自分のサイトを経由してアフィリエイトサイトにリダイレクトするような仕組みを設けておけば大丈夫なんだと思います。例えば,Amazon だったら Amazon の URL や ID を直接 feed に書かないで,http://example.com/book.cgi?id=xxxxxxxxxx みたいな自サイトの URL を乗せておくんですね。で,book.cgi がアフィリエイトの ID を付加して Amazon にリダイレクトする……みたいな感じ。なんなら,feed に JavaScript のひとつでも埋めこんで,マッシュアップサイトの Amazon URL を全て自分のアフィリエイト ID にしちゃってもいいかもね……とか(←悪質サイト)。タダ乗りするのはお互い様ですから,頭を使って利用する方が建設的なんじゃないか……とかとか。

一方,マッシュアップサイトなりスクレイピングサイトなりの作り手の問題として,セキュリティを考慮している人がどれだけいるのか,微妙に疑問です。このことはかなり前に書いたんですけれど(参照:qune: RSS feed の HTML 埋め込み雑感),feed を利用したフレームワークに関する議論で,セキュリティに関する話をあまり聞いたことがありません。マッシュアップサイトのセキュリティについて,割と詳しく説明しているのは,以下の記事でしょうか。

SCRIPTタグで取得したデータの中に不正なスクリプトが含まれていた場合,そのスクリプトによってマッシュアップサイト上のデータにアクセスすることができます。この攻撃のたちの悪い所は,たとえ現在は悪意のあるスクリプトが埋め込まれていなかったとしても,いつ埋め込まれてしまうかわからない状況にあるという点です。さらに,攻撃者はいったん埋め込んだ後に元の状態に戻してしまえば,攻撃の痕跡が残りにくいため,攻撃が発覚する可能性も低くなります。

ここが危ない!Web2.0のセキュリティ:第7回 マッシュアップのセキュリティ|gihyo.jp … 技術評論社

かつて,BBS が CGI の主流だった頃は,「どのタグを使用できるようにするか」とかいった議論がセキュリティ上非常に重要だったわけですけれど,そういう話をほとんど聞かない。スクレイピングサイトは,世界中の feed を(ほぼ)無差別にかき集めて作るサイトですから,仕組みとしては BBS とほぼ同じです。コンテンツを利用者に投稿してもらうか,配信されている feed を拾いにいくかの違いくらいしかない。

BBS では,セキュリティ上全てのタグを使えないようにするのが原則で,例外的に anchor タグや image タグを許容する,とかいったポリシーを取るのが常道だったりするわけですけれど,スクレイピング周りのライブラリを利用している kiddies に,そこら辺の理解があるのか,微妙に疑問です。これまで,マッシュアップというと,信頼できる Web API を利用するのが主流でしたけど,こうした無差別的なスクレイピングは,自サイトのセキュリティリスクを極めて高くすることにつながります。やる人は,余程頭を使う必要があるはず。

また,スクレイピングサイトの場合,他人のコンテンツを自分のコンテンツとして再配信する側面があるので,他人が違法な情報を配信する際の違法性(ウィルスばらまいてるとか)を,スクレイピングサイト自身も引き受けることになりかねません。こうした場合,いくら元ネタが他にあったとしても,道連れ的に法的責任を負う可能性がありうるんじゃないでしょうか。知らなかったじゃ済まない,ってのも大人の世界なんですよね。

webサイトの書き手は、読み手は、いったいどこまで情報をコントロールする権利があるんだ?

書き手・読み手は、どこまで情報をコントロールする権利があるんだ?

そんなもんで,こういう話は,スクレイピングされる側からすれば,権利や法律といった事後処理の問題にはしないで,どんどん頭を使って利用し返すのがいいんだと思います。PHP script kiddies なんて,所詮は kiddies ですし。

Trackback
Trackback URL:
[2015年09月17日 18:48] replica rolex oyster perpetual femme from replica rolex oyster perpetual femme
The opening bracket is there for code formatting. This is a tech blog, so I a... [more]
[2015年09月21日 03:32] chiodo copia cartier from chiodo copia cartier
Hey there, just became alerted to your blog through Google, and found that it... [more]
Ads
About
Search This Site
Ads
Categories
Recent Entries
Log Archive
Syndicate This Site
Info.
クリエイティブ・コモンズ・ライセンス
Movable Type 3.36
Valid XHTML 1.1!
Valid CSS!
ブログタイムズ

© 2003-2012 AIAN