データを集めて遊んでみる

本屋を彷徨っていたら「データを集める技術 (佐々木拓郎著)」という本を発見。衝動買いしました。

f:id:xbancha:20170106005607j:image

Excelやgoogle スプレッドシートの関数を使ってWebサイトから情報収集する方法や、slackやIFTTTを使った情報収集を解説する本です。

すぐ使えるテクニックがまとまってるので手を動かしながら楽しく読めました。

詳しくは本を読んでいただくとして、この投稿では気になった点を一つだけ。

指定したページから任意の要素を取り出せるgoogle スプレッドシートの関数「importxml」。

=importxml(URL,xpath式)

さっとググって出てきたブログでも「xpathをcopyして貼り付けるだけで要素を取得できます」と書いてありますがimportxmlを叩いた結果#N/Aになることがあります。

どうやらxpathをママコピして貼り付けても名前空間が一致しないと要素を返してくれない様子。

「適当な接頭辞をつけたら要素を取れるよ」というブログを見つけたのでまた後日チャレンジします。今日は眠いのでここまで。

欲しかった要素を全ては取得できなかったけど、どうにか取得できた要素を組み合わせて漫画投稿サイトでの運営ピックアップ率向上に役立ちそうなグラフを作ってみました。

一応念を押しますが、あくまで私的な範囲で楽しんでいます。*1

ちなみに、触ればわかる範疇ですがIFTTTはバージョンが変わって本のキャプチャとはUIや操作手順が異なるのでお気をつけください。解説本の宿命ですね。

*1:詳しくは「スクレイピング　訴訟」とかでググってください。

二番茶