二番茶

ときどきWeb漫画を更新。

データを集めて遊んでみる

本屋を彷徨っていたら「データを集める技術 (佐々木拓郎 著)」という本を発見。衝動買いしました。

f:id:xbancha:20170106005607j:image

 Excelgoogleスプレッドシートの関数を使ってWebサイトから情報収集する方法や、slackやIFTTTを使った情報収集を解説する本です。

すぐ使えるテクニックがまとまってるので手を動かしながら楽しく読めました。

 詳しくは本を読んでいただくとして、この投稿では気になった点を一つだけ。

 

importxml関数でxpathをママコピ指定したけど#N/Aになる

指定したページから任意の要素を取り出せるgoogleスプレッドシートの関数「importxml」。

=importxml(URL,xpath式)

 さっとググって出てきたブログでも「xpathをcopyして貼り付けるだけで要素を取得できます」と書いてありますがimportxmlを叩いた結果#N/Aになることがあります。

どうやらxpathをママコピして貼り付けても名前空間が一致しないと要素を返してくれない様子。

「適当な接頭辞をつけたら要素を取れるよ」というブログを見つけたのでまた後日チャレンジします。今日は眠いのでここまで。

 

欲しかった要素を全ては取得できなかったけど、どうにか取得できた要素を組み合わせて漫画投稿サイトでの運営ピックアップ率向上に役立ちそうなグラフを作ってみました。

  • 掲載時間と曜日を取得して更新頻度の高いタイミングを探るグラフ
  • 掲載時間とカテゴリを取得してピックアップ率の高いカテゴリを探るグラフ

一応念を押しますが、あくまで私的な範囲で楽しんでいます。*1

 

ちなみに、触ればわかる範疇ですがIFTTTはバージョンが変わって本のキャプチャとはUIや操作手順が異なるのでお気をつけください。解説本の宿命ですね。

*1:詳しくは「スクレイピング 訴訟」とかでググってください。