【10分でできる!】Googleスプレッドシートで簡単スクレイピング

ランチで行列に並ぶぐらいならこれやりましょう!10分でできるシリーズ!

今回はWEB上の情報を取ってくるWEBスクレイピングです。通常スクレイピングはpythonなどプログラミング言語を使ってするのですが、プログラミングなんてできねーよ!って人でも簡単にできる方法を紹介します。

営業がスクレイピングをするモチベーション

スクレイピングなんて聞いたことないし。。。という営業は多いと思います。私自身もそんな言葉すら知らず、そんな技術があることも必要だと思ったこともありませんでした。
そもそもスクレイピングとはWEB上の情報を引っ張ってくることです。例えばYahoo!ニュースから毎日TOPニュースをコピペして保存したり、価格comから特定の商品の口コミを探してきてコピペする、といったことを人の代わりにプログラムがやってくれるのです。

営業としてこれができると何がいいのでしょうか?汎用性は非常に多く、スクレイピングだけで営業ツールとして販売している事業会社もあるほどですが、個人的には以下のような使い方が有効でした。

  • 自社メディアと他社メディアの違いを全タイトルを抽出し図式化することで、デモグラや規模感といったユーザー属性以外にメディアの”色””編集部の特性”を具体的に説明できる
  • 競合サイトの記事広告出稿状況をPRマークの抽出から把握する

技術先攻ではできることは数多くあり、SNSから情報を引っ張ることも可能です。
ですが技術云々よりもどう有効に使えるものにするかが大事です。
上記で挙げた例は実際に僕がやってきたことで、記事広告のような感覚値の強いクリエイティブの広告を実施する時、クライアントと意見が合わないことが多々あります。その際にファクトとして他メディアとの違いからそのメディアの特性を説明する、PVの高い記事とそうでない記事との違いを説明するといったことが上記からできれば、お互いに時間を無駄にせず、納得感のある提案や納品ができます。
競合の出稿状況がわかれば、以外な出稿主に気づくこともあったり、共同で施策を実施したりすることもできます。

この記事でできるようになること

この記事ではスクレイピングはスクレイピングでも、Googleスプレッドシートを使った、”なんちゃってスクレイピング”を紹介します。

<できるようになること>

  • Googleスプレッドシート”なんちゃってスクレイピング”が使えるようになる
  • プログラミング言語を使ったスクレイピングでも応用できるXpathを理解できる
  • スクレイピングをどう営業に活かすかのイメージができるようになる

今回はコピペできるものとして、『即効!切り口提案クン』を用意しました。
広告の提案では、料金・KPI以外にも制作物のイメージとして切り口(方向性)を提案することが多々あり、特にイメージのつきにくいニッチメディアであれば、この重要性は増してきます。ということで『即効!切り口提案クン』には、キーワードを入れると類似サイト4つから関連するタイトルを引っ張ってくるという機能設計にしました。

まずは完成図を見てみましょう。

完成品 コードはこちらを参照

このシートでは「ファミリー」に対して広告を打ちたいという内容を想定していますが、例えば「料理」や「商品名」なんかでももちろんOK。
編集部の人や、仕事になれた人なら不要かもしれませんが、入社年次が浅い人もこれで即効!切り口出し!ができますよ。

作り方

作り方はめちゃくちゃ簡単!好きなセルにIMPORTXML関数を入れるだけです。
IMPORTXML関数は、前半の引数で指定したURLの中で、後半に指定したXpathの中身を取ってきてくれる関数です。
今回の場合はこのようになります。

具体的に説明します。

①まずキーワードの入力セルを作ります。例えば今回で言えばA2セルです。
②情報を取りたいサイトにGoogle Chromeのブラウザでアクセスします。
③今回はキーワードに関連する記事として、サイトの検索機能を使うので、何かしら検索してみます。そうするとだいたい” ?s= ”とか” q= “に検索した文字列になっているはずです。
これは閲覧者が入れた文字列をサイト側に投げている状態です。
④そのURLをコピペしてIMPORTXML関数の前半に””(ダブルクオーテーション)をつけて入れましょう。ここで注意なのが、セルの”A2”という文字列をURLに指定したいわけではなく、その中に入っている文字列を渡したいので、&でつなげます。&やA2は文字列ではないので””はいりません。
⑤後半にXpathを指定します。そのためには先程のサイトに戻り、右クリック→検証とします。そうすると右にごちゃごちゃした画面が表示されますので、その一番左上、マウスが乗っかっってるような左上のボタンをクリックします。

するとサイトのHTML要素を直接選べるようになりますので、タイトルのところにマウスを持っていきましょう。

このようになったらまた右クリックを押して、下の図のようにCopy→CopyXPathとしてください。これでクリップボードにタイトルのXpathが入っています。

⑥これを先程のIMPORTXML関数の後半に入れてください。””も必要です。
⑦もしうまくいかない場合は、このページを参考にXpathを自分で修正してみましょう。
XPath チートシート

これで完了です!自分の取得したいサイトが複数ある場合はそれぞれ行ってください。
この記事も合わせて読むと理解が深まると思います。
SpreadSheetでスクレイピング。Importxml他、便利な関数9+1

注意すること

  • 今回はGoogleスプレッドシートを使った”なんちゃってスクレイピング”を紹介しましたが、本格的にスクレイピングをする場合、アクセスする回数や時間、スクレイピングしてはいけないページがあったりします。内容をもっと複雑にしたり、何度もアクセスさせる場合には一度「スクレイピング 注意事項」なんかでググって見ておいた方がいいでしょう。「.robots.txt」とurlの最後に入力するとスクレイピングのNGページが見られます。
  • 今回の完成品のように、Xpathの内容によっていらない情報が時々入ります。
    細かい設定をXpathでやるか、cssセレクターという別の指定方法もあるので、そちらも試してみるといいかもしれません。

また別の機会に、このように取ってきた情報をどう使うかについてはこちらもご参考に。
【15分でできる!】タイトル分析を強力な営業ツールに!

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です