機械学習で遊んでみたくてですね。
それに使う文章を用意するのに、手作業でコピペ出来なくもない量だったんですけど、Twitterでちょうどこの記事が流れてきたので、Webスクレイピングにトライしてみました。
Python・PHP・Perl・Bash・Rubyで簡単にWebスクレイピングする方法を解説する - paiza開発日誌
Pythonでやりましたが、5年くらい前に勉強した記憶を元に動けばいいや方針でやってるので、色々間違いあるかもしれません…。
やりたいこと
やりたかったのは、アニメロミックスというサイトに掲載されている「神谷浩史・小野大輔のDear Girl~Stories~」というラジオ番組の企画で配信された着ボイス(Dear Voice)の一覧を取得することです。
趣味に走った題材です(笑)
方針
現状、アニメロのサイトにはDear Voiceだけがまとまっているページはないので、神谷さん、小野さんそれぞれのアーティストページの「ボイス」カテゴリの中から、番組名「神谷浩史・小野大輔のDear Girl~Stories~」が表示されているものだけを抽出します。