クローラーとWebサイトの品質管理
R&D本部 エンジニア 石澤 基Webの普及とともに、検索エンジンを使ってWebから必要な情報を検索することは一般的になりました。しかし、広大なWebの中から、検索エンジンがどのようにしてユーザーの求める情報を探し出しているのかを知る人は、少ないのではないでしょうか。Googleをはじめとする多くの検索エンジンは「クローラー」と呼ばれるプログラムを用いてWeb上の情報を常に収集しておくことにより、広大なWebの検索を可能にしています。
クローラーとは何か
ではクローラーとは一体どのようなものなのでしょうか。近年、利用者の増加によりWebは拡大を続け、ついには人間の力だけではWeb上のすべての情報を把握するのは不可能な規模になってしまいました。そこで登場したのがクローラーです。クローラーは人間の代わりに広大なWebを自動で巡回し、Web上の情報を収集するために開発されたプログラムです。クローラーはWeb上のハイパーリンクを機械的にたどっていくことにより、広大なWebに分散したあらゆる情報を収集することができます。
クローラーの主な用途として、冒頭でも述べたように、検索エンジンでの利用があります。検索エンジンではクローラーを絶えず動作させることで、Web上から最新の情報を収集しつづけています。収集した情報は逐一データベース化され、このデータベースから情報を検索することにより、便利なWebの検索機能が実現されているのです。実際に検索エンジンのクローラーがどのようにしてWebサイトにアクセスしにきているのかは、Webサーバーのアクセスログなどから知ることができます。
Webサイト制作におけるクローラーの活用
クローラーの用途は検索エンジンに限られたものではありません。Webの拡大に合わせて近年のWebサイトはより巨大になり、複雑さを増してきています。そして、Webサイトが複雑さを増すごとに、サイト制作時における品質の管理にも、多くのコストがかかるようになってきています。このような問題を解決するため、当社ではWebサイト制作時の品質管理にクローラーを活用しており、その一例として巡回型Validatorがあります。
巡回型Validatorとは、クローラーを用いて制作中のサイトを巡回し、サイトを構成するすべてのページに対して文法的妥当性を検証するためのシステムです。文法的妥当性の検証には、W3Cが開発、公開を行なっているMarkup Validatorを社内向けに独自にカスタマイズしたものを利用しています。サイト制作時にこのシステムを利用することで、制作者はサイトを構成するすべてのページに発生している文法的な問題を一覧で取得することができ、素早く問題に対処することが可能となります。
巡回型ValidatorからAuto Validatorへ
本日リリースするAuto Validatorサービスは、この巡回型Validatorを多くのサイト管理者の方々に使っていただけるよう、より使いやすい形にカスタマイズして提供するものです。Auto Validatorには、サイト管理者の方々が問題を素早く把握するための独自の機能も搭載しています。
Auto Validator独自の機能の1つとして、文法的妥当性における検証結果の日本語化があります。W3CのMarkup Validatorは検証結果のすべてが英語で出力されますが、Auto Validatorではそれらの多くを独自に日本語化して提供しています。これにより、サイト管理者や制作者の方々はページ内に発生している文法的な問題を素早く理解し、解決につなげることができます。独自の機能としてはほかにも、サイトを定期的に巡回し、サイト全体を自動的に検証する機能や、指定されたメールアドレスに巡回結果の概要をメールで通知する機能、クローラーの仕組みを生かしたリンク切れチェック機能などがあり、Webサイトの管理に活用することができます。
クローラーのさらなる活用
巡回型ValidatorやAuto Validatorの開発経験から、クローラーはWeb制作の現場において非常に有用なツールになるものであると考えています。少し視点を変えて巡回型Validatorについて改めて考えてみると、クローラーは「Webページの収集ツール」として、Validatorはクローラーが収集したページに対して「何らかの処理を行なう一種のフィルタ」としてそれぞれとらえることができます。これはつまり、クローラーを軸として各種処理を行なう「フィルタ」を組み合わせることで、さまざまなシステムを作ることができることを意味します。実際にどのような機能を持つ「フィルタ」が活用できるのか、という点については今後さまざまな検討が必要ではありますが、このような考えのもとに、今後もWebサイト制作の補助や品質管理を行なうためのツールとしてクローラーを活用していきたいと考えています。
Newsletter
メールニュースでは、本サイトの更新情報や業界動向などをお伝えしています。ぜひご購読ください。