フロンティア情報学特論

今を読み解く技術:ブログ検索

Y!J七里康敏 @検索事業部 →ブログ検索の中の人

  • ブログ検索を使っている人は少ない
  • ブログ検索のPVが延びている ←blogの規模が拡大してるだけじゃないの?
  • よい検索エンジンのための4(5)原則:RCFP(T)
    • Relevancy Comprehensiveness Freshness Presentation (Trust)

//--関連性  網羅性           閲覧性

  • requirement for search engine
    • data scale 20kB x 100 0000 0000 pages = 200TB
    • to crawl them once per day -> 20Gbps
    • good relevancy
  • index(索引)をつくる
    • 速いから(当たり前ですね

適切な検索結果のための工夫

  • conditions of good morph analyser
    • accuracy stability scalability performance etc.
  • 一番大事なのはHTML解析とリンク解析
  • リンクレピュテーション
    • hogehoge
    • http://address と hogehogeを関連付けることができる
    • 「こちら」「18歳未満」「EXIT」
  • リンクポピュラリティー (それなんてPageRank
  • キーワードと、検索される対象のマッチング 〜検索の本質
  • ページにおけるキーワードの抽出
  • TF-IDF time frequency x inverted Dcuments Frequency
    • Wij = tf_ij log N/df_i
  • !!検索の細分化・多様化!!
    • 分野を限定することでより効率的・効果的な検索を提供できる
    • ブログ検索を推進する理由
  • Weblog
    • yahoo!defs: RSSと記事単位Permalinkを有する簡易CMS
    • RDBMS+XHTML+CSSならなおよし?
    • easy,spam,RSS,ping,permalink
    • SPLOG; hidden text, link, affiliate, trackback, AI article script
    • TB
      • 超有名人のサイトから個人サイトへのリンク、これまであり得なかった
      • PageRank崩壊?
    • RSS (Rich Site Summary, Really Simple Syndication
    • ping
    • CGM

Weblog search

  • http://blog-search.yahoo.co.jp/
  • 膨大な情報+即時処理 ←並列分散処理、形態素解析、更新Ping
  • 「ほとんど利用していない」68% インターネット白書2006
    • 市場規模?成長機会?逆転危機?
  • RSS 一部の情報しか載ってない
    • blog searchはRSSだけを見ているようだ
  • ちょっと質問してみた(ぉ
    • Q.gooのブログレンジャーについてどう思いますか?
    • A.評判とか関連とかはSensitiveですよね、それがうまくいくかどうかはちょと無理めかもよ
    • Q.Yahoo!JAPANの強みといえば人手で作ったディレクトリですけど、そこで人手は使わない?
    • A.今のところ、アルゴリズム主導でやっているが、人手が必要なら使う

ううむ。もっとなんか本質を突いた質問をしたいなあ。それこそ相手が全く想定していないような。