今を読み解く技術:ブログ検索
Y!J七里康敏 @検索事業部 →ブログ検索の中の人
- ブログ検索を使っている人は少ない
- ブログ検索のPVが延びている ←blogの規模が拡大してるだけじゃないの?
- podcast検索も
- よい検索エンジンのための4(5)原則:RCFP(T)
- Relevancy Comprehensiveness Freshness Presentation (Trust)
//--関連性 網羅性 閲覧性
- requirement for search engine
- data scale 20kB x 100 0000 0000 pages = 200TB
- to crawl them once per day -> 20Gbps
- good relevancy
- index(索引)をつくる
- 速いから(当たり前ですね
適切な検索結果のための工夫
- conditions of good morph analyser
- accuracy stability scalability performance etc.
- 一番大事なのはHTML解析とリンク解析
- リンクレピュテーション
- hogehoge
- http://address と hogehogeを関連付けることができる
- 「こちら」「18歳未満」「EXIT」
- リンクポピュラリティー (それなんてPageRank?
- キーワードと、検索される対象のマッチング 〜検索の本質
- ページにおけるキーワードの抽出
- 強調タグ、TF-IDF、ヒューリスティクス、なんでもあり
- よい方法を模索し続けること
- TF-IDF time frequency x inverted Dcuments Frequency
- Wij = tf_ij log N/df_i
- !!検索の細分化・多様化!!
- 分野を限定することでより効率的・効果的な検索を提供できる
- ブログ検索を推進する理由
Weblog search
- http://blog-search.yahoo.co.jp/
- 膨大な情報+即時処理 ←並列分散処理、形態素解析、更新Ping
- 「ほとんど利用していない」68% インターネット白書2006
- 市場規模?成長機会?逆転危機?
- RSS 一部の情報しか載ってない
- blog searchはRSSだけを見ているようだ
- future
- semantize
- 人間にも機械にも可読なWebに
- microformats http://microformats.org/wiki/Main_Page-jp
- structured-blogging
- ちょっと質問してみた(ぉ
- Q.gooのブログレンジャーについてどう思いますか?
- A.評判とか関連とかはSensitiveですよね、それがうまくいくかどうかはちょと無理めかもよ
- Q.Yahoo!JAPANの強みといえば人手で作ったディレクトリですけど、そこで人手は使わない?
- A.今のところ、アルゴリズム主導でやっているが、人手が必要なら使う
ううむ。もっとなんか本質を突いた質問をしたいなあ。それこそ相手が全く想定していないような。