読者です 読者をやめる 読者になる 読者になる

ROMA

ROMAが公開された。「バルス」っていうとどうなるのか…

Sat, Oct 24

  • 14:50  「ROMAのプラグインは全ノードに配布する必要がありますか?」「はい。将来的には自動的に配布されるようにしたいです。いっしょにやりませんか?」 #rtc2009
  • 14:49  ROMAのソース公開、おめでとうございます。 #rtc2009
  • 14:47  まつもとさんに押して頂くはずが…(実際にはマイク持ちをさせたw) #rtc2009
  • 14:46  「スケーラビリティはやってみないと分からない。ようやっとここまで来た」「C/C++じゃないと実装できないと言われてきたが、意外とRubyでも…。びっくり」(シークレットゲストのまつもとさん) #rtc2009
  • 14:45  サービスを止めずに、ROMA自身のバージョンアップが可能 #rtc2009
  • 14:45  「閲覧リストの2番目を削除」をするのに、今までは全部のリストを取ってくる必要があったが、コマンドを送るだけでアトミックにできるようになった #rtc2009
  • 14:45  PUT、GET以外のコマンドを投げたい。そのための「コマンドプラグイン」。Rubyでコマンドを書ける。リスト操作のコマンドも追加した。 #rtc2009
  • 14:44  出す出す詐欺でしたソースの公開でしたが、ROMAのソース出しました(会場から拍手)。ストレージ部分を、サービスレベルや規模に応じて実装の差し替え可能。閲覧履歴データの格納にTokyo Cabinetを使ったり出来る。 #rtc2009
  • 14:40  楽天市場と楽天トラベルで、閲覧履歴の保存にROMA使用中。1日1億程度のデータ書き込みなら1台でも出来るけれども、耐障害性、再配置の部分で役に立っている #rtc2009
  • 14:40  memcaced互換データアクセス。プラグインで拡張可能。独自コマンドやストレージ実装をRubyで追加・差し替えが可能 #rtc2009
  • 14:40  実際に楽天市場でROMAを使い始めたが、ハードウエア障害が起きてもサービスを止めずに運用し続けられた #rtc2009
  • 14:40  障害耐性は高い。Webアプリケーション開発者が複製の数を指定できる。ノードが落ちても、自律的に障害を検出する #rtc2009
  • 14:40  ROMA。動的にスケールアウト可能。新規にマシンを追加するだけ、データ領域は増え、スループットは線形的に向上する #rtc2009
  • 14:32  まつもとフェローの問題意識「Rubyをもっと大規模に使って貰いたい」楽天の問題意識「データをもっと効率的・生産的に処理するには?」 #rtc2009
  • 14:31  ROMA。楽天が開発するRuby実装の分散KVS。ROMAの利用者(Webアプリケーションの開発者)には1つの大きなハッシュテーブルに見える #rtc2009
  • 14:30  楽天のユーザー数は6000万。1カ月に20万人増える。PVは1日当たり約1億。その分、リストの長さも増える #rtc2009
  • 14:29  最近見た宿の一覧なども記録しているそうです>楽天トラベル #rtc2009
  • 14:29  例えば、ユーザーの閲覧履歴。エンドユーザーの閲覧したページを保持する。ユーザーの利便性向上のために楽天の多くのサービスで実装中 #rtc2009
  • 14:28  爆発するデータをどこに保存するのか、入れ物に頭を悩ませている。入れ物にデータを入れただけじゃだめで、高速アクセスが必要 #rtc2009
  • 14:28  インターネット上のデータが指数関数的に増える「情報爆発」に対応する必要に迫られている #rtc2009
  • 14:26  オープンソース化タイム有り!!!!!>無我さんセッション #rtc2009
  • 14:25  続いて無我さん登場 #rtc2009
  • 14:24  去年のPDCで<名無しさん#>が「カラム指向DBの勝ちでもう決まってるだろ」といったのが、自分と列指向DBの初めての出会いでありました。まだ1年しかたってねぇ
  • 14:22  ログデータは日付が頻出するので圧縮率は高かろう。列指向DBは「C-Store」などをチェックせよ #rtc2009
  • 14:21  BigTableは列指向。クロール、Google AnalyticsGoogle Earthなどなど。Webでは疎なデータが多い。クロールは圧縮率が11%。それが800Tバイト(すごい古い) #rtc2009
  • 14:20  Zipみたいな圧縮するエンコーディング方式は名前を追い切れませんでした。圧縮したままSum操作できる。Run-lengthの場合は、値*連続回数を繰り返す #rtc2009
  • 14:19  Bit-vector Encoding。列無いに非常に少数の値しか登場しない場合に有効。kzk「大丈夫ですかね?」。そろそろ限界かな… #rtc2009
  • 14:17  Run-length Encodingは、列指向DBではあんまり有効じゃない模様。kzkが「ついてこい」と会場を挑発w #rtc2009
  • 14:17  辞書エンコーディングはデコードのために、バイト単位で辞書を作る。デコードもはやくて圧縮も簡単 #rtc2009
  • 14:15  圧縮手法はデータ、値の分布によるが、DB内部で自動的に行われる。nullを保存しない「null suppression」。テーブルはあるけどほとんどnullな疎なデータに有効。Dictionary Encodingは、パターンを生成して圧縮する #rtc2009
  • 14:13  マルチディメンションなカラム指向DB:BigTable、Cassandraなどなど #rtc2009
  • 14:12  SQLが使えるカラム志向。Sybase IQ(最大6兆rows)、Vertica(MySQLのMichael Stonebrakerが作った)、MonetDB/SQLOSS#rtc2009
  • 14:11  と、この辺りはSybase IQの取材でも聞いたことあるっす
  • 14:11  バスケット分析のようなデータマイニングに向いている。同じ列には似たようなデータが集まるので、圧縮が容易>列指向DB #rtc2009
  • 14:10  多数の(100万のオーダーの)行に対する少数の列の取得が得意:列指向DB #rtc2009
  • 14:10  kzk:列指向データベースセッション開始。KVS界隈の人がたくさん #rtc2009
  • 14:07  kzk状態開始(まだハッシュタグは付けない)
  • 13:09  大井町… ひいい

Powered by twtr2src