OSS Mtg - PDF Free Download

Hadoop ~Yahoo! JAPAN の活用について ~ 2011/01/15 ヤフー株式会社 R&D 統括本部角田直行吉田一星

自己紹介角田直行 ( かくだなおゆき ) R&D 統括本部プラットフォーム開発本部検索開発部開発 3 2005 年ヤフー株式会社入社ヤフー地図ヤフー路線ヤフー検索 2010 年現在検索プラットフォームを開発中 1

自己紹介吉田一星 ( よしだいっせい ) R&D 統括本部プラットフォーム開発本部検索開発部開発 3 2008 年に Yahoo! JAPAN に入社検索プラットフォームで Hadoop に関する開発画像処理 iphone 向け技術開発にもかかわる

Agenda Introduction Hadoopとは事例紹介 Hadoopのメリットデメリットまとめ 3

Introduction 4

有名なネットサービス月間 496 億 7100 万 PV 1 日 5000 万のつぶやき商品数 6800 万月間ユーザ数 5 億人 5 各サービスとも日々成長を続けています

莫大なデータ量との闘い成長を続けていくにはアクセスログ解析やデータマイニングなどが必須億単位の行 or テラバイト級のデータを短時間で処理したい毎日処理しなければならない 6

Yahoo! JAPAN が扱うデータログは 1 日分だけでもかなりのサイズになる行数を数えるだけでも数日かかる 7

解決策としての Hadoop 大規模な処理大容量のデータを扱うには 1 台のサーバでは不可能マルチコアによる並行処理アプローチは複雑すぎる数十 ~ 数千台規模で簡単にスケールする環境が不可欠この発表では Yahoo! JAPAN が Hadoop をどう活用しているかについて事例を交えて解説します 8

Hadoop とは 9

Hadoop とは大規模分散処理システム Google MapReduce/GFSを論文を元に実装処理時間が数時間以上かかるようなバッチ処理に向いている Webのように即座に結果が返るようなリアルタイム処理には不向き Javaで書かれオープンソースとして公開 10

Hadoop とは Doug Cutting 氏が生みの親全文検索ライブラリLuceneなどの他有名 OSSも開発 Yahoo! Inc. 在籍時はフルタイムで開発現在はClouderaに在籍 ( 出典元 :Wikipedia) 11

Hadoop とは大きく MapReduce と HDFS ( 分散ファイルシステム ) に分かれる 12

Hadoop MapReduce 長時間かかる巨大な処理を複数台のマシンに分散 13

Hadoop HDFS 巨大なファイルを複数台に分割複数サーバの各 HDD を 1 つの HDD のように扱える 14

Hadoop 関連プロダクト大規模データ処理用スクリプト言語 Pig A = load 'passwd' using PigStorage(':'); B = foreach A generate $0 as id; dump B; Hive Facebook が開発扱いが一般データベースに似ている CREATE TABLE pokes (foo INT, bar STRING); SELECT a.foo FROM pokes a; 15

Hadoop 関連プロダクト Oozie 複数の MapReduce ジョブなどを実行制御するワークフロー HBase Mahout Hadoop 上に構築された列指向データベース Google BigTable のクローン機械学習ライブラリ Hadoop でスケール可 16

Hadoop の事例紹介 17

Hadoop を活用している会社 18 など増え続けています!

Yahoo! Inc. での事例紹介 19

Hadoop at Yahoo! Inc Hadoopユーザテスターコミッターの数が最も多い Haoopのクラスタ台数が最も多い多数のクラスタがあり合計 25000 台以上 1クラスタにつき最大 4000 台 20

Yahoo! Inc トップページ 21

Yahoo! Inc トップページ検索インデックス広告最適化 22

Yahoo! Inc トップページコンテンツ最適化検索インデックススパムフィルター広告最適化コンテンツ管理コンテンツ最適化 23

サーチアシスト入力した検索ワードに関連のありそうな単語を自動で補完データベースの構築に Hadoop を使用 3 年分のデータと 20 ステップの MapReduce Hadoop 使用前 Hadoop 時間 26 日 20 分言語 C++ Python 開発期間 2~3 週間 2~3 日 24

Yahoo! JAPAN での事例 25

検索ログプラットフォーム社内の検索サービスのログ解析全般 Hive を独自に拡張して使用している様々な Yahoo! JAPAN のサービスにデータを提供 26

Yahoo! 検索関連検索ワードキーワード入力補助ショートカットの表示制御検索ログプラットフォームのデータが元になっている 27

Yahoo! 検索ランキング検索ランキング急上昇ワードランキングなど都道府県別性年代別のランキング (Yahoo! ラボ ) 検索ログプラットフォームが提供したデータをさらに加工している 28

レコメンデーションプラットフォームレコメンデーションサービスの計算処理に利用 Yahoo! オークションなどに導入 29

検索プラットフォーム (ABYSS) 社内の検索サービスをホスティングするプラットフォーム様々なサービスに導入されている検索データのストレージとして使用検索インデックス生成検索データの解析処理 30

地図検索地図検索インデックス生成クリックログ集計検索ランキング反映店舗やビルの一意性処理開いているお店検索クロール定休日営業時間抽出検索インデックス生成 31

その他の事例モバイル検索広告プラットフォーム地域 APIプラットフォーム (YOLP) Yahoo! JAPAN 研究所 Etc 32

事例まとめデータ解析データマイニングログ解析レコメンデーションテキストマイニングなど検索関係検索インデックス生成ランキング計算など大量のデータを読み込んで解析をする処理大量の計算が必要なバッチ処理がほとんど 33

Hadoop のメリットデメリット 34

Hadoop のメリットデメリット MapReduce を使ってバッチ処理を簡単に分散できるリアルタイム処理には向かない HDFS も MapReduce を使ったバッチ処理に最適化されている 35

HDFS の特性ストレージとして使うには特性を理解する必要がある RDBMSの代用ユーザから多くのアクセスがあるストレージ小さいデータを多く格納するストレージアクセスログデータのストレージ過去の取引履歴データのストレージ 36

HDFS の特性何 GBというような大きなデータを一気に書き込んだり読み出したりする用途に最適化シーケーシャルアクセス SSDはあまり意味ないデータの書き換えは想定されていないランダム書き込みができないファイルロック ( 排他制御 ) がない秒間何十回といった大量の読み書き処理には向かないファイルキャッシュがないもちろんRDBMSのようにインデックスがない 37

リアルタイム処理には? リアルタイム処理の選択肢はたくさんある使い分けが重要! 38

使い分けの例検索プラットフォーム ABYSS の例検索インデックスのバッチ更新数分 ~ 数時間かかる検索インデックス検索インデックスの元データ Hadoop 39

使い分けの例ユーザからのアクセスリアルタイム更新は Hadoop 以外でバッチ更新リアルタイム更新 Hadoop クローラなどユーザトランザクション検索インデックス 40

まとめ 41

まとめ Hadoopは大規模なデータを複数のマシンに分散して処理できるプラットフォーム Hadoopを使う企業は増え続けていて不可欠な技術になりつつある Hadoopは大規模データを扱う処理や大量の計算が必要なバッチ処理に向いている Yahoo!JAPANはこれからもHadoopを活用していきます 42

TechBlog http://techblog.yahoo.co.jp/ 43

Hadoop Hack Night 2010 年 3 月 8 月に開催 44

ご静聴ありがとうございました! 45