OSS Mtg

Similar documents
無料セミナー資料:ビッグデータ管理基盤ソフトウェアHadoop入門

OSS 体験セミナー Hadoop の概要 高スケーラブルな分散管理基盤 2 つのコア機能 分散ファイルシステム (HDFS) 分散処理フレームワーク (Map/Reduce) BigData の管理基盤として注目 分散処理基盤 (Map/Reduce) Hadoop 分散ファイルシステム (HDF

データセンターの効率的な資源活用のためのデータ収集・照会システムの設計

データマネジメントを取り巻く IT の課題 大規模データの実践的活用に向けて レッドハット株式会社 Senior Solution Architect and Cloud Evangelist 中井悦司 2012/04/13 version1.0

メール全文検索アプリケーション Sylph-Searcher のご紹介 SRA OSS, Inc. 日本支社技術部チーフエンジニア Sylpheed 開発者 山本博之 Copyright 2007 SRA OSS, Inc. Japan All right

Joint Content Development Proposal Tech Docs and Curriculum

スライド 1

Hadoop Introduction

Python Perl JavaScript および PHP などの ランザクション ID を利用することで 重複する処理 な Tuple が流れるかはグルーピングより決定されま 多くの言語をサポートしています を判別することができます す 6 簡単なデプロイと運用 は簡単にデプロイし 動作させるこ

PostgreSQL による クラスタ構成の可能性 SRA OSS, Inc. 日本支社 取締役支社長 石井達夫

目次 はじめに Introduction Analyzing Big Data Vectorwise and Hadoop Environments Vectorwise Hadoop Connector Perform

PowerPoint Presentation

スライド 1

AWSSummitTokyo2018

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

サンプル株式会社 御中 システム導入のご提案

PowerPoint Presentation

Agenda Hadoop Sahara Kilo Q&A Copyright 2015 Mirantis, Inc. All rights reserved Page 2

SinfonexIDaaS機能概要書

(Microsoft PowerPoint - Hadoop\225\224\211\357.ppt)

マイクロソフトと大規模データ処理

Microsoft PowerPoint - LinkMining_ ppt

今さら聞けない!? Oracle入門 ~前編~

PowerPoint プレゼンテーション

Microsoft PowerPoint _3a-SEO.pptx

データベースと情報検索

tokyo_t3.pdf

Introduction

IBM クラウド事例から考える OSS による企業向けクラウドの可能性 日本アイ ビー エム株式会社 Linux/OSS エバンジェリスト中井悦司 Feb. 27, IBM Corporation

スライド 1

サンプル:OSDL DBT-3によるPostgreSQLの性能評価(SATA HDD&SATA SSD編)

Apache Arrow 須藤功平株式会社クリアコード RubyData Tokyo Meetup Apache Arrow Powered by Rabbit 2.2.2

MATLAB®によるビッグデータ解析

リレーショナルデータベース入門 SRA OSS, Inc. 日本支社 Copyright 2008 SRA OSS, Inc. Japan All rights reserved. 1

PowerPoint プレゼンテーション

Server and Cloud Platform template

JACi400のご紹介~RPGとHTMLで簡単Web化~

CouchbaseLiveTokyo2015 講演資料

スライド 1

Microsoft Word - 06.doc

推奨 web ブラウザについて スマートフォンやタブレットには様々な web ブラウザがあります Android 端末には 標準ブラウザ ios 端末には Safari どちらでも使用できる Y ブラウザ FireFox Google Chrome などの web ブラウザがあります ビット web

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

システムインテグレータのIPv6対応

Microsoft PowerPoint - CloudBasic-6-cloudservices2.pptx

Big Data ウェビナー シリーズ CiscoのHadoopリセールについて

ソフト活用事例③自動Rawデータ管理システム

今さら聞けない!? Oracle入門 ~後編~

Hadoop LZO圧縮機能の検証

Microsoft Word LenovoSystemx.docx

459

PowerPoint Presentation

2 目次 1 はじめに 2 システム 3 ユーザインタフェース 4 評価 5 まとめと課題 参考文献

fmserver_book.indd

AFP FORUM

indd

スライド 1

ArcGIS for Server 機能比較表

オープンソースの MapReduce/分散ストレージ実装 Hadoopの紹介

FIT2015( 第 14 回情報科学技術フォーラム ) RC-003 ファイル格納位置制御による Hadoop MapReduce ジョブの性能の向上 藤島永太山口実靖 工学院大学大学院工学研究科電気 電子工学専攻工学院大学工学部情報通信工学科 1. はじめに近年, 世界中の情報量が爆発的に増加し

Perforce vs. Subversion

WBT [6] [7] [8] [9] Web [1] WBT [2] [3] ipad PC ipad ipad ipad [4] QR QR [5] IC IC PDA IC PDA US-ASCII 4,296 QR IC IC IC QR QR QR A BB A A CC

サービス内容 サービス内容 ドメインサービス Web サービスのサービス内容についてご案内します このたびは ドメイン /Web サービスをお申し込みいただきまして 誠にありがとうございます 本冊子は ドメイン /Web サービスの運用を管理される方向けの内容で構成されております お客様のご利用環境

今さら聞けない!?大規模テーブルのパフォーマンスチューニング ~パーティショニング~

Hadoopの全て

Web 環境におけるレイヤー別負荷の 2 違い DB サーバ AP サーバ 後ろのレイヤーほど負荷が高く ボトルネックになりやすい

ジョブ管理ソフトウェア LoadStar Scheduler ご紹介資料 ~ システム運用品質の向上とコスト削減を実現 ~

【A-2】.pdf

<4D F736F F F696E74202D C8D4891E52089A E690B681698F4390B3816A2E707074>

新バージョン! Zabbix 2.2 と検証結果のご紹介 SRA OSS, Inc. 日本支社山本博之 Copyright 2013 SRA OSS, Inc. Japan All rights reserved. 1

DB STREET 設置マニュアル

提案書

PowerPoint Presentation

Web WIX WIX WIX Web Web Web WIX WIX WIX Web 3. Web Index 3. 1 Web Index (WIX), Web. Web, WIX, Web ( WIX ), URL WIX 1 entry wid eid keyword targe

システム設計書 システム名 : 居酒屋検索システム 教育情報システム学講座 岩淵直人 プロクター鎌田奉訓 1. 要求仕様書に関する内容 システム機能の概要 居酒屋の新規登録および削除 編集が行えること 検索機能は人数 料金 場所 ジャンル( 和 洋 中 ) で検索できること 検

PowerPoint プレゼンテーション

ご利用のコンピュータを設定する方法 このラボの作業を行うには 事前設定された dcloud ラボを使用するか 自身のコンピュータをセットアップします 詳細については イベントの事前準備 [ 英語 ] とラボの設定 [ 英語 ] の両方のモジュールを参照してください Python を使用した Spar

IPSJ SIG Technical Report Vol.2014-NL-216 No.6 Vol.2014-SLP-101 No /5/ MMDAgent 1. [1] Wikipedia[2] YouTube[3] [4] [5] [6] [7] 1 Graduate

PowerPoint プレゼンテーション

目次 調査対象企業 P.3 Web サイトのページの数 P.4 アクセス解析ツールの有無 P.5~6 リスティング ( 検索連動型広告 ) 実施の有無 P.7~8 常時 SSL 対応の有無 P.9~10 モバイル対応の有無 P.11~12 企業データ P.13 お問い合わせについて P.14 2

OSSTechプレゼンテーション

QConTokyo2013_DocDatabase_agile_atWare

無料で多機能な OSS の ETL ツール Kettle を使ってみよう! 情報政策課技術職員金森浩治 1. はじめにデータ処理を行うにあたって非常に便利なツール ETL 本稿では OSS の ETL Kettle の機能とその使用方法を紹介します 2. 用語説明 2.1 OSS とは? OSS と

Microsoft Word - Android_SQLite講座_画面800×1280

PowerPoint プレゼンテーション

キリしていて メニューのボタンも大きくなっているので マウス操作はもちろん タッチ操作でも使いやすくなっているのが特長です アドレスバー画面上部にあるアドレスバーは インターネット検索も兼ねています ここにキーワードを直接入力して検索を実行できます 現在表示されているタブの右横にある + をクリック

Elastic MapReduce bootcamp

スライド 1

<4D F736F F F696E74202D D61726B657482C982A882AF82E F B95DB8CEC82CC8EE682E DD >

ビッグデータアナリティクス - 第3回: 分散処理とApache Spark

Code_Aster / Salome-Meca 中級者への道 2015年5月31日

勉強会の流れ Google API の概要 デモ curl で実際に体験 Copyright 2010 SRA OSS, Inc. Japan All rights reserved. 2

<4D F736F F D2093C A B8EAE8C6791D1836C E91CE8DF42E646F63>

1. < 商品検索 > 1-1. 商品を検索する 商品の検索はヘッダーにある検索欄でできます 初期状態では 全検索ができます 検索欄に任意の検索キーワードを入力することで検索できます 複数キーワードを指定する場合は空白で続けます 全検索 全検索では検索キーワードが書誌名 曲名 コメント

V-CUBE One

◎phpapi.indd

予算上限値到達時ジョブ投入停止機能 データ収集日表示 ノード時間積表示 ジョブ課金情報 予算上限値到達でジョブ投入停止機能を有すること 最後に課金情報を集計した日時を表示すること 使用計算資源を使用ノード数と時間の積として表示すること ジョブ単位での課金情報を表示できること 1 3 基本予算管理利用

目次 はじめに サービス内容 管理者機能 利用者機能

Windowsユーザでも 手軽に作れるiPhoneアプリ

IronPython による柔軟なゲーム開発 筑波大学 AmusementCreators

データ発生源から利用対象のデータを抽出して 欠損値処理や名寄せ等の加工を行い 蓄積用のストレージに格納する 2 蓄積 統合データが利用されるまでの間 保管する 必要に応じて複数のデータを利用目的に応じた形へ統合 結合する 3 分析 活用蓄積されたデータに対し BIや統計解析 データマイニングなどのツ

Transcription:

Hadoop ~Yahoo! JAPAN の活用について ~ 2011/01/15 ヤフー株式会社 R&D 統括本部 角田直行 吉田一星

自己紹介 角田直行 ( かくだなおゆき ) R&D 統括本部プラットフォーム開発本部検索開発部開発 3 2005 年ヤフー株式会社入社 ヤフー地図 ヤフー路線 ヤフー検索 2010 年現在 検索プラットフォームを開発中 1

自己紹介 吉田一星 ( よしだいっせい ) R&D 統括本部プラットフォーム開発本部検索開発部開発 3 2008 年に Yahoo! JAPAN に入社 検索プラットフォームで Hadoop に関する開発 画像処理 iphone 向け技術開発にもかかわる

Agenda Introduction Hadoopとは 事例紹介 Hadoopのメリット デメリット まとめ 3

Introduction 4

有名なネットサービス 月間 496 億 7100 万 PV 1 日 5000 万のつぶやき 商品数 6800 万 月間ユーザ数 5 億人 5 各サービスとも日々成長を続けています

莫大なデータ量との闘い 成長を続けていくにはアクセスログ解析やデータマイニングなど が必須 億単位の行 or テラバイト級のデータを短時間で処理したい 毎日処理しなければならない 6

Yahoo! JAPAN が扱うデータ ログは 1 日分だけでもかなりのサイズになる 行数を数えるだけでも数日かかる 7

解決策としての Hadoop 大規模な処理 大容量のデータを扱うには 1 台のサーバでは不可能 マルチコアによる並行処理アプローチは複雑すぎる 数十 ~ 数千台規模で簡単にスケールする環境が不可欠 この発表では Yahoo! JAPAN が Hadoop をどう活用しているかについて事例を交えて解説します 8

Hadoop とは 9

Hadoop とは 大規模分散処理システム Google MapReduce/GFSを論文を元に実装 処理時間が数時間以上かかるようなバッチ処理に向いている Webのように 即座に結果が返るようなリアルタイム処理には不向き Javaで書かれ オープンソースとして公開 10

Hadoop とは Doug Cutting 氏が生みの親 全文検索ライブラリLuceneなどの他有名 OSSも開発 Yahoo! Inc. 在籍時はフルタイムで開発 現在はClouderaに在籍 ( 出典元 :Wikipedia) 11

Hadoop とは 大きく MapReduce と HDFS ( 分散ファイルシステム ) に分かれる 12

Hadoop MapReduce 長時間かかる巨大な処理を複数台のマシンに分散 13

Hadoop HDFS 巨大なファイルを複数台に分割 複数サーバの各 HDD を 1 つの HDD のように扱える 14

Hadoop 関連プロダクト 大規模データ処理用スクリプト言語 Pig A = load 'passwd' using PigStorage(':'); B = foreach A generate $0 as id; dump B; Hive Facebook が開発扱いが一般データベースに似ている CREATE TABLE pokes (foo INT, bar STRING); SELECT a.foo FROM pokes a; 15

Hadoop 関連プロダクト Oozie 複数の MapReduce ジョブなどを実行制御するワークフロー HBase Mahout Hadoop 上に構築された列指向データベース Google BigTable のクローン 機械学習ライブラリ Hadoop でスケール可 16

Hadoop の事例紹介 17

Hadoop を活用している会社 18 など 増え続けています!

Yahoo! Inc. での事例紹介 19

Hadoop at Yahoo! Inc Hadoopユーザ テスター コミッターの数が最も多い Haoopのクラスタ 台数が最も多い 多数のクラスタがあり 合計 25000 台以上 1クラスタにつき最大 4000 台 20

Yahoo! Inc トップページ 21

Yahoo! Inc トップページ 検索インデックス 広告最適化 22

Yahoo! Inc トップページ コンテンツ最適化 検索インデックス スパムフィルター 広告最適化 コンテンツ管理 コンテンツ最適化 23

サーチアシスト 入力した検索ワードに関連のありそうな単語を自動で補完 データベースの構築に Hadoop を使用 3 年分のデータと 20 ステップの MapReduce Hadoop 使用前 Hadoop 時間 26 日 20 分 言語 C++ Python 開発期間 2~3 週間 2~3 日 24

Yahoo! JAPAN での事例 25

検索ログプラットフォーム 社内の検索サービスのログ解析全般 Hive を独自に拡張して使用している 様々な Yahoo! JAPAN のサービスにデータを提供 26

Yahoo! 検索 関連検索ワード キーワード入力補助 ショートカットの表示制御 検索ログプラットフォームのデータが元になっている 27

Yahoo! 検索ランキング 検索ランキング 急上昇ワードランキングなど 都道府県別 性年代別のランキング (Yahoo! ラボ ) 検索ログプラットフォームが提供したデータをさらに加工している 28

レコメンデーションプラットフォーム レコメンデーションサービスの計算処理に利用 Yahoo! オークションなどに導入 29

検索プラットフォーム (ABYSS) 社内の検索サービスをホスティングするプラットフォーム 様々なサービスに導入されている 検索データのストレージとして使用 検索インデックス生成 検索データの解析処理 30

地図検索 地図検索インデックス生成 クリックログ集計 検索ランキング反映 店舗やビルの一意性処理 開いているお店検索 クロール 定休日 営業時間抽出 検索インデックス生成 31

その他の事例 モバイル検索 広告プラットフォーム 地域 APIプラットフォーム (YOLP) Yahoo! JAPAN 研究所 Etc 32

事例まとめ データ解析 データマイニング ログ解析 レコメンデーション テキストマイニングなど 検索関係 検索インデックス生成 ランキング計算など 大量のデータを読み込んで解析をする処理 大量の計算が必 要な バッチ処理 がほとんど 33

Hadoop のメリット デメリット 34

Hadoop のメリット デメリット MapReduce を使って バッチ処理を簡単に分散できる リアルタイム処理には向かない HDFS も MapReduce を使ったバッチ処理に最適化されている 35

HDFS の特性 ストレージとして使うには特性を理解する必要がある RDBMSの代用 ユーザから多くのアクセスがあるストレージ 小さいデータを多く格納するストレージ アクセスログデータのストレージ 過去の取引履歴データのストレージ 36

HDFS の特性 何 GBというような大きなデータを一気に書き込んだり 読み出したりする用途に最適化 シーケーシャルアクセス SSDはあまり意味ない データの書き換えは想定されていない ランダム書き込みができない ファイルロック ( 排他制御 ) がない 秒間何十回といった大量の読み書き処理には向かない ファイルキャッシュがない もちろんRDBMSのようにインデックスがない 37

リアルタイム処理には? リアルタイム処理の選択肢はたくさんある 使い分けが重要! 38

使い分けの例 検索プラットフォーム ABYSS の例 検索インデックスのバッチ更新 数分 ~ 数時間かかる 検索インデックス 検索インデックスの元データ Hadoop 39

使い分けの例 ユーザからのアクセス リアルタイム更新は Hadoop 以外で バッチ更新 リアルタイム更新 Hadoop クローラなど ユーザ トランザクション 検索インデックス 40

まとめ 41

まとめ Hadoopは大規模なデータを複数のマシンに分散して処理できるプラットフォーム Hadoopを使う企業は増え続けていて 不可欠な技術になりつつある Hadoopは 大規模データを扱う処理や 大量の計算が必要なバッチ処理に向いている Yahoo!JAPANはこれからもHadoopを活用していきます 42

TechBlog http://techblog.yahoo.co.jp/ 43

Hadoop Hack Night 2010 年 3 月 8 月に開催 44

ご静聴ありがとうございました! 45