自己紹介 氏名 牧 允皓 (まき よしひろ) 略歴 新卒でソーシャルゲームの会社に入社 データサイエンティストとして4年間勤務 アクセスログの分析 施策の効果検証 異常検知システムの構築などを経験 2017年にリクルートテクノロジーズに入社し 機械学習のソ リューションを開発 運用するグループに所属

Similar documents
PowerPoint プレゼンテーション

回答者のうち 68% がこの一年間にクラウドソーシングを利用したと回答しており クラウドソーシングがかなり普及していることがわかる ( 表 2) また 利用したと回答した人(34 人 ) のうち 59%(20 人 ) が前年に比べて発注件数を増やすとともに 利用したことのない人 (11 人 ) のう

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

Microsoft Office Visioによる 施設管理について

PowerPoint プレゼンテーション

第15回定時株主総会終了後の事業説明会資料

北村 吉弘 常務執行役員 兼 メディア ソリューションSBU SBU長 2

プロダクトオーナー研修についてのご紹介


ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

Oracle Un お問合せ : Oracle Data Integrator 11g: データ統合設定と管理 期間 ( 標準日数 ):5 コースの概要 Oracle Data Integratorは すべてのデータ統合要件 ( 大量の高パフォーマンス バッチ ローブンの統合プロセスおよ

人材育成 に関するご意見 1) 独立行政法人情報通信研究機構富永構成員 1 ページ 2) KDDI 株式会社嶋谷構成員 8 ページ 資料 7-2-1

スキル領域 職種 : ソフトウェアデベロップメント スキル領域と SWD 経済産業省, 独立行政法人情報処理推進機構


メール全文検索アプリケーション Sylph-Searcher のご紹介 SRA OSS, Inc. 日本支社技術部チーフエンジニア Sylpheed 開発者 山本博之 Copyright 2007 SRA OSS, Inc. Japan All right

ソーシャルセクター組織実態調査 2017 特定非営利活動法人新公益連盟 2017 年 12 月 6 日 Copyright 2017 Japan Association of New Public All Rights Reserved,

TopSE並行システム はじめに

データセンターの効率的な資源活用のためのデータ収集・照会システムの設計

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

個人依存開発から組織的開発への移行事例 ~ 要求モデル定義と開発プロセスの形式化 による高生産性 / 高信頼性化 ~ 三菱電機メカトロニクスソフトウエア ( 株 ) 和歌山支所岩橋正実 1

3. 回路図面の作図 回路図の作成では 部品など回路要素の図記号を配置し 要素どうしを配線するが それぞれの配線には 線番 などの電気的な情報が存在する 配線も単なる線ではなく 信号の入力や出力など部品どうしを結び付ける接続情報をもたせることで回路としての意味をもつ このように回路図を構成する図面は

OSSTechプレゼンテーション

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

Sharing the Development Database

AI AI Artificial Intelligence AI Strategy& Foresight AI AI AI AI 1 AI AI AI AI AI AI AI AI AI AI AI AI AI 2 AI 1 AI AI 3 AI 3 20 AI AI AI AI AI

11夏特集号初校.indd

Google 商品リスト広告とは? まずは予備知識から Google 商品リスト広告 (PLA) とは Google 検索結果画面に画像や商品名 価格 店舗名などを表示することができる Googleの広告サービスです 例えば Googleで デジタルカメラ と入れて検索すると商品の画像や価格が表示さ

3/7 マイグレーション開発方針 顧客名 0 作成者 根岸正 < プログラム移行方針 > システム名称 A-VX システムマイグレーション作成日 2015/09/01 < COBOL 資産のプログラム移行 > COBOLソース ( メインとCOPYLIB) を入力としてSCC 言語変換ツールにてVB

つるい27-5月号PDF.indd

Microsoft Word - Udemyで講座配信_最終版.docx

V6 音声入力機能

Microsoft Word - 06.doc

ビッグデータのリアルタイム分析基盤技術「Jubatus」を活用し、センサデータ機械学習検証システムを構築 - ビニールハウスのデータ異常検知の自動化を実現 -

PowerPoint プレゼンテーション

POCO 社の EDM グラファイト電極材料は 長年の技術と実績があり成形性や被加工性が良好で その構造ならびに物性の制御が比較的に容易であることから 今後ますます需要が伸びる材料です POCO 社では あらゆる工業製品に対応するため 各種の電極材料を多数用意しました EDM-1 EDM-3 EDM

,255 7, ,355 4,452 3,420 3,736 8,206 4, , ,992 6, ,646 4,

Oracle Real Application Clusters 10g: 第4世代

JapanCert 専門 IT 認証試験問題集提供者 1 年で無料進級することに提供する

Microsoft PowerPoint 資料.ppt

WHITE PAPER RNN

文字コード略歴 よこやままさふみ社内勉強会 2012/05/18 文字コード略歴 Powered by Rabbit 2.0.6

エクセル中級修了者もしくは同等の知識をお持ちの方対象 即戦力 UP! 実践エクセル 5 2 エクセルピボットテーブル マクロ 5 1 再就職 転職のためのパソコン講座 2 5 請求書の作成やマスターの管理 売上集計表に必要な関数やテクニックなどを学びます エクセルの便利さが再認識でき 明日からの仕事

1 2. Nippon Cataloging Rules NCR [6] (1) 5 (2) 4 3 (3) 4 (4) 3 (5) ISSN 7 International Standard Serial Number ISSN (6) (7) 7 16 (8) ISBN ISSN I

ニフティクラウド mobile backend 概要 サービス名 : ニフティクラウド mobile backend ( ニフティクラウドモバイルバックエンド ) アドレス : 利用対象者 : スマートフォンアプリを開発する個人および企業 基本仕

プロジェクトマネジメント知識体系ガイド (PMBOK ガイド ) 第 6 版 訂正表 - 第 3 刷り 注 : 次の正誤表は PMBOK ガイド第 6 版 の第 1 刷りと第 2 刷りに関するものです 本 ( または PDF) の印刷部数を確認するには 著作権ページ ( 通知ページおよび目次の前 )

2019 年 7 月 9 日 株式会社 bitflyer Blockchain 株式会社イード Tokyo Otaku Mode Inc. オタクコイン協会 世界中のファンがアニメニュース記事を翻訳するブロックチェーンプラットフォームの実証実験を開始 ~bitflyer Blockchain イード

PowerPoint プレゼンテーション

Microsoft PowerPoint - M1001_1_ ppt [互換モード]

Enterprise Cloud + 紹介資料

ご存知ですか? データ転送

平成 30 年 9 月 10 日修正 海外ベンチャー企業連携 案件組成イベント Global Connection 2018 募集要領 平成 30 年 7 月 10 日 IoT 推進ラボ 経済産業省 (IoT 推進ラボ事務局 : 一般財団法人日本情報経済社会推進協会 ) 0

PowerPoint Presentation

PowerPoint プレゼンテーション

デジタルマーケティング説明会

Deep Learningでの地図タイル活用の検討

PowerPoint プレゼンテーション

<4D F736F F F696E74202D D F838C815B F C835B83938E9197BF2E B93C782DD8EE682E890EA97705D205B8CDD8AB B83685D>

10 th Anniversary ブログマーケティング ~ 本当に効果はあるのか?~ 2008/1/16 株式会社パソナテック事業企画部堀川貴満 2007 Pasona Tech,inc. All Rights Reserved 10 th Anniversary No.1/48

SystemsDirector_63_DB_password - 2 ページ 該当 OS Systems Director サーバー 6.3.x がサポートする全てのOS 該当する Systems Director バージョン Systems Director サーバー 6.3.x 対応策 以下の対

取組みの背景 これまでの流れ 平成 27 年 6 月 日本再興戦略 改訂 2015 の閣議決定 ( 訪日外国人からの 日本の Wi-Fi サービスは使い難い との声を受け ) 戦略市場創造プラン における新たに講ずべき具体的施策として 事業者の垣根を越えた認証手続きの簡素化 が盛り込まれる 平成 2

参考 男女の能力発揮とライフプランに対する意識に関する調査 について 1. 調査の目的これから結婚 子育てといったライフ イベントを経験する層及び現在経験している層として 若年 ~ 中年層を対象に それまでの就業状況や就業経験などが能力発揮やライフプランに関する意識に与える影響を把握するとともに 家

(Microsoft PowerPoint - WQ21JDEadapter\215\\\220\254\216\350\217\207\217\221_ ppt)

Microsoft PowerPoint Zabbixカンファレンス.pptx

Transcription:

機械翻訳の応用分野 : SQL 生成技術の紹介数理システムユーザーコンファレンス 2018 リクルートテクノロジーズデータテクノロジーラボ部牧允皓 2018 年 11 月 22 日

自己紹介 氏名 牧 允皓 (まき よしひろ) 略歴 新卒でソーシャルゲームの会社に入社 データサイエンティストとして4年間勤務 アクセスログの分析 施策の効果検証 異常検知システムの構築などを経験 2017年にリクルートテクノロジーズに入社し 機械学習のソ リューションを開発 運用するグループに所属 主な業務は A3RTのプロダクト開発 運用と 外部の企業との協業など 学歴 九州工業大学大学院 情報工学府 その他 データサイエンティスト養成読本 登竜門編 共同執筆 機械学習の講師として活動 2

概要 1. リクルートのビジネス 2. データテクノロジーラボ部の役割 3. 今回のトピック SQL生成 3

リクルートのビジネス 4

リクルートグループについて 創業 グループ 従業員数 1960年3月31日 40,152名 大学新聞広告社 としてスタート 2018年3月31日時点 グループ 関連企業数 361社 連結売上高 21,733億円 2017年4月1日 2018年3月31日 1,917億円 2017年4月1日 2018年3月31日 連結経常利益 目指す世界観 連結対象子会社 2018年3月31日時点 あなた を支える存在でありたい 5

リクルートの事業内容について ライフイベント領域 車購入 ライフスタイル領域 旅行 グルメ 美容 住宅購入 転職 出産/育児 生活/地域情報 ビジネス支援 結婚 就職 進学 選択 意思決定を支援する情報サービスを提供し まだ ここにない 出会い を実現する 6

リクルートのビジネスモデルについて リクルートには ユーザーとクライアントという 2 つのお客様が存在します 企業と人 (B to C) 企業と企業 (B to B) 人と人 (C to C) すべての間に立ち 双方にとって最適なマッチングを図る 場 を提供しています ユーザーとクライアントを新しい接点で結び まだ ここにない 出会い の場を創造する 7

データテクノロジーラボ部の役割 8

リクルートグループにおけるリクルートテクノロジーズについて リクルートテクノロジーズは リクルートグループの IT ネットマーケティング領域のテクノロジー開発を担う会社です リクルートテクノロジーズ メディア & ソリューション事業 ( 株 ) リクルート リクルートキャリア リクルートジョブズ リクルート住まいカンパニー リクルートホールディングス リクルートマーケティングパートナーズ リクルートライフスタイル リクルートコミュニケーションズ 人材派遣事業 Recruit Global Staffing B.V. HRテクノロジ 事業 RGF OHR USA, Inc. リクルートスタッフィングスタッフサービス ホールディングスその他海外派遣グループ会社 Indeed,Inc. 9

リクルートテクノロジーズの役割について 技術 ソリューションを磨き続け リクルートの各サービスがもつ価値を最大限に発揮できるようビジネスへ実装 IT の側面からサービスを進化させることを通じて 世の中に新しい価値を提供していきます 10

リクルートテクノロジーズの事業内容について 将来のニーズを見据え 新しい技術の R&D ソリューションの開拓を実現 検証を続け いち早く活用できるレベルに引きあげることで 中長期的なビジネス競争優位を構築していきます 11

データテクノロジーラボ部について ビッグデータ データテクノロジーを専門にする部署で 人工知能 機械学習と呼ばれる技術の研究開発をミッションにしている組織 データテクノロジーラボ部が担っている分野 12

データテクノロジーラボ部の取り組みについて :A3RT A3RT とは リクルートテクノロジーズが提供する機械学習のAPIサービス群 リクルートグループが提供するサービスの価値を高めるために開発された 数年後に直面するであろうビジネス課題を想定し 最先端の技術の研究開発に取り組んでいる プロダクト例 自動校閲 : 誤字脱字 誤表記などの文章校閲 文章分類 : 投稿された記事が規約に違反していないか判定 文章生成 : 原稿の自動生成 自然言語系以外に画像系のプロダクトも多数 13

公開されている A3RT の紹介 無料公開 2017 年 3 月公開 内部のサービスに限定せず 様々なシステムに組み込まれることを期待 目的 多様なフィードバック モデルのブラッシュアップ 新しい使い方の発掘 https://a3rt.recruit-tech.co.jp/ 14

今回のトピック :SQL 生成 15

ビッグデータと SQL ビッグデータの流行 Internet の普及やストレージの低廉化などに伴い ビッグデータという考え方が広まった ビジネスにおいて様々な場面でデータに基づく意思決定が求められるようになった データ活用によって生まれた業務 データを活用するために生まれた データ抽出 データ集計 という業務 例えばデータベースに蓄積されたデータを抽出するにはSQLの理解が必須 エンジニアやデータに係る技術者に集計依頼が発生 16

ビジネス課題 顕在化しにくい集計工数 専門知識が必要であるにも関わらず 集計の工数は軽視される傾向 様々な組織でちょっとした集計業務が徐々に増加している ( はず ) 集計結果をみると別の新しい切り口で集計したくなるケースが多い そこで データ集計技術の大衆化を目指す研究を調査 17

Seq2SQL と WikiSQL Salesforce Inc. 2017 年に Seq2SQL に関する論文を発表 Github 上でデータセットが公開された https://github.com/salesforce/wikisql Seq2SQL が目指すもの Question から SQL に変換 未知のテーブル定義にも対応できる汎用モデルを構築することが目的 Victor Zhong, Caiming Xiong, and Richard Socher. Seq2SQL: Generating Structured Queries from Natural Language using Reinforcement Learning. arxiv, cs.cl 1709.00103 (2017). 公開されたデータセットには幅広いテーブルに対して数組の Sequence と SQL を含んでいる 18

機械翻訳 Encoder-Decoder モデルについて 背景 Sequence to Sequenceという考え方が2014 年の論文で発表され多くの研究テーマに応用された Encoder-Decoder 翻訳モデルともよばれるRNNから派生したモデル 以下のように ABC と入力すると WXYZ を出力する 用途 Ilya Sutskever, Oriol Vinyals, and Quoc V.LE. Sequence to Sequence Learning with Neural Networks. Advances in neural information processing systems. pp.3104-3112 (2014). 自然言語の翻訳 ( 日本語 英語 ) が代表的 今日では文章要約なども盛んに研究されている 19

Sequence-to-Sequence のイメージ図 単純な翻訳の例 ( これはペンです this is a pen) this is a pen EOS Encoder Decoder これはペンです EOS this is a pen 20

SQL 生成のビジネス インパクト 業務に潜むデータ集計 ビッグデータ流行のピークが過ぎてもなお 多くの意思決定はデータに基づく 組織が大きいほど組織長が経営状態を把握するために集計業務が発生 潜在的な価値 蓄積された膨大なデータはDBで管理され SQLを書いて集計する 組織長がデータサイエンティスト エンジニアなどに集計を依頼する SQLを習得していない組織長が簡単にDBにアクセスできるとこの業務は減る 21

SQL 生成による構造変化 データを活用する営業担当や組織長 データエンジニアなど データベース 従 来 依頼 納品 SQL data 目 データを活用する営業担当や組織長 Seq2SQL による SQL 生成 データベース 指 自然言語 SQL す 世 界 納品 data 観 22

問題の定式化 Seq2SQL のアカデミックなタスク 汎用モデルの構築 ( 未知のテーブル定義に対しても SQL を生成できる ) ビジネスの観点からは研究がまだまだ発展途上 ( 精度が実用に耐えうるか不明 ) 解きたい問題を定義 汎用性よりも高い予測精度と学習データの準備コストを優先 テーブルが所与の状況で以上 2 点が現実的に実現可能か検証 23

学習用データの生成 データテーブルから学習データの生成 Sequence と SQL を入力 出力文章として sequence-to-sequence のモデルを学習 SQL の難易度が高い命令 (JOIN や GROUP BY など ) は初期段階では回避 Sequence のバリエーションが十分になるようデータを準備する かなり泥臭い作業で効率は悪い 学習データの自動生成 研究中のタスク 学習データ自体をテーブル定義から生成する仕組みを開発 モデルの学習に十分なバリエーションかを検証中 24

開発 ( 直近 1 年 ) 10-12 月 1-3 月 4-6 月 7-9 月 リサーチ開始 Seq2SQL 音声 UI の結合 ラズパイ Vioce Kit で実装 8/23 に無料版公開 古典的な Seq2Seq を開発 データ生成のスクリプトを開発 テーブル定義を所与としてデモモデルの開発 β 版完成 https://www.raspberrypi.org/ https://aiyprojects.withgoogle.com/ 音声から制御できる UI の開発 無料公開の準備 事業の業務効率化へ向けて トライアンドエラーを繰り返しながらスピーディーに開発することで フィードバックを得たり需要がある組織をヒアリングできた 25

A3RT Public API 公開 無料公開 デフォルトモデルで天気のテーブルに対して SQL を生成します https://a3rt.recruit-tech.co.jp/product/sqlsuggestapi/ 26

今後の展望 集計業務の自動化 Google Home や Amazon Echo といったスマートスピーカーの普及とともに音声コマンドが浸透 部下に任せていた集計が一声で完了する世界観が実現可能 ビジネスインパクト 業務効率化を目的として導入を進めている Web 画面 スマートスピーカーなど案件に最適な UI で提供できる 27

A3RT どしどしご利用下さい! https://a3rt.recruit-tech.co.jp/ 28

メンバー募集中 We are hiring! リクルートテクノロジーズ 29