Y's note

Web技術・プロダクトマネジメント・そして経営について

本ブログの更新を停止しており、今後は下記Noteに記載していきます。
https://note.com/yutakikuchi/

データ の検索結果:

Google Fit Platformについて調べてみた

…gle Fitに無いデータを他のアプリで取得して、それをGoogle Fit側で管理することもできたり。またその逆もできます。Google Fitが公式として連携しているアプリは下記のURLに記載されています。 引用 : https://play.google.com/store/apps/collection/promotion_3000e6f_googlefit_all Google Fitのアプリでは取れないデータ、例えば日々の体重など、OMRONの体重計から取得、それ…

Adaloでアプリ上のデータを使ってQuickChartを動的に表示する

…埋め込み、アプリ上のデータを基にチャートを動的に表示することを行います。下記ではAdaloとQuickChartについて簡単に紹介、その後作業の流れを記載しています。 Adalo www.adalo.com Freeで開始できるノーコードでWeb・スマートフォンネイティブアプリが作れるツールです ただし、apple store, google playへの公開は有償版に入らないとできません UI Componentがテンプレート化されていて、Adalo上でDrag & Dro…

高く飛ぼうぜ

…権を検索するために、データの圧縮アルゴリズムを開発し、仲間と共にPied Piperという会社を起業をする話し。何気ないドラマのシーンやセリフがWebプロダクト開発や起業に携わったことがある人は共感できること多数という感じ。 シリコンバレー (テレビドラマ) - Wikipedia 今日はシーズン1の第1話、実用最小限の製品の中のやり取りで、データ圧縮アルゴリズムを開発したプログラマーでありPied Piperを起業するリチャードとそれを支えるインキュベーターのアーリック会話…

ラーメン二郎分類器 : ABEJA Platformを使ってサービス公開するぞ

…について記載します。データのcrawlingなどの実装は必要ですが、学習に関してはtemplateという機能を利用するとノンプログラミングでもモデル作成が可能なので、以下の作業時間はおおよそ10分で完了できます。 既にABEJA Platform、ABEJA Platform Annotationについては記事にしているので、以下のリンクも参考にしてください。 http://yut.hatenablog.com/entry/2019/07/05/002138 http://y…

学習データの蓄積を加速する ABEJA Platform Annotation

…の一機能であり、学習データの蓄積を加速する ABEJA Platform Annotation について紹介します。 ABEJA Platform Annotationとは abejainc.com 今回はMLOpsで重要な学習データを蓄積するためのAnnotationについて書きます。そもそも学習データとは?という方もいると思うので、簡単に一言で表すと、人工知能のモデルを作るための知識・入力データと言えます。人間も学習という訓練を重ねながら脳を賢くする、このプロセスは人工知…

MLOpsの課題を解くABEJA Platform

…しています。例えば、データの取得元・機械学習モデルの実行環境としてはIoTデバイスで行い、学習データの蓄積・モデルの生成はCloudで行うという、使い分けをすることもできます。 今後あらゆる場面でIoTデバイスの導入が進むことは明らかなので、ABEJAとしてもEdgeとの連携については多くのビジネス機会があると考えています。( 下記図に記されているように、上りのIoT、下りのIoTの連携が進む。上りのIoTとはデバイスからクラウドにデータを預ける、下りのIoTで預けたデータか…

暗号通貨の価格推移データをGoogle Spreadsheetを使ってHackする

…で暗号通貨の価格推移データを取得する 取得したデータを基にデータの可視化、分析を行う。※ 今回のentryではその準備までを対象とする Ref Google Spreadsheetに暗号通貨の価格推移データを表示するrepositoryを下記に設置 GitHub - yutakikuchi/crypto-currency-googlespreadsheet Hack方法① : GoogleFinance関数 Google Spreadsheetのデフォルト関数である Goog…

Kerasでお試しCNN

…として1度に取り組むデータ(画像)の数であり、全てのClassからbatch_size分のデータをランダムで取得する。1epochとはバッチサイズで指定したサンプルデータを全て使用した状態を示す。よって今回のTrainingで利用する画像数は50000枚、それを32のバッチサイズで画像数を定義するので、50000 / 32 = 1563 1563回のバッチを実施する。1バッチでパラメータを更新するので、1563回の更新が1epoch内で繰り返される。epochsで指定されてい…

Computer Vision : Visual Importance Mapの研究

…とAIへの入力となるデータについてはflickrのDesign、Mturkを利用して多人数にAnnotationをさせている。 Amazon Mechanical Turk Annotationの方法としてはBubble ViewというCreativeをぼやかした状態において、Annotatorがどこをより見たいかを選択してもらう。これよりGround truth(教師データ)を集める。Ground truthデータをFully Convolutional Networks …

製造業のAI導入

AI

…障発生をセンサーログデータなどから予測する予防保全 3. 製造ラインを効率化するための生産計画の効率化 引用 : https://www.projectdesign.jp/201704/ai-business-model/003521.php 上記以外にも様々な検証が進んでおり、2030年にはAI活用業界のTopとして名を連ねることが予想されている。製造物に異常が発生したときの予算ロスはビジネス的なインパクトとして非常に大きいので、今後AI導入の注目業界であることは確かである…

RPAとAIの違い

AI

…る。 AIは、過去のデータを利用した様々な判断をするための予測をする仕組みを提供する。人間が予測のロジックを事前に提供することで、データからの読み取れる判断ポイントや特徴については機械が解釈をする。例えば写真の中にどのような物体が写っているかを自動的に判別する場合、RPAのように人間が物体を見たときの判断ポイントの全てをルールとして機械に与えるのではなく、それらを機械が自動的に判断するために過去のデータから解釈をしてく。 簡単なまとめ RPA(Robotic Process …

見えない人工知能を売ることの難しさ

…merの課題に対してデータを集め、人工知能のモデルを作り、その後に評価を行う。このプロセスを踏まえないと、そもそもCustomerが求めるKPIに対して成功・失敗するということが分かりにくい点である。 経験を持った技術者であれば先行研究の内容から特定の課題に対して、どういったデータ量と質、更にはMachine Learning・Deeplearningの手法を採用、モデルのチューニングをすると予測精度◯◯%ぐらいは出るかも、というざっくりした見積もりは可能である。ただし、この…

新しい環境で得た学び

…思います。 海外からデータサイエンティストを採用する 私のチームは ビジネスを研究し、データサイエンスの価値を提供する ことを行い、機械学習の実務や最新研究への精通、クライアントのニーズを理解して解決方法を提案するコンサルティング能力、潜在顧客のリードから顕在顧客を導き出すマーケティング施策実行など、幅広い業務知識を必要とします。上でも書きましたが、それが故に採用ハードルが高く、人手を必要とするタイミングでも人が取れないという問題が長くあったようです。 採用のハードルを下げる…

The Data Management Platform: Foundation for Right-Time Customer Engagement [DMPに関する欧米の調査内容(2012.12)]

DMP

…DMP)は分断されたデータソースを集約/結合/管理/配布したい広告主、マーケータ、パブリッシャー、その他...の人たちのための"Big Data"の実装をサポートするテクノロジーソリューションとして用いられる。DMPとしては上図にあるように AGGREGATE(DATA SOURCES)、INTEGRATE AND MANAGE(DMP APPLICATIONS)、DEPLOY(USE CASES) の3パートに分かれており、データの収集、解析、利用という流れがある。AGGR…

機械学習の種類と特徴

…リットとして、大量のデータをInputとした予測、推定、分類などの処理をAlgorithmの構築によって瞬時に行える事である。 1枚の画像だけを見て何が写っているかのような判断においては人間の脳が優れているものの、大量のデータInputを基にした組み合わせの選択や最適解に瞬時に辿り着くという目的においては機械に任せてしまったほうが効率的とも言える。昔から機械学習による予測、推定、分類などの処理は様々な手法として提案されており、どういった問題を機械に判断させるかという切り口で最…

scalaのimmutable

…使うかで言語内部でのデータの持ち方が異る。また変数の宣言をval(再割当て禁止) or var(再割当て可能)を使うかで実行可否や挙動が変わる。よって2つの観点(immutable or mutable / val or var)の組み合わせで調査をする必要がある。関数型言語ではvalを利用する事が推奨され、scalaのcollectionはdefaultでimmutableが選択されている。よって自然な組み合わせはval × immutableとなり、変数を定義した後に変数…

mysqlでgroup毎のTop-K行を取得する方法

…でgroupに紐づくデータが膨大だとつらい。よってここでは 3.session固有のユーザー定義変数を使って...について簡単に紹介する。下はidの昇順にてTop-10を出している。最初の行でsession固有の変数を定義している。SQL中の@group = media_idがGroupの指定。group変数が未定義の場合は1を同一の場合にはnumをincrementしている。subquery内のrow_numberがincrement数なので最後のwhereにてrow_nu…

オンライン広告におけるアトリビューション分析の必要性

… カスタマージャー二データを用いたアトリビューション分析 Conversionに至るまでの自然検索流入、純広告Impression、アフィリエイト広告Impression、広告Click等の複数チャネルに接触した履歴全てをまとめたカスタマージャーニーデータをアトリビューション分析では利用する。目的としては単純なCPA,ROASのラストクリックを獲得した広告Vendorの評価だけではなく、InternetUserの態度変容に対して各施策がどれだけ寄与したのかを中間指標としてスコ…

Recsys2015で発表されたCriteo社の最新レコメンド情報を読む

…の大陸にインハウスのデータセンターが7つ。サーバー15000台、ヨーロッパに巨大なHadoop Clusterがある。35PBのBig Dataがある。 Criteo社のデータソース 商品カタログデータが広告主ごとに100万ほど。その広告主を10000社持つ。 インターネットユーザーの行動履歴のイベント数が毎日2B。 広告表示やクリックなどのイベントデータが毎日20B。 Recommend Logic やりたいこととしてはRecommendの関数にインターネットユーザーを入れ…

データサイエンティスト養成読本

データサイエンティスト養成読本 R活用編 【ビジネスデータ分析の現場で役立つ知識が満載! 】 (Software Design plus)作者: 酒巻隆治,里洋平,市川太祐,福島真太朗,安部晃生,和田計也,久本空海,西薗良太出版社/メーカー: 技術評論社発売日: 2014/12/12メディア: 大型本この商品を含むブログ (1件) を見る データサイエンス 参加したイベントで頂いた「データサイエンティスト養成読本 R活用編」の冒頭を中心に読んでみました。前に出ていた同等の養成…

What is spray?

…てTableの作成、データのInsertを行います。理想としてはDBSchemaClass、Connectionを別途定義することだと思うので、気になった人は自由に書き変えてください。 trait MyService extends HttpService { class Customers(tag: Tag) extends Table[(Int, String, String)](tag, "customers") { def id = column[Int]("id",…

DMP vs DSP : CookieとDataのSync

…ra上のQuoraにデータ分析した結果を売ってお金にしたいDMPと分析された結果を広告配信のターゲティング精度に還元してお金にしたいDSPとの間でCookieの同期とデータ分析結果の受け渡しについて良いまとめがあったので要約したいと思います。上の内容に書いてない事で僕が知識として持っていることも加えておきます。 Cookie Sync 特定のWebサイトはサイト分析やより精度の高い広告配信のためにDMPのJavaScriptタグを設置する。 設置されたDMPのJavaScri…

機械学習のOverfitting対策

…機械学習で偏った学習データに適合したモデルを評価データに対して利用した場合、精度が悪い結果が得られることがあります。単純にモデルにInputする訓練データが少なかったり、局所領域に存在するデータ扱っていたり、モデルの自由度が高く複雑である事など幾つか原因が考えられ、上のQuoraで解決策について意見が書かれています。ここでは結論として書かれた内容について簡単に紹介します。 K-Fold Cross Validation 単純な解決方法としては学習時に偏ったデータに適合しすぎな…

Recsys2014の発表から現在のRecommend Systemの問題点を読み取る

…n評価をする一般的なデータマイニング問題としてみなすことが可能。 機械学習以外の側面として、UserInterface、Systemの要件定義、セレンディピティ、多様性、気づき、説明などの要素がある。 セレンディピティは直接求められていないものを探す。Userが既に知っているアイテムを紹介してはいけず、Userを興味に近しい領域に拡張させる 様々なカテゴリジャンルのアイテムを表示する事が多様性と気づきである(意訳) Collaborative Filterling (CF) …

Criteoが発表したCross Device Advertisingのreportを読む

…。 良いSolutionを提供してくれるPartnerを見つける事も重要。様々な企業が今Cross-Deviceの分析手法を確立している最中であるが、あと半年から1年以内に幾つかの企業がsolutionを発表する事が期待されている。 データの取得とopt-outの方法はクリアでなければならない。 Online広告からアプリへのWebインタフェースも自然な物でないといけない。デザインが重要。 より正確な時間に正しい広告を正しいUserに届ける事はConversionを改良する。

検索Crawlerを作る

…実行すると格納されたデータが見れると思います。このHBaseに格納されたデータをSolrのIndexに入れて行きます。 $ wget http://ftp.kddilabs.jp/infosystems/apache/nutch/2.2.1/apache-nutch-2.2.1-src.tar.gz $ tar -xzf apache-nutch-2.2.1-src.tar.gz $ cd apache-nutch-2.2.1 $ vi conf/nutch-site.xml…

Android Studioを入れてFacebookSDKのLogin機能を使うまでの作業記録

…ジック書いて取得したデータをViewに反映したいという欲求を満たす為に今日は自分で試してみた事を記録しておきます。 尚、僕が試している環境は以下の通り。 PC : OSX 10.9.4 Android Studio : Beta 0.8 FacebookSDK : 3.17.1 FacebookSDKの設定 Facebook SDKのImport Android用Facebook SDKスタートガイド Getting Started with the Facebook SDK…

類似度計算と転置Indexとb-Bit Minwise Hashing

…る為にユーザーの購買データからJaccard係数やCos類似度を求める手法が一般的です(アイテム×ユーザーTableと、アイテム×アイテム相関Tableが必要)。しかしアイテムの個数(N)×ユーザー数(M)の行列を作り、Nの中から2つのアイテムを取り出してそれぞれの係数や類似度を求め、それを個数分繰り返していたら行列が大きくなる程計算が大変になります。特にアイテムの購買という行為がほとんど発生しないので、購買のベクトルがほとんど0となる疎ベクトルが作られて効率が悪く感じられま…

速いよ Java Play Framework

…owthHack!×データログ集計、解析!をテーマに事例をまじえお話します! 16年ぶりの再会でも参加率6割の同窓会を開くには?Yahoo出身のエンジニアが語る、アクセスログ可視化、 ユーザ属性解析を行うためのシステム設計のコツとは? Round 8 results - TechEmpower Framework Benchmarks さて、本題に入ります。僕がphpを書き始めたのも前職のmain言語として指定されていたことがあり、あまり書いていて楽しく無いとは思っていながら…

SolrのSpatial Searchを試してみた

…lingして得た住所データをGeocodingでLat/Lngデータに変換して自前のServerにIndexingしていく事を考えており、その前段階の作業です。Solrを選ぶ理由ですがSpatial Search以外にもTermVectorでの類似度を算出してくれるMoreLikeThisという機能があり、Lat/Lngデータの掛け合わせでコンテンツを面白くSuggestすることを考えています。MoreLikeThisについても調査したら書きますね。 Solr設定 java,…