データ分析
Google Professional Data Engineer認定資格の試験を受ける機会があり、無事合格できました! Google Professional Data Engineer認定資格に関する情報は少ないので、興味ある方向けに合格体験記を書こうと思います。 Google Professional Data Engineer認定…
Googleアナリティクスは見た目はカッコいいんですけど、難しくて今までちゃんと使ったことはありませんでした。 そんな中、Googleアナリティクスのデータを集計する機会があって、Googleアナリティクスをもう少しちゃんと使ってみる必要がありました。 備忘…
Googleアナリティクスは見た目はカッコいいんですけど、難しくて今までちゃんと使ったことはありませんでした。 そんな中、Googleアナリティクスのデータを集計する機会があって、Googleアナリティクスをもう少しちゃんと使ってみる必要がありました。 備忘…
Googleアナリティクスは、見た目がカッコいいので簡単そうに見えるのですが、いざ使おうとすると意外に分かりにくくて、今までちゃんと使ったことはありませんでした。 そんな中、Googleアナリティクスのデータを集計する機会があって、Googleアナリティクス…
Googleアナリティクスは、見た目がカッコいいので簡単そうに見えるのですが、いざ使おうとすると意外に分かりにくくて、今までちゃんと使ったことはありませんでした。 そんな中、Googleアナリティクスのデータを集計する機会があって、Googleアナリティクス…
JavaScriptでSQLiteを使う方法メモです。 あまり凝ったことはせず、必要最低限の機能に絞ってまとめました。 SQLiteそのものの使い方は割愛しますが、こちらが詳しいのでご参照ください。 インストール パッケージ「sqlite3」を使いました。 npm install sql…
時系列グラフの表示範囲の指定UIに 「デフォルトは直近X日を表示し、必要な時にカレンダーで任意の日付を指定できる」 といったものをよく見かけます。 しかし、Tableauの日付フィルターで同等のことはできないんです。 「直近X日を表示」は日付フィルターの…
Tableauは直感的に、マウスのドラッグアンドドロップでグラフが作れるのが魅力ですね。 しかし、エクセルのグラフをTableauに移植しようとした時に、マウス操作だけではうまくグラフが作れない時があります。 そういったグラフは、TableauのLOD(Level of De…
シングルサインオン(SSO)サービスに興味があって、一時期色々サービスを試していました。 www.kwbtblog.com Office365のユーザーをキーとしてログインしたかったので、結局Azure Active DirectoryのSSOを使うことにしました。用途としては、主にTableauのロ…
Google BigQueryに、Google Cloud Storageのファイルをロードする時、複数のファイルをまとめてロードすることができます。 しかし、それをGoogle BigQueryのNode.js SDKでやろうとしてハマったので、そのメモ書きです。 概要および問題点 table.createLoadJ…
Twitter APIを使ってデータ収集する機会がありました。 Twitter APIには、Googleの検索のように、ツイートを検索するSearch APIがあって、今回それを使いました。 普段Twitterは、主にリーダーとして利用していたので、あまり機能を意識することは無かったの…
世の中の動向を知るのに使えないかと、Twitterのデータを、Twitter APIを使って取得してみました。 結論から言うと、Twitter APIの制限がキツイと噂には聞いていましたが、本当にキツ過ぎて使い物になりませんでした…。 Twitter APIでデータを取得するところ…
Tableauのデフォルトのグラフは結構綺麗です。 実務用途で使う分にはデフォルトを少しいじる程度で十分なのですが、資料用のグラフの場合、資料に合わせて色々見た目を変えたくなります。 しかし、Tableauの書式設定は結構難しく、せっかくTableauでグラフを…
SQL Serverのデータを、BIツールで読み込んでグラフを作ったりしています。 その場合、データは読み取りしかしないし、色んな人がグラフを作るので、書き込み権限を持ったユーザーは使いたくなく、共有用に読み取り専用ユーザーを作成しました。 今回、SQL S…
SQL Serverを使うのは、Azure SQL Databaseが初めてだったので知らなかったのですが、SQL Serverでは、データベースをまたいだクエリは、下記のように、データベースを指定することによって簡単に書けます。 SELECT * FROM [<db_name>].dbo.test_table しかし、Azure </db_name>…
Tableauのダッシュボードでのグラフ配置は、なかなか思った通りのレイアウトにならなくて難しいです。 原因は、オブジェクトをマウスでドロップや移動しても、意図した階層に入ってくれないのと、 1つのオブジェクトのサイズや位置を変更すると、他のオブジ…
データを月・週ごとに集計するには、まず日付の月・週の頭の日付を求め、その頭の日付でGROUPします。 Google BigQueryなど、頭の日付取得にDATE_TRUNC()関数が使える場合は、下記のような感じで集計できます。 SELECT DATE_TRUNC(dt, MONTH) AS dt_month ,S…
「ユーザーのイベントログで、ユーザーが一番最後に行ったイベントを抽出する」など、 グループで分けたデータの最後のレコードを取得したい時があります。 ウィンドウ関数を使うと、下記のような形で求めることができます。 WITH tbl AS ( SELECT * ,ROW_NU…
SparkはPythonプログラムなので、かなり自由に書くことができます。 しかし、いつも大体やることは決まっているし、色んな書き方を知っても、かえって記憶に残りづらくなってしまうので、Sparkの個人的によく使うコードを、1目的1コードの形にまとめておき…
以前、AWS Glueを試しに使ってみたのですが、その感想です。 AWS GlueはApache Sparkでできていて、その時初めてSparkを触って面白かったので、 そのうちGlueを本格的に使うようになったら、追々使い方をまとめようかと思っていました。 しかし、データ出力…
Spark(Google Dataproc)から、AWS S3にアクセスする方法です。 手順 Spark設定 下記のSpark・Haddopの設定をすると、SparkからAWS S3ファイルの読み書きができるようになります。 Sparkに下記AWS関連のjarファイルを読み込みます aws-java-sdk-bundle-xxxx…
Spark(Google Dataproc)から、Microsoft SQL Server(Azure Database)にアクセスする方法です。 手順 Spark設定 下記のSparkの設定をすると、SparkからSQL Serverのデータの読み書きができるようになります。 MS SQL ServerのJDBCのjarファイルをダウンロ…
Spark(Google Dataproc)から、MySQLにアクセスする方法です。 JDBCを使ってアクセスするので、PostgreSQL等、他のRDBにも応用可能です。 手順 Spark設定 下記のSparkの設定をすると、SparkからMySQLのデータの読み書きができるようになります。 MySQLのJDB…
BigQueryはデータ量が膨大でも、インフラの事は全く(本当に全く)気にしなくてよく、しかも早くて安いので、 データは全てBigQueryに入れてしまって、全部BigQueryで処理したくなってしまいます。 そんな訳で、MySQLのデータベースをまるまるBigQueryにロー…
SQL Server(Azure SQL Database)で、カレンダーテーブルが欲しかったので作成方法メモです。 ググったところ、「WITH」でテーブルを作成し、そのテーブル定義の中の「UNION ALL」から再帰呼び出しして作るようです。 WITH _calendar AS ( SELECT CAST(N'20…
Tableauで日付を連続値にして棒グラフを表示する際、棒グラフの開始位置が左になるので見づらいです。 特に、2軸表示で、折れ線グラフと一緒に表示させると、折れ線グラフは日付の中心なのに、棒グラフはずれているので更に見づらくなります。 棒グラフの中…
日付で飛び飛びなデータを集計する時には、カレンダーテーブルが欲しくなることがあります。 Google BigQueryでは下記でカレンダーテーブルを作成できます。 「GENERATE_DATE_ARRAY()」でカレンダー配列が作れるので、「UNNEST()」で配列を行に展開してテー…
Tableauはグラフの表示だけでなく、クラスター分析機能もあります。 Pythonは無料だし、それだけで十分手軽にクラスター分析できるのですが、Pythonでクラスター分析を行おうとすると、データ前準備として標準化したり、エルボー法のグラフを描いてクラスタ…
普段Tableauや PowerBIを使っているのですが、それらを使う程じゃないんだけど、サクッとグラフを表示してデータを確認したいことがあります。 そんな時用に、Googleデータポータルを知っておくと便利かなぁと思い、簡単な使い方をまとめてみました。 Google…
元々AWS Redshiftを使っていたのですが、結構お高く、Google BigQueryに乗り換えました。 その後、Redshift Spectrum が出て、ひょっとしたらBigQueryよりいいのではと気になっていたので触ってみた感想です。 また、Redshift Spectrumが使えるようセットア…