Sparkのよく使うコードメモ

SparkはPythonプログラムなので、かなり自由に書くことができます。しかし、いつも大体やることは決まっているし、色んな書き方を知っても、かえって記憶に残りづらくなってしまうので、Sparkの個人的によく使うコードを、１目的１コードの形にまとめておき…

2019-08-05

AWS Glueを使った感想

AWS Amazon Web Service Athena Dataproc Glue Hadoop Python Redshift Spectrum Spark データ分析

以前、AWS Glueを試しに使ってみたのですが、その感想です。 AWS GlueはApache Sparkでできていて、その時初めてSparkを触って面白かったので、そのうちGlueを本格的に使うようになったら、追々使い方をまとめようかと思っていました。しかし、データ出力…

2019-07-27

Spark（Google Dataproc）からAWS S3にアクセスする方法

AWS AWS S3 Amazon Web Service Dataproc GCP Google Cloud Platform Hadoop PySpark Python Spark データ分析

Spark（Google Dataproc）から、AWS S3にアクセスする方法です。手順 Spark設定下記のSpark・Haddopの設定をすると、SparkからAWS S3ファイルの読み書きができるようになります。 Sparkに下記AWS関連のjarファイルを読み込みます aws-java-sdk-bundle-xxxx…

2019-07-27

Spark（Google Dataproc）からMicrosoft SQL Server（Azure SQL Database）にアクセスする方法

Azure Azure SQL Database Dataproc GCP Google Cloud Platform JDBC Microsoft SQL Server PySpark Python Spark データ分析

Spark（Google Dataproc）から、Microsoft SQL Server（Azure Database）にアクセスする方法です。手順 Spark設定下記のSparkの設定をすると、SparkからSQL Serverのデータの読み書きができるようになります。 MS SQL ServerのJDBCのjarファイルをダウンロ…

2019-07-27

Spark（Google Dataproc）からMySQLにアクセスする方法

Dataproc GCP Google Cloud Platform JDBC MySQL PySpark Python Spark データ分析

Spark（Google Dataproc）から、MySQLにアクセスする方法です。 JDBCを使ってアクセスするので、PostgreSQL等、他のRDBにも応用可能です。手順 Spark設定下記のSparkの設定をすると、SparkからMySQLのデータの読み書きができるようになります。 MySQLのJDB…