Seleniumの使い方メモ

最近Seleniumを試していたので、使い方を忘れてもまた思い出せるよう、Seleniumの使い方をメモしておこうと思います。インストール Selenium pip install selenium ブラウザとそのブラウザを駆動するWebDriverは別途インストールする必要がある。 WebDriver…

#Chrome #Python #Selenium #クローラー #クローリング #スクレイピング

2022-07-29

Selenium と Playwright の両方を使ってみた感想

JavaScript Playwright Python Selenium TypeScript puppeteer クローラークローリングコンピューター技術スクレイピング

WebのクローリングにPuppeteerを使っています。いつかPuppeteerの使い方をまとめたいなと思っていたのですが、そうこうしている内に月日は流れ、Puppeteerと同様のブラウザ操作ツールとして、Playwrightの名前をよく聞くようになってきました。ならばいっ…

#JavaScript #Playwright #Python #Selenium #TypeScript #puppeteer #クローラー #クローリング #スクレイピング

2019-08-06

Sparkのよく使うコードメモ

DataFrame PySpark Python Spark データ分析

SparkはPythonプログラムなので、かなり自由に書くことができます。しかし、いつも大体やることは決まっているし、色んな書き方を知っても、かえって記憶に残りづらくなってしまうので、Sparkの個人的によく使うコードを、１目的１コードの形にまとめておき…

2019-08-05

AWS Glueを使った感想

AWS Amazon Web Service Athena Dataproc Glue Hadoop Python Redshift Spectrum Spark データ分析

以前、AWS Glueを試しに使ってみたのですが、その感想です。 AWS GlueはApache Sparkでできていて、その時初めてSparkを触って面白かったので、そのうちGlueを本格的に使うようになったら、追々使い方をまとめようかと思っていました。しかし、データ出力…

2019-07-27

Spark（Google Dataproc）からAWS S3にアクセスする方法

AWS AWS S3 Amazon Web Service Dataproc GCP Google Cloud Platform Hadoop PySpark Python Spark データ分析

Spark（Google Dataproc）から、AWS S3にアクセスする方法です。手順 Spark設定下記のSpark・Haddopの設定をすると、SparkからAWS S3ファイルの読み書きができるようになります。 Sparkに下記AWS関連のjarファイルを読み込みます aws-java-sdk-bundle-xxxx…

2019-07-27

Spark（Google Dataproc）からMicrosoft SQL Server（Azure SQL Database）にアクセスする方法

Azure Azure SQL Database Dataproc GCP Google Cloud Platform JDBC Microsoft SQL Server PySpark Python Spark データ分析

Spark（Google Dataproc）から、Microsoft SQL Server（Azure Database）にアクセスする方法です。手順 Spark設定下記のSparkの設定をすると、SparkからSQL Serverのデータの読み書きができるようになります。 MS SQL ServerのJDBCのjarファイルをダウンロ…

2019-07-27

Spark（Google Dataproc）からMySQLにアクセスする方法

Dataproc GCP Google Cloud Platform JDBC MySQL PySpark Python Spark データ分析

Spark（Google Dataproc）から、MySQLにアクセスする方法です。 JDBCを使ってアクセスするので、PostgreSQL等、他のRDBにも応用可能です。手順 Spark設定下記のSparkの設定をすると、SparkからMySQLのデータの読み書きができるようになります。 MySQLのJDB…

2019-07-25

MySQLのデータベースを、スキーマレスでパーティショニングしながらBigQueryにロードしてみる

BigQuery GCP Google Cloud Platform MySQL PySpark Python SQL Spark データ分析

BigQueryはデータ量が膨大でも、インフラの事は全く（本当に全く）気にしなくてよく、しかも早くて安いので、データは全てBigQueryに入れてしまって、全部BigQueryで処理したくなってしまいます。そんな訳で、MySQLのデータベースをまるまるBigQueryにロー…

2019-07-17

Google Cloud Storageのサブディレクトリ一覧をPythonで取得する方法

GCP Google Cloud Platform Google Cloud Storage Python

Google Cloud Storageのサブディレクトリ一覧を、GCP Pythonライブラリを使って取得したかったのですが、ハマったので、その経緯と方法のメモ書きです。他の言語のライブラリも、Pythonライブラリ同様APIラッパーなので、応用可能かと思います。 NG 例最…

2019-02-21

手軽にクラスター分析するならPythonよりTableauがオススメ

Python Tableau Tableau Cloud Tableau Online Tableau Server データ分析

Tableauはグラフの表示だけでなく、クラスター分析機能もあります。 Pythonは無料だし、それだけで十分手軽にクラスター分析できるのですが、Pythonでクラスター分析を行おうとすると、データ前準備として標準化したり、エルボー法のグラフを描いてクラスタ…

2019-02-13

WSLにpyenvでPython3+Jupyter Notebook環境を構築する

Jupyter Jupyter Notebook Linux Python Ubuntu WSL Windows Subsystem for Linux pyenv

WSL（Windows Subsystem for Linux）のUbuntuのバージョンが16と古くなってきたので、バージョン18のUbuntuを新たにインストールしました。それに合わせて、Python3+Jupyter Notebookもセットアップし直したのですが、途中いくつかつまづいたので、今後の再…