こんにちは、フルスタックエンジニアのryuです。
今回の記事では、AWSのRDSからエスクポートしたparaquetファイルを開く方法について解説します。paraquetファイルとは、オープンソースの列指向データファイル形式です。ビックデータなどに最適なデータ形式です。
RDSで、S3にエクスポートするとparaquetファイルが出力されます。
しかし、開き方が分からないとデータの中身が確認できません。そこで今回は、paraquetファイルを開く方法について解説します。
目次
paraquetファイルの中身を簡単に確認する方法とは?
paraquetファイルの中身を簡単に確認する方法とは、「S3 Select」を使います。S3 Selectを使うことで、AWSのコンソール上でparaquetファイルの中身を確認することができます。
S3 Selectでparaquetファイルを開く
ここからは、S3 Selectでparaquetファイルを開く方法について解説します。
まず、paraquetファイルにチェックをつけます。
その後、アクションから、「S3 Selectを使用したクエリ」をクリックします。
入力形式を「Apache Paraquet」、出力設定の形式を「JSON」に設定します。
その後、SQLクエリの実行を押すと、paraquetファイルの内容が表示されます。
デフォルトのSQLクエリだと5件のみ表示
デフォルトのSQLクエリだと5件のみ表示されます。SQLクエリとは、以下の部分です。
「LIMIT 5」の部分が5件のみ表示するというクエリとなります。
paraquetファイルを表示するSQLはSELECT文のみ対応されています。次にサンプルのSQL文について解説します。
paraquetファイルを表示するSQLクエリのサンプル
paraquetファイルを表示するSQLクエリのサンプルをご紹介します。参考にしてください。
特定のフィールドを指定
特定のフィールドを指定する場合は、以下のように実行します。
SELECT s.[フィールド名1], s.[フィールド名2] FROM s3object s
//例 idだけ表示
SELECT s.id FROM s3object s
検索
検索する場合は、以下のように実行します。以下の例では検索する文字にマッチした場合のみ表示されます。
SELECT * FROM s3object s WHERE s.[フィールド名] = '[検索する文字]'
あいまい検索をする場合は以下のように実行します。検索する文字が含まれている場合に表示されます。
SELECT * FROM s3object s WHERE s.[フィールド名] like '%[検索する文字]%'
さらに複雑なSQLについては、Amazon Athenaを使用して実行することができます。Amazon Athenaとは、S3内のデータを直接分析することを容易にするインタラクティブなクエリサービスです。
詳しくは、こちらをご覧ください。
まとめ
今回の記事では、RDSからエクスポートしたparaquetファイルの中身を簡単に確認する方法について解説しました。
RDSからエクスポートしたparaquetファイルは、S3 Selectを使用して閲覧すると、簡単に見ることができます。S3 SelectではSQLクエリを実行してデーターを表示することができました。このように簡単にparaquetファイルが閲覧できます。
RDSのデータの中身を確認したい方はぜひ参考にしてください。
当ブログでは、このようなインフラやAWSに関する情報を発信しているので興味のある方は引き続きご覧ください。