ETLとは、Extract(抽出)・Transform(加工)・Load(書き出し)を略したもので、データを必要に応じて変換させる為の仕組みを指します。 同一データベース上だけでなく、異なるサーバ間でデータを連携させることが可能になります。 例えば、基幹系データベースからデータを取り出し(Extract)、1レコード上にコードとマスタの名称をひも付け(Transform)、データウェアハウスに書き込み(Load)させることができます。 このようなことをETL製品を使わずに実現するためには、独自でプログラムを組む必要があり、データの仕様が変わるごとに開発コスト・メンテナンスコストが非常に高くつくことになります。 逆に言えば、ETL製品をうまく活用することで、簡単なデータ連携であればノンプログラムで実装することができ、また、大規模な連携処理を構築することも可能となるのです。
製品名に使われている「Talend」とはフランスの企業であり、オープンソース・データ統合においてはリーディングカンパニーと言えます。 一言でTalend製品と言っても大きく分けて3つの製品があります。いずれもコアの機能がオープンソースであり、全て無償で利用が可能です。 データ統合(Data Integration)、クレンジング(Data Quality)、マスタ管理(Master Data Management)がそれです。 当サイトでは、この3つの中でも「データ統合(Data Integration)」の無償利用が可能なオープンソース製品、「Talend Open Studio」を紹介しています。
Talend Open Studioとは、上でも書きましたが、商用でも無償利用が可能なオープンソース製品です。「TOS」と略されています。
Ecripseがベースの開発ツールで、データ連携に使用するデータフローのデザインをGUI画面上で作成できます。
簡単なデータ連携であれば、ほとんどノンプログラムで作成できるほどです。ただし、リレーショナル・データベース、データを理解するスキルはもちろんのことですが、簡単なJavaのコーディングスキルが必要になります。
裏を返せば、データフロー上にJavaコードを埋め込み、データ加工を自由自在に操ることができるのです。
製品固有のプログラム言語をイチから覚える必要もなければ、追加のオプション製品を購入してアドオンさせる必要もありません。
ちょっとJavaの文法を知っているエンジニアであれば、Javaコードを実装して、データフロー上で関数として呼び出し利用できます。
シンプルなコードならば、ツールに初めから付属しているので便利です。
ただ、オープンソース製品であるため、良いところばかりではありません。
メニューの日本語化は利用に苦労しない程度の状態です。
とは言え、ユーザガイド、リファレンスガイドは完全に日本語化されたPDFファイルとして、無償でダウンロードが可能なので、困ったらマニュアルを見ましょう。
また、オープンソースだからこそ、自己責任で利用する必要があります。製品に致命的な不具合があっても、文句は言えますがTalend社にはそのバグフィックスの義務はありません。
複雑なデータフローを組むうえで技術的な質問をしたくとも、無償の範囲であれば英語フォーラムに質問を投げるくらいしかできません。
メーカサポートを受けるには別途契約が必要となります。(有償版を利用すれば、バグフィックス、サポートを受けることができますが・・・)
以上のメリット・デメリットを理解したうえで、Talend Open Studioを上手に活用してください。
XMindを使用するためには、Java 1.5以上がインストールされている必要があります。
Javaがインストールされていれば、下記のオペレーティングシステムで利用可能です。