HiveでJSON形式のデータを扱う方法があるようなので試してみました。
参考にしたのは「タムタムの日記 – HiveでJSON形式のログを構造化する

    • データを作成
$ cat << EOD > sample.txt
> {"name" : "Yamamoto", "age": 28}
> {"name" : "Yoshimura", "age": 30}
> EOD
    • HIVEにLOAD
CREATE TABLE raw_data(line string);
LOAD DATA LOCAL INPATH '/home/kawamura/work/20130526_json_tuple/sample.txt' OVERWRITE INTO TABLE raw_data;
    • VIEW作成
DROP VIEW IF EXISTS sample_view;
CREATE VIEW IF NOT EXISTS sample_view (
  name,
  age
)
AS
SELECT t1.name, cast(t1.age as int)
FROM raw_data
LATERAL VIEW json_tuple(raw_data.line, 'name', 'age') t1 as name, age;
    • SELECT from VIEW
SELECT *
FROM sample_view
WHERE age > 29;

TAB区切りのデータだと時々困ることがあります。
データによってカラムが違うことや、後からカラムを追加したくなったり。
あとは処理時間がどのくらい違うかかなぁ。