Prev / Next / /home/pochi/ChangeLog

データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話[UNIX]

2013-08-02

http://d.hatena.ne.jp/yutakikuchi/20130801/1375314238

- 大量データに対して検索を行う場合はgrepではなく、
  lookコマンドを利用しましょう!
- grep、sortを使う時は環境による依存を無くすだけでなく処理速度を
  上げるためにLC_ALL=Cを設定しましょう!
- 大量データからランダムサンプリングする時はshufコマンドを利用しましょう!
- 合計、平均値を求める場合はawkを利用しましょう!
- 複数ファイルのデータ結合をしたい場合は、joinとpasteを利用しましょう!


LC_ALL=C にすると速度が上がるのか。

こういう方法を知ってると、Excelと格闘したり、一旦DBに入れたり、
プログラムを書いたり、っていう手間は激減しそうだ。

permlink