2010年11月9日はAmazon API で従来取得できていたレビュー関連のデータが一式全て取得不能になるようです。iframeという形でamazonが提供するhtmlを表示することは可能とのことですが、amazon...
以前、「やはり perl はメモリ喰いな言語。データ型の内部構造」という記事を書いたことがあるのですが、自分で書いておきながらしばらく立つと完全忘却してました。時代は変わって、今仕事で運用しているサーバは、64bit...
以前から注目していたmusashi。 データマイニングの実施に必要となる、大量データ処理のために開発されたコマンド群です。musashiが処理対象とするデータはxmlで記述されたxmltableもしくはplain...
「perl 5.6系 と 5.8系では巨大配列の処理効率が違う」でも書いたのですが、巨大な配列データの扱い方でメモリ使用量でハマってます。そもそも csv ファイルで 100mbyte...
≪課題≫ 会員マスタ:5万件 会員id(pk),会員名,平均購入金額,... posデータ:500万件 posid(pk),会員id(fk),取引日時,購入金額,... のテーブルにおいて、posデータの購入金額から平均購入金額を求めるて会員マスタの平均購入金額へ値を反映する場合、適切なindexが構成済みの環境下で、以下のどれが高速か?...

仕事でたまたま聞かれた国勢調査による人口分布に関するデータ。国勢調査の結果は 総務局 - 統計局ホームページ にて公開されています。最新の国勢調査結果としては 平成17年国勢調査 第1次基本集計結果 が公開されています。基本的に各都道府県別と全国の集計結果がエクセルシートで公開されています。...
fortune 1000社の重要データの25%以上が不完全で不正確――その原因は技術よりもむしろ、どのようなデータをどう収集するかという業務プロセスにあるとアナリストは指摘する。(記事詳細はこちら)僕もお仕事の関係上でお客様の社内データ分析したことが幾度とありますが、データのクレンジングをしないと、使える結果はでてきません。データがキタナイ原因は業務プロセス上に問題がある場合が殆どだ。しかしながら、そのプロセスを改善するのは中小企業になるほど難しい問題となる。...
自宅サーバがクラッシュしたとき、6〜7年前のまだ入社下手の頃に携わっていた開発プロジェクトにおいて、開発サーバの hdd クラッシュにより開発ソースコードを全て紛失したことを思いだした。...
