","の罠

前回のエントリでto doリストを作る≒分析計画を作ると書いてからの歩みが異常に遅くなっています。
この原因も「いいわけ」ではなくて、メソッドの記録としてまとめておこうと思います。

今取り掛かっているのは受領した2つのデータのうち、まだ手をつけていないもう一つのデータの基本統計量をとるという作業です。
おおよそのエントリやタグの数を確認することで、今後の作業を

  • 自分の目で分類・分析できる部分
  • EXCEL/ACCESS/SPSSなど自分が現在身につけているor自力でスキルを身につければどうにかなる手法で対処する部分
  • 技術の導入などで相談することが必要な部分

の3つに分類し、ロードマップを描こうと思っているわけです。

現在取り組んでいるもう一つのデータ(表現がややこしいので"DB2"*1と表記します。対して先週内容を少し報告したサイズの小さなデータを"DB1"と表記していきます。)

で、このDB2は以下のような特長があります。

  1. エントリ数/被登録サイト数が多い→少なくともEXCELでは扱えないし、ACCESSテキストエディタで扱っても開いたり、一部修正して保存するだけで何分もかかってしまう
  2. 受領データの形式はCSVだが、URLや被登録サイトのタイトルに","などが含まれているため、カンマ区切りがずれる箇所が頻発する

というわけで、データハンドリング初心者には厳しい道のりとなっています。
ただ、徐々に徐々に要領は身についてくると思うので、少しずつペースを上げて行きたいと思っています。

対処法などはまとめてエントリに上げることとします。

*1:別にIBMを意識しているわけではありません