","の罠
前回のエントリでto doリストを作る≒分析計画を作ると書いてからの歩みが異常に遅くなっています。
この原因も「いいわけ」ではなくて、メソッドの記録としてまとめておこうと思います。
今取り掛かっているのは受領した2つのデータのうち、まだ手をつけていないもう一つのデータの基本統計量をとるという作業です。
おおよそのエントリやタグの数を確認することで、今後の作業を
の3つに分類し、ロードマップを描こうと思っているわけです。
現在取り組んでいるもう一つのデータ(表現がややこしいので"DB2"*1と表記します。対して先週内容を少し報告したサイズの小さなデータを"DB1"と表記していきます。)
で、このDB2は以下のような特長があります。
- エントリ数/被登録サイト数が多い→少なくともEXCELでは扱えないし、ACCESSやテキストエディタで扱っても開いたり、一部修正して保存するだけで何分もかかってしまう
- 受領データの形式はCSVだが、URLや被登録サイトのタイトルに","などが含まれているため、カンマ区切りがずれる箇所が頻発する
というわけで、データハンドリング初心者には厳しい道のりとなっています。
ただ、徐々に徐々に要領は身についてくると思うので、少しずつペースを上げて行きたいと思っています。
対処法などはまとめてエントリに上げることとします。