指標をCSVオープンデータに!@00005


コメント数
15
評価P
24
  

指標となるデータ公開は、画像、PDF、エクセルではなく、シンプルなCSVによるオープンデータを国、自治体、民間ともに推進しましょう

東京都の対策サイトを皮切りに全国に広がった対策サイトでしたが、手作業での更新するサイトも多く、運用の負担が大きく、ミスも発生しやすい状況が課題でした。(私も、厚労省のPDFを使ってダッシュボード化運用中ですが、時々表記が変わるので毎回チェック必要です。)

CSVオープンデータ化のルール
- 文字コードはUTF-8(Excelの「名前をつけて保存」で「CSV UTF-8」を選択、SJISだと海外の人困ります。プログラムで生成する場合、BOM付きにするとExcelでも普通に開けてオススメ)
- ファイル名は変えない(変わるとHTMLのパース作業が別途必要)
- 項目名はすでに公開されている同様の項目名に合わせる(なければわかりやすいシンプルなものに)
- 項目名は一度設定したらできるだけ変えない
- 項目の追加、順番変更はOK!
- データ更新日時は項目にいれる
- 日時のフォーマットは 2020-05-13 か 2020-05-13T14:00 (Excel上で化けない ISO8601、Excelの日時表記の変更で自動付け替え可能です)
- 項目名や、値の前後に空白をいれない
- 数にはコンマはつけない

上記ルールに則っていれば、項目名と標準語彙基盤やschema.orgなどの語彙との対応をとって、5つ星オープンデータとしても運用可能です

このアイディアにコメント

あなたの立場を選んで下さい
24票役に立つ 0票ふつう 0票そうでもない

投票をキャンセルする

100%
投票総数: 24
 
コメント表示件数
1ページ目を表示中
1 |  2

このアイディアに対するコメント(15)

平均評価:0 / 5 総投票数: (評価済み)

データ配布形式としては、excel、access、sqlite形式なんてものも、
話題に昔上がりましたが、同じく誰でもわかりやすくて使いやすいCSVが一番いいと思います。

by たかさんさん (賛成)
2020/05/13 16:24投稿
平均評価:0 / 5 総投票数: (評価済み)

ご意見ありがとうございます。
オープンデータの一環でCSVを推進していますが、まだまだ、画像、PDF、エクセルが多い実態があります。
作成、公開、利用のそれぞれの場面でのコスト試算とかするとわかりやすいのかもしれませんね。
以下のサイトのように、情報収集→CSV公開→自動更新は、良い事例ですので、こういう事例を集めていきたいと思います。
https://vscovid19.code4japan.org/

平均評価:0 / 5 総投票数: (評価済み)

CSV 形式でデータをオープンにする場合、可能な限りスキーマの情報(どの項目にどういうデータがどういう形式で入っているか)も併せて公開できると使いやすいと思いました。

by turutosiyaさん
2020/05/13 20:10投稿
平均評価:0 / 5 総投票数: (評価済み)

#003
CSVの場合、スキーマ情報をシンプルに公開できる方法がないのがつらいところですね。
json-schema、xml-schemaのようなシンプル形式のcsv-schemaでもつくればいいけど、
標準化するとCSVの良さであるシンプル単純に公開できる良さが失われそうで難しいところですね。

by たかさんさん (賛成)
2020/05/13 20:17投稿
平均評価:5 / 5 総投票数:1 (評価済み)

Googleフォームとスプレッドシートの利用は難しいのでしょうか?

入力はフォーム、結果をスプレッドシートで公開すればxlsx・csv・html・pdfで公開できます。

フォームだとデータ更新日時も自動で作成され
ラジオボタンやチェックボックス等を利用すればスキーマの代用にもあと必須項目も設定できます。
また一度フォームを作成したらコピーも簡単に作成できますので再利用も簡単だと思います。

by 今治愛媛さん (賛成)
2020/05/13 21:07投稿
平均評価:0 / 5 総投票数: (評価済み)

一次情報がどれかというのはどうやって判断したらよいでしょうか?
例えば、下記のNHK調べとなっている病床数データはNHKが独自に収集しているのか、どこかのオープンデータを参照しているのかはどうやって見分けたらよいでしょうか?
https://www3.nhk.or.jp/...al/coronavirus/medical/

by konnyさん (賛成)
2020/05/14 01:41投稿
平均評価:0 / 5 総投票数: (評価済み)

#003 ありがとうございます。各データセット毎のお手本などは用意すると良さそうですね。
ただ、値の表記方法を細かく書きすぎて、公開を敬遠されてしまっては本末転倒なのですし、まずはExcelで誰もが利便性を実感でレベルまでに留め、スキーマや語彙の標準化は、集約時に変換する作戦で臨むのがよいかなと思っています。

by 福野泰介さん (賛成)
2020/05/14 17:37投稿
平均評価:0 / 5 総投票数: (評価済み)

#004 項目名とその説明、語彙との対応をCSVファイルで作成するのを次のステップにできるといいのかも

by 福野泰介さん (賛成)
2020/05/14 17:40投稿
平均評価:0 / 5 総投票数: (評価済み)

#005 スプレッドシート、便利ですよね!COVID-19 Japan や https://vscovid19.code4japan.org/ でも使っています。

問題は3つ
- 行政によってGoogleスプレッドシートにアクセスできない
- スプレッドシートのCSVアクセスはアクセス集中時に正常動作が保証されない
- オープンではない技術に依存してしまうため継続性が保証されない

業務ではきっとExcelが主流かとも思うので、せっかくならオープン技術を推奨したいと思います

by 福野泰介さん (賛成)
2020/05/14 17:45投稿
平均評価:5 / 5 総投票数:1 (評価済み)

#006 一次情報かどうかはドメインで判断します。.go.jp や .lg.jp ドメインがベストです。コピーして利用したとしても、元CSVデータのURLがあれば真偽は確認できます。民間独自で調べた出典がないもの二次情報となります。

ちなみにこちら全国自治体がどの程度 .lg.jp かを調査したものです。
https://fukuno.jig.jp/2822
現状、ドメインだけで見てすぐに把握できるようになってほしいものです。

by 福野泰介さん (賛成)
2020/05/14 17:49投稿
1ページ目を表示中
1 |  2


投票したユーザ

 
 
 
 

通常ログイン(上)と
他サービス連携によるログイン(右)が可能です。