医療とIT。

医療とITについて書いてます。あとは自分の研究の備忘録。医療ITに興味がある方ぜひ!

医療従事者向けのテキストマイニング入門その1

何回かに分けてテキストマイニングについて書いていきたいと思います.

医療における2種類のデータ

医療に限らないんですがまあ…
データはざっくり,定量/定性の2種類に分けられます.
 定量:数字データ(血圧,年齢など)
 定性:文字データ(既往歴,現病歴,看護記録など)
分析しやすいのは圧倒的に定量データです.
集計が出来るため,大量のデータの平均などを求めたりして,ざっくりこのデータが何を示しているかが数字一つで表現できるからです.

一方医療ではカルテをはじめ,記録を残すことが法律で義務付けられています.
診療の過程で発生するあらゆる情報の多くは文字で記録されています.
 →分析出来たら色々分かりそう!
ですが文字列はコンピュータが苦手としますし,集計をしても個数ぐらいしか求めることが出来ません.
医療情報をどうコンピュータ上で集計しやすいように整えるか・表現を統一するかはこの分野の課題です. (この辺りの話は,医療情報の標準化って言います.日本では医療情報システム開発センター(MEDIS)が中心に行っています.)
自力で定性→定量に変えることが理想ですが,高度な情報技術も要します.
ではどうしたらいいのでしょう…

テキストマイニングとは?

ここでテキストマイニングが出てきます! テキストマイニングとは,文字を対象としたデータマイニング技術のことです.
データマイニング:沢山のデータを分析して,新しい知見を見つけること)
例えば,

  • たくさんの文字列の中から,よく使われている単語を調べる

  • 同じ使われ方をしている単語同士を結ぶ(共起ネットワーク)
    のようなことが出来ます.

テキストマイニングをするには?

以下のものが必要です.無料で大体揃えられます.

  1. 分析用のデータ:例えば患者の苦情,院内アンケート,報告書など

  2. 分析ソフト:統計解析ソフトについている場合もありますが,Webサイトで無料でできます.また,テキストマイニング用のフリーソフトKhcoder)もあります.用途に分けて使い分けます.

いったん終わり

あまり長くなるとあれなので,いったんここで切ります
近々更新するのでお待ちください…

電子カルテはデータの宝箱ですが,上記のように分析しづらいデータ構造になっています.
同じ糖尿病でも,DMと書いたり,Ⅰ型・Ⅱ型に分かれますし,電子カルテに書かれている情報はその辺のルールが(全体として)決まっていません.
分析という観点ではあまり手を付けられていないように感じます.
一方医事会計システムやDPCなど,コストに関することは情報のコード化が進み,分析しやすくなってきました.
この辺の話題はまだ別で書きます.

では!