ラベル IT の投稿を表示しています。 すべての投稿を表示
ラベル IT の投稿を表示しています。 すべての投稿を表示

2012年4月25日水曜日

【番外】 耳学問2.0 - Twitterからノイズを除去する3つの方法

しっかりとした統計は知る由もなく、医師の情報収集のかなりの部分を耳学問(knowledge by hearsay)が占めている。医局での同僚や先輩との会話、MRの情報提供、学会や勉強会での講演などなど。最近は、Twitterなどに参加する医師の増加により、ネット上のつぶやきから学べる機会が増えてきた。正確には、視るので耳学問とは言えないが、つぶやきということで、ご勘弁。Twitterのタイムラインだけではノイズが多いことは、日々ご実感のとおり。そこで、Twitterから如何にノイズ除去をするかということが、今日のテーマだ。要するに、「検索結果をフィード化してRSSリーダでまとめ読みする。」というところが肝になる。

1. Twitterのキーワード検索のRSSを利用する。
意外と、"http://search.twitter.com/search.atom?q=keyword"でRSSフィードが取得できることは、知られていない。
2. Togetterを利用する。
Togetterは、タイムラインでは見通しの悪い議論をまとめることが出来るサービス。自分でまとめなくとも人のまとめを眺めるだけでも参考になる。公式のRSSフィードはないが、DailyFeedを利用した新着情報のRSSフィード "http://dailyfeed.jp/feed/4561.rss" を登録しておくと便利。
3. Crowsnestの利用
Crowsnestは、Twitter をベースとして、公共性や注目度の高いニュ ースをまとめてくれるサービス、RSSフィードも配信してくれていて便利。
以上のフィードをリーダに登録することで、自分にとって重要な情報は繰り返し、リーダに現れることになり、見逃しは少なくなる。しかし、検索をもとにしたフィードは、自分の関心というバイアスがかかっており、世間とのズレを防ぐため、通常のニュースやジャーナルのフィード登録と併せて利用したほうがよいと思う。

2011年11月23日水曜日

実地疫学の味方 - EZR on R Commander

NEJMの2011年11月10日号に「2011年の欧州における腸管出血性大腸菌感染事件」におけるドイツの実地疫学の報告が掲載された。(Robert Koch Institutの最終報告はこちら)その中で原因食材の同定のためマッチドケースコントロール研究が行われ、解析には条件付きロジスティック回帰分析が用いられている。補遺によると、解析にはRが使われたようだ。そこで解析を検証してみようと考えたが、生データが入手出来ない。

そこで、代わりに1996年のデンマーク・フュン県でのネズミチフス菌による食中毒のアウトブレイク1のデータがEpi packageにあるので、それを読み込んで、この解析法を追体験してみることにした。

しかし、あまり多用しない統計解析方法で、リファレンスを参照しつつ、コンソールにコマンドを打ち込むのは、手間隙がかかる。そんなとき役に立つのが、R Commanderをベースに自治医科大学さいたま医療センター血液科が開発した"EZR on R Commander"である。今回はこれを用いることとする。以下に、EZR on R Commanderがインストールしてあることを前提に解析の手順を図示する。

1.準備として、コンソールでEpiパッケージをインストール、ロードして、Rコマンダーを起動する。そして、パッケージに含まれるデータを読み込む。

2.パッケージ名"Epi"とデータセット名"S.typh"を選択

3.統計解析からマッチドペア解析⇒条件付ロジスティック解析を選択

3.目的変数"case"、説明変数"beef, egg, ..."、マッチドペア"set"の選択

4.plant7(7番プラント製造の肉を2週間以内に食べた場合)のオッズ比が有意に高いことが判明する。

蛇足だが、現在公開中の映画「コンテイジョン」では、リアリティを追求し、CDCなどを取材し、実地疫学者の仕事を描いたり、SEIRモデルやBasic reproduction numberの話が出てきたりするらしい。ぜひ、見ておきたい作品。



1) Molbak K and Hald T: Salmonella Typhimurium outbreak in late summer 1996. A Case-control study. (In Danish: Salmonella typhimurium udbrud paa Fyn sensommeren 1996. En case-kontrol undersogelse.) Ugeskrift for Laeger., 159(36):5372-7, 1997.

2011年7月13日水曜日

χより始めよ。


今回は、先日札幌で開かれた日本プライマリ・ケア連合学会で発表したものに教育的な改変を加えたものを披露させて頂いた。基本的な筋は、このブログで以前公開した「MGHの症例検討会キーワード50 ーコーパス言語学で学ぶ医学英語ー」を発展させたもので、1990年から2011年までのCPCコーパスを前半と後半に分け、後半の語彙のkeynessを算出したものだ。意外な結果が出て、嵌ってしまい、発表までの2ヶ月くらい色々文献を渉猟した。確定的な結論には結びつかなかったが、自分にとっては有意義なものとなりました。今回は、それに下記3点を膨らませたものを勉強会で紹介した次第。
  1. χ2検定の方法(SOSの公式):χ2統計量は2×2表(自由度1)に限れば、電卓でも簡単に計算でき、意外と予備研究や日常の業務改善の効果を測定するのに有用だと思っている。そこで、本投稿のタイトルにもした。SOSの公式というのは、たすき掛けの差をSquareし、Overall totalを分子(Overだから上)に、Subtotalsを分母(Subだから下)にして計算する手順をまとめたものです。
  2. English for Specific Purpose(ESP):以前の投稿でも書いたが、個人でも自分の専門分野の論文のコーパスが容易に作れる時代になったので、コンコーダンサーを導入することでテーラーメイドの英語の学習ができることの紹介。コンコーダンサーを利用して、ティアニー先生のClinical Pearlを1つ紹介します。
  3. 「臨床医学の誕生」からHarvard Medical SchoolでのThe New Pathway導入に至る経緯。アメリカ合衆国という国のresponseの速さと継続性、これは我々も素直に見習う必要がある。
スライドは折角Keynoteで作成したので、音声をつけてYouTubeで公開しようと思ったのですが、30分を超えてしまうので断念しました。しかし普段自分の発表を聞くということがなかったので録音を聞いて口演の拙さを認識するいい機会になりました。代わりにPowerpoint形式で出力し、Scribdで公開します。

NEJM@ランチョン

リンク集

2010年12月28日火曜日

MGHの症例検討会キーワード50 ーコーパス言語学で学ぶ医学英語ー

【背景】学生時代に遡る。ある助教授の先生が、名医になる方法として、New England Journal of Medicine(以下NEJMと略す)のシリーズ”Case records of the Massachusetts General Hospital”を10年間続けて読むことを挙げていた。忙しさにかまけ実行せず、すっかりと藪が身についてしまった。最近、”Better late than never.”という諺に希望を見出し、ぼちぼち目を通すが、単語力の不足が堪える。そこで効率よく単語を覚えるために同シリーズで頻回に使用される単語の単語帳を試作した。

【目的】”Case records of the Massachusetts General Hospital”で使用される単語のうち記憶があやふやな単語の頻度上位50単語の単語帳を試作する。

【対象】”Case records of the Massachusetts General Hospital”を1990年1月4日号から2010年12月23日号までの894回分を対象とした。

【方法】
ステップ1:オリジナル記事の検索
 NEJMホームページからARTICLES→Browse all articles→Case records of the Massachusetts General Hospital→Specific date rangeで”From: Jan 1990 To: Dec 2010”と設定して、Searchボタンをクリック。

ステップ2:テキスト化する。
 テキスト・エディタ(Windowsではメモ帳)を起動して、上記オリジナル記事1回分を1テキストファイルにひたすらコピー&ペーストする。その際、ファイル名はcase+西暦+年間通し症例番号.txtとして適当なディレクトリに保存する。

ステップ3:コンコンダンサーソフトAntConcでWord Listを作成する。
 a) 早稲田大学Laurence Anthony先生のホームページから”AntConc”をダウンロードする。(Windows、MacOS、Linux、それぞれのバージョンがある。)同時に、同ページのOther resourcesから後の設定で使う”Someya Lemma List (with no hyphenated words)”もダウンロードし、zipファイルを解凍しておく。

 b) AntConcの設定する。素のままでは、例えば、be動詞のam、are、is、was、were、been、beingは全部別単語となってしまうので"lemmatisation"の設定が必要になります。Tool PreferencesのWord ListでLemma List OptionsのUse lemma list fileをチェックし、Openボタンを押して、先に解凍した”e_lemma_no_hypen.txt”を選択、Loadボタンを押す。表示されたら、OKボタンを押し、下のApplyボタンを押す。

 c) Word Listを作成する。File→Open Dir...でテキストを保存したディレクトリを開くと、中のテキストファイルが読み込まれる。それから、Word Listタグをクリックし、Startボタンを押す。暫く待つと、下図のように単語の頻度が得られる。



 d)結果を出力する。File→Save Output to Text File... で結果を適当な場所に保存する。デフォルトでは、ファイル名はantconc_results.txtとなる。

4.表計算ソフトで読み込み、整理、出力
 先に出力したantconc_results.txtをタブ区切りの表として表計算ソフトに読み込む。順位や頻度、変化形の列を削除し、分かる単語の行を削除していく。分からない単語が50になったところでその範囲をコピーする。

5.単語帳を作る。
 ブラウザでライフサイエンス辞書オンラインサービスEtoJ Vocabを開き、「英文テキストを入力」の欄に表計算ソフトでコピーした内容をペーストする。オプション設定は、「▼結果を単語帳形式▼で出力する」にして送信ボタンを押す。

【結果】上記の作業で得られた結果を示す。(アルファベット順になっていることに注目)
  1. abrasion □ 摩耗, 擦過, 剥離, 侵食, (病名) 表皮剥脱, 擦過傷, 擦過創
  2. advent □ 出現, 到来
  3. anovulation □ 無排卵, 無排卵症, 排卵障害
  4. apply □ 適用する, 応用する, 申請する, あてはまる, 充てる, アプライする
  5. attach □ 付着する, 添付する, 関連する
  6. bout □ 発作
  7. bruise □ 挫傷, 打撲, 打撲傷, 打身, ((動詞)) 傷つける
  8. concatenate □ 連鎖状の
  9. concomitant □ 随伴性の, 同時の, 併用の, 付随物
  10. confine □ 限局する, 制限する, 限定する, 拘束する
  11. confluence □ (培養細胞が接着面いっぱいに広がった状態) コンフルエンス, 集密
  12. contiguous □ 近接する
  13. corroborate □ 実証する, 確証する
  14. corrugated □ しわが寄った, ひだ状の
  15. debilitate □ 衰弱させる
  16. dehiscence □ (病名) 離開, 披裂, 裂開
  17. depict □ 描写する, 示す, 表す
  18. detach □ 脱離する, 剥離する, 離れる, 引き離す
  19. distinctive □ 特有の, 特徴的な, 弁別的な
  20. ensue □ 後に続く, 結果として起こる
  21. entail □ 必要とする, (必然的に) 伴う
  22. equivocal □ 多義的な, 疑わしい, 不確かな
  23. exclusively □ もっぱら, 独占的に, 排他的に
  24. hallmark □ (顕著な) 特徴, (品質などの) 証明
  25. illicit □ 違法な
  26. impinge □ 衝突する, 侵害する, 影響する
  27. inconclusive □ 決定的でない, 不確定の
  28. inconspicuous □ 目立たない
  29. indolent □ 無痛性の, 緩徐進行型の
  30. nonetheless □ ((文頭で用いて)) にもかかわらず
  31. obviate □ 除去する, 取り除く, 不必要にする
  32. poultry □ (食用の飼い鳥) 家禽, 家禽類
  33. predilection □ 偏向, 偏好
  34. presumably □ おそらく, 多分
  35. profuse □ 大量の
  36. putative □ 推定上の, 仮想の
  37. pyknotic □ 核濃縮の
  38. recrudescence □ 再発
  39. sequester □ 隔離する, 隔絶する, 捕捉する
  40. sessile □ 固着の, ((植物)) 無柄の
  41. spillage □ 溢流
  42. tangle □ もつれ, 濃縮体, ((動詞)) もつれる
  43. tentative □ 仮の, 試みの
  44. tether □ 繋ぎ止める, 繋留する, 係留する
  45. tortuous □ 蛇行状の
  46. tuft □ 房
  47. vault □ (かまぼこ様の形状) 円蓋, ((動詞)) 跳躍する
  48. vicinity □ 近傍, 近く
  49. violaceous □ (皮膚の紫色への変色を指す) 紫色の
  50. whereas □ 他方では, 一方では, ところが, しかるに
【考察】
 コーパス言語学とは、Wikipediaの記載によると、「実際に使用された言語資料の集成をコーパスと呼ぶが、最近では特に電子化された言語資料のことを指す。そのコーパスを利用して、より実際的な言語の仕組みを探る学問がコーパス言語学である。」と説明されている。つまり、従来の規範文法に従った言語学ではなく、実際に書かれたり話されたりする言葉を基にした言語学をいう。医学分野でいうEBM同様、演繹思考から帰納思考へ転換した概念である。コーパス言語学やEBMが言語学や医学の世界にデビューしたのは同時期であるが、これは偶然ではなく、コンピュータにより大量のデータの蓄積・解析が可能になったことが関係していると考えられる。
 コーパス言語学は、文学作品の作者の判定や作品の真贋など文献学に応用されることが多かったが、近年では自然科学の範囲にも応用され始め、科学論文の剽窃判定や精神医学分野では、自殺者の作品や遺書が解析の対象になっている。
 近年、コンピュータや記憶媒体、それらの上で走るソフトの高性能化、低価格化により個人レベルでも大量データの処理が可能になってきた。それに伴い、個人が自分の専門分野に必要なコーパスを作り、解析することが容易になってきた。そこで英語教育界に生まれたのがESP(English for Specific Purpose)という概念である。極論すれば、呼吸器学の研究者は、産婦人科学の文献はもちろん内科学一般の文献でさえ読む必要はないのである。自分の関心分野の文献さえ読めればよいと割り切れば、関心分野の論文を集め、コンコーダンサーソフトで解析すれば、読むのに必要な単語が得られるわけである。AntConc日本語チュートリアルを繙けば、論文を書こうと思ったときも、知っているが使い方の分からない単語の例文がたちどころに得られ、その単語が他のどういう単語と組み合わせて使われるか(コロケーション)を把握することが出来る。

【結語】
 読んだ文献、読みたい英語文献はテキスト化しておくと、コンコーダンサーソフトで解析することにより、テーラメイドの単語帳や例文集を容易に作成することができる。

2010年10月26日火曜日

家庭医療でマインドマッ プ

 マインドマップとは、表現したい概念の中心となるキーワードやイメージを図の中央に置き、そこから放射状にキーワードやイメージを曲線で繋げていくことで発想を促すアイディア促進技法。Google画像検索で「マインドマップ」を検索すると、実例がたくさん見れる。1977年にイギリスの著述家トニー・ブザンにより提唱され、日本国内では「メモリーツリー」として東大受験漫画「ドラゴン桜」で紹介され有名になった。脳の意味ネットワークによく適合しているので記憶も楽になるらしい。

 マインドマップの提唱者のトニー・ブザンは以下の10項目のガイドラインを定め、それ以外はマインドマップではないとして、商標管理を厳しくしている。 
  1. まず、中央にトピックに関する絵を描く。最低でも三色用いること。
  2. 全体を通じて絵や符号、記号を用いること。
  3. キーワードを選ぶこと。
  4. 文章ではなくキーワードや絵を線の上側に書くこと。
  5. 線は、中心の絵から延ばすこと。曲線で中心近くでは太く、末端へ行くに従い細く描くこと。
  6. 線は、単語や絵と同じ長さで書くこと。
  7. たくさんの色を使うこと。視覚刺激、符号化、グループ化を目的として。
  8. 自己流のやり方を確立すること。
  9. 強調したり関連付けたりすること。
  10. 階層や序列を使ってわかり易さを保つこと。
 こんなことが、「ドラゴン桜」で別名を使わなければならなかった一因かもしれない。しかし、実際にはこのルールを外れた「マインドマップ」が書籍などで紹介されたり、手書きではなくPC上で描くためのソフトウェアやオンラインサービスも存在したりするのが現実である。OS環境を選ばないオンラインサービスを下に挙げておく。
  1. EasyStep: 日本のサービスというところと全て無料というところがウリなのかな。
  2. Attedea: これも日本のサービス。携帯と連携してKJ法+マインドマップという使い方ができるサービス。
  3. Cacoo: これも日本のもの。無料サービスと有料サービスがある。Flashベースのようです。
  4. Mind42.com: 無料で、高機能で、オーソドックス。いち押しのサービスでしょうか。
  5. bubbl.us: ユーザインターフェイスがユニーク。
  6. MindMeister: 無料では3枚までしか作成できない。
  7. Mindomo: タスク管理ができるのがウリ。
  8. Mapul: 無料では2枚までしか作成できない。
  9. Think: シンプルさと異様な外観がウリ。
  10. Text2Mindmap: アウトラインエディタ形式のテキストをマインドマップに変換してくれるサービス。
 百聞は一見に如かず、「家庭医療」をキーワードに上記6番のMindMeisterで作成してみたものを公開します。中途半端なものですが、自由に改変してみてください。


 マインドマップに10年先立ち川喜田二郎氏が唱えたKJ法が小概念から大概念という発想の流れであるのに対し、マインドマップは大概念から小概念という流れであることに注目したい。大局から戦略を組み立てる「鷲の目」のアングロサクソンと末梢瑣末から全体像を描こうとする「虫の目」の日本人の思考法の違いが端的に出ているようで、面白い。どちらが正しいというものでもないので、臨機応変に2つの発想法を使い分けていくのがよいだろう。

最後に、本の紹介をしておく。

2010年8月11日水曜日

オープンソースとオープンアクセス

 オープンソースの文献管理ソフトMendeleyとオープンアクセスの学術文献データベースCiNiiを利用すれば、上記のようなことが10分かそこらで出きるってことを長々と説明してしまいました。
 オープンソースソフトについては、YouTubeで"Revolution OS"というビデオを観て頂ければその経緯が分かるでしょう。
 オープンアクセスとは、ネット上で学術論文を誰でもアクセスできるようにするということです。各研究者が関連分野の雑誌を購読するコストが馬鹿にならないってことやアメリカなどでは税金からの補助を受けてなされた研究成果が納税者に公開されない矛盾から生じた運動。
 方法論には、2つある。「金の道」と呼ばれるオープンアクセスパブリッシングと「緑の道」と呼ばれるオープンアクセスセルフアーカイブという方法である。前者は、オンライン・ジャーナルの形態を残し、アクセスを自由化するという穏健な改革的方法。後者は、極論すれば、ジャーナルを廃し、各施設・各学会・、各人が発表物をネット上にアーカイブするという革命的方法。何故、金と緑の道なのかは、私も正確なところは知らないが、想像するに、ジャーナルという形態をとると、組織運営のため、資金を調達する必要が出てくる一方、セルフアーカイブであれば、各施設や個人が少額を負担するだけで済み、紙も必要がないから、地球環境にも優しいってことなんでしょうか。
 「金の道」の例としては、NEJMなど伝統的ジャーナルが一定期間をおいて論文を無料公開していることやBioMed Centralのような電子ジャーナルが最初から無料公開していることを挙げることができます。「緑の道」には、韓国の家庭医療学会雑誌の例があります。

2010年6月12日土曜日

【補遺】ブックマークレット計算器3つ+α

前回投稿記事の補遺として、3つの自作計算器のブックマークレットを公開します。オンラインストーレジサービスのDropBoxのPublicフォルダにおいたファイルと連携させています。必要な計算器をご使用のブラウザのブックマークバーにDrag&Dropしてお使い下さい。但し、動作の確認は、OSはubuntu 10.4、ブラウザはGoogle Chrome 5.0.375.70 betaの環境でしかしておりません。また、間違いがあっても責任は負いかねます。
  • Bayes:事前確率と検査特性から事後確率を計算します。
  • eGFR:年齢とCre値からeGFRを計算します。
  • BMI:身長と体重からBMIを計算します。
 Google Chromeを使用していると、ブックマークを同期することができるので、職場と自宅で環境を揃えたいとき、OSをクリーンインストールするときなど非常に便利です。同じ働きをするものなら、拡張機能を入れるより、ブックマークレットをブックマークしておく方が良いと思う。個人的に使用しているものを紹介します。
    • Post to CiteULike[LINK]:文献共有サービスCiteULikeに表示されている文献を投稿します。
    • IMPORT TO MENDELEY[LINK]:文献管理ソフトMENDELEYに表示されている文献を読み込みます。
    • 英辞郎のブックマークレット[LINK]:選択した語の英訳・和訳を英辞郎で調べます。
    • Gmailで送信![LINK]:選択したテキストをGmailで送信する。

    2010年1月11日月曜日

    無料統計ソフト「R言語」


    【簡単な紹介】
    R言語とは、1984年、AT&Tベル研究所で開発された統計処理言語であるS言語を参考に、ニュージーランドのAuckland大学のRoss IhakaとRobert Gentlemanにより学生の教育を目的に開発された。オープンソースとして開発が継続されているため、世界中の専門家が磨きをかけ、パッケージを追加し、現在では、FDA内部やGoogleでも使用されるに至っています。 Sの先を行くという願いを込めてRと名付けられたそうです。しかし、その短い名称が徒になり、ネットでの関連情報の検索は困難でした。そんな状況を打開するため、Rjpwiki(後述)のような関連情報の集積場所が出来ることとなりました。

    【R本体のインストール】
    1. The Comprehensive R Archive Network のサイトへ行く。
    2. "Download and Install R"の"Windows"をクリック。
    3. "base"をクリック。
    4. "Download R 2.10.1 for Windows"をクリックすると、ダウンロードが開始。
    5. ダウンロードが終了したら、そのファイルをダブルクリックして指示にしたがってインストール。
    【デモ:起動、t検定、ヘルプ、終了】
    • デスクトップにできたショートカットをダブルクリックして起動。
    • 次のスクリプトを実行
    nations<-read.csv("C:/Documents and Settings/foo/デスクトップ/sample.csv")
    asia<-subset(nations, region=="Asia")
    europe<-subset(nations, region=="Europe")
    t.test(asia$area, europe$area)
    • ヘルプ ?foo、help.search("foo")
    • 終了 q()
    【Rcmdrのインストールと実行】
    • R上で、install.packages("Rcmdr") と入力。
    • ダウンロード元を選択して、しばし待つ。
    • R上で、library(Rcmdr) と入力すると、Rcmdrが起動。
    【間奏曲~Rの利点と欠点】

    利点!
    • 無料。ちなみに、JMP 8.0.1 は、176,400円、Dr.SPSS2は102,900円、エクセル統計2008は、41,580円
    • OSを選ばない。Windows、MacOS X、Linuxなど主要なOS版がある。
    • オープンソースなので、バグの修正や統計学の新しい理論の適用が早い。
    欠点? 見方を変えれば利点。解決策も用意されている。
    • リソースが圧倒的に英語→英語の勉強になる。解決策:Rjpwikiの利用、日本語R関連図書
    • コマンドで操作→慣れると、かえって便利。解決策:Rcmdrパッケージ
    【Rcmdrのデモ】
    • データ→データのインポート→テキストファイルまたはクリップボード、URLから…
    • 統計量→平均→独立サンプルt検定…
    【参考図書】
    【参考サイト】