【目的】”Case records of the Massachusetts General Hospital”で使用される単語のうち記憶があやふやな単語の頻度上位50単語の単語帳を試作する。
【対象】”Case records of the Massachusetts General Hospital”を1990年1月4日号から2010年12月23日号までの894回分を対象とした。
【方法】
ステップ1:オリジナル記事の検索
NEJMホームページからARTICLES→Browse all articles→Case records of the Massachusetts General Hospital→Specific date rangeで”From: Jan 1990 To: Dec 2010”と設定して、Searchボタンをクリック。
ステップ2:テキスト化する。
テキスト・エディタ(Windowsではメモ帳)を起動して、上記オリジナル記事1回分を1テキストファイルにひたすらコピー&ペーストする。その際、ファイル名はcase+西暦+年間通し症例番号.txtとして適当なディレクトリに保存する。
ステップ3:コンコンダンサーソフトAntConcでWord Listを作成する。
a) 早稲田大学Laurence Anthony先生のホームページから”AntConc”をダウンロードする。(Windows、MacOS、Linux、それぞれのバージョンがある。)同時に、同ページのOther resourcesから後の設定で使う”Someya Lemma List (with no hyphenated words)”もダウンロードし、zipファイルを解凍しておく。
b) AntConcの設定する。素のままでは、例えば、be動詞のam、are、is、was、were、been、beingは全部別単語となってしまうので"lemmatisation"の設定が必要になります。Tool PreferencesのWord ListでLemma List OptionsのUse lemma list fileをチェックし、Openボタンを押して、先に解凍した”e_lemma_no_hypen.txt”を選択、Loadボタンを押す。表示されたら、OKボタンを押し、下のApplyボタンを押す。
c) Word Listを作成する。File→Open Dir...でテキストを保存したディレクトリを開くと、中のテキストファイルが読み込まれる。それから、Word Listタグをクリックし、Startボタンを押す。暫く待つと、下図のように単語の頻度が得られる。
d)結果を出力する。File→Save Output to Text File... で結果を適当な場所に保存する。デフォルトでは、ファイル名はantconc_results.txtとなる。
4.表計算ソフトで読み込み、整理、出力
先に出力したantconc_results.txtをタブ区切りの表として表計算ソフトに読み込む。順位や頻度、変化形の列を削除し、分かる単語の行を削除していく。分からない単語が50になったところでその範囲をコピーする。
5.単語帳を作る。
ブラウザでライフサイエンス辞書オンラインサービスEtoJ Vocabを開き、「英文テキストを入力」の欄に表計算ソフトでコピーした内容をペーストする。オプション設定は、「▼結果を単語帳形式▼で出力する」にして送信ボタンを押す。
【結果】上記の作業で得られた結果を示す。(アルファベット順になっていることに注目)
- abrasion □ 摩耗, 擦過, 剥離, 侵食, (病名) 表皮剥脱, 擦過傷, 擦過創
- advent □ 出現, 到来
- anovulation □ 無排卵, 無排卵症, 排卵障害
- apply □ 適用する, 応用する, 申請する, あてはまる, 充てる, アプライする
- attach □ 付着する, 添付する, 関連する
- bout □ 発作
- bruise □ 挫傷, 打撲, 打撲傷, 打身, ((動詞)) 傷つける
- concatenate □ 連鎖状の
- concomitant □ 随伴性の, 同時の, 併用の, 付随物
- confine □ 限局する, 制限する, 限定する, 拘束する
- confluence □ (培養細胞が接着面いっぱいに広がった状態) コンフルエンス, 集密
- contiguous □ 近接する
- corroborate □ 実証する, 確証する
- corrugated □ しわが寄った, ひだ状の
- debilitate □ 衰弱させる
- dehiscence □ (病名) 離開, 披裂, 裂開
- depict □ 描写する, 示す, 表す
- detach □ 脱離する, 剥離する, 離れる, 引き離す
- distinctive □ 特有の, 特徴的な, 弁別的な
- ensue □ 後に続く, 結果として起こる
- entail □ 必要とする, (必然的に) 伴う
- equivocal □ 多義的な, 疑わしい, 不確かな
- exclusively □ もっぱら, 独占的に, 排他的に
- hallmark □ (顕著な) 特徴, (品質などの) 証明
- illicit □ 違法な
- impinge □ 衝突する, 侵害する, 影響する
- inconclusive □ 決定的でない, 不確定の
- inconspicuous □ 目立たない
- indolent □ 無痛性の, 緩徐進行型の
- nonetheless □ ((文頭で用いて)) にもかかわらず
- obviate □ 除去する, 取り除く, 不必要にする
- poultry □ (食用の飼い鳥) 家禽, 家禽類
- predilection □ 偏向, 偏好
- presumably □ おそらく, 多分
- profuse □ 大量の
- putative □ 推定上の, 仮想の
- pyknotic □ 核濃縮の
- recrudescence □ 再発
- sequester □ 隔離する, 隔絶する, 捕捉する
- sessile □ 固着の, ((植物)) 無柄の
- spillage □ 溢流
- tangle □ もつれ, 濃縮体, ((動詞)) もつれる
- tentative □ 仮の, 試みの
- tether □ 繋ぎ止める, 繋留する, 係留する
- tortuous □ 蛇行状の
- tuft □ 房
- vault □ (かまぼこ様の形状) 円蓋, ((動詞)) 跳躍する
- vicinity □ 近傍, 近く
- violaceous □ (皮膚の紫色への変色を指す) 紫色の
- whereas □ 他方では, 一方では, ところが, しかるに
コーパス言語学とは、Wikipediaの記載によると、「実際に使用された言語資料の集成をコーパスと呼ぶが、最近では特に電子化された言語資料のことを指す。そのコーパスを利用して、より実際的な言語の仕組みを探る学問がコーパス言語学である。」と説明されている。つまり、従来の規範文法に従った言語学ではなく、実際に書かれたり話されたりする言葉を基にした言語学をいう。医学分野でいうEBM同様、演繹思考から帰納思考へ転換した概念である。コーパス言語学やEBMが言語学や医学の世界にデビューしたのは同時期であるが、これは偶然ではなく、コンピュータにより大量のデータの蓄積・解析が可能になったことが関係していると考えられる。
コーパス言語学は、文学作品の作者の判定や作品の真贋など文献学に応用されることが多かったが、近年では自然科学の範囲にも応用され始め、科学論文の剽窃判定や精神医学分野では、自殺者の作品や遺書が解析の対象になっている。
近年、コンピュータや記憶媒体、それらの上で走るソフトの高性能化、低価格化により個人レベルでも大量データの処理が可能になってきた。それに伴い、個人が自分の専門分野に必要なコーパスを作り、解析することが容易になってきた。そこで英語教育界に生まれたのがESP(English for Specific Purpose)という概念である。極論すれば、呼吸器学の研究者は、産婦人科学の文献はもちろん内科学一般の文献でさえ読む必要はないのである。自分の関心分野の文献さえ読めればよいと割り切れば、関心分野の論文を集め、コンコーダンサーソフトで解析すれば、読むのに必要な単語が得られるわけである。AntConc日本語チュートリアルを繙けば、論文を書こうと思ったときも、知っているが使い方の分からない単語の例文がたちどころに得られ、その単語が他のどういう単語と組み合わせて使われるか(コロケーション)を把握することが出来る。
【結語】
読んだ文献、読みたい英語文献はテキスト化しておくと、コンコーダンサーソフトで解析することにより、テーラメイドの単語帳や例文集を容易に作成することができる。
近年、コンピュータや記憶媒体、それらの上で走るソフトの高性能化、低価格化により個人レベルでも大量データの処理が可能になってきた。それに伴い、個人が自分の専門分野に必要なコーパスを作り、解析することが容易になってきた。そこで英語教育界に生まれたのがESP(English for Specific Purpose)という概念である。極論すれば、呼吸器学の研究者は、産婦人科学の文献はもちろん内科学一般の文献でさえ読む必要はないのである。自分の関心分野の文献さえ読めればよいと割り切れば、関心分野の論文を集め、コンコーダンサーソフトで解析すれば、読むのに必要な単語が得られるわけである。AntConc日本語チュートリアルを繙けば、論文を書こうと思ったときも、知っているが使い方の分からない単語の例文がたちどころに得られ、その単語が他のどういう単語と組み合わせて使われるか(コロケーション)を把握することが出来る。
【結語】
読んだ文献、読みたい英語文献はテキスト化しておくと、コンコーダンサーソフトで解析することにより、テーラメイドの単語帳や例文集を容易に作成することができる。
0 件のコメント:
コメントを投稿