雲雀は高く空を舞い このページをアンテナに追加 RSSフィード

「ひよこは高く空を舞い」について

2009-12-01

[]mecabの解析辞書にUniDicを使い始めた mecabの解析辞書にUniDicを使い始めた - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - mecabの解析辞書にUniDicを使い始めた - 雲雀は高く空を舞い mecabの解析辞書にUniDicを使い始めた - 雲雀は高く空を舞い のブックマークコメント

1) Uni-dicについて

あとで。

インストール方法

UniDicのページからバイナリがダウンロードできるのでそれを適当なディレクトリに置いて、mecabrcから指定するだけ。

mecabrcのディレクトリは僕の場合は /user/local/etc/mecabrc,UniDicは/usr/local/lib/mecab/dic/unidicにおいた.

mecabrcはにはdicdir=/usr/local/lib/mecab/dic/unidicを記述。 (複数辞書同時に使う場合はどうするんだろう…?)

ユーザ辞書への語句の追加

追加語句リストをcsvファイルで作成して登録する方法自体は,辞書によらずmecab-dict-indexを使うで共通.

例。

csvファイル

あちょっ,-1,-1,-3200,感動詞,めりも言葉,*,*,*,*,アチョッ,あちょっ,あちょっ,*,*,め,あちょっ,アチョッ
めりも,-1,-1,-3200,名詞,固有名詞,人名,*,*,*,メリモ,メリモ,めりも,メリモ,メリモ,固,めりも,メリモ
おはよっ,-1,-1,-3200,感動詞,一般,*,*,*,*,オハヨウ,御早う,おはよう,オハヨー,オハヨウ,和,おはよう,オハヨー
; 表層, 左側index, 右側index, コスト, 品詞, 小品詞1, 小品詞2, 小品詞3,*,*,*,*,*,.. 

sudo /usr/local/libexec/mecab/mecab-dict-index -d ./ -u merymo2.dic -f utf8 -t utf8 merymo2.csv

csvファイルで指定できる品詞はまだよく分かってない…。のであとで。

作成した辞書ファイルを使用するにはmecabrcdic/unidic/dicrc userdic = /usr/local/lib/mecab/dic/unidic/merymo2.dicを追加。

あと、pos-id.defを編集してsudo /usr/local/libexec/mecab/mecab-dict-indexをするとmatrix.binが上書きされちゃうんだけど、これはどうしたものなのかなぁ…。これもあとで。

トラックバック - http://chick.g.hatena.ne.jp/allegro/20091201

2006-05-30

[][]言語相対仮説について 言語相対仮説について - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - 言語相対仮説について - 雲雀は高く空を舞い 言語相対仮説について - 雲雀は高く空を舞い のブックマークコメント

自然言語処理論・第1回 自然言語処理への誘い - 雲雀は高く空を舞い - ひよこの会のほーむわーく。


言語相対仮説」は「言語相対論」「言語相対説」「言語相対性仮説」また、提唱者エドワード・サピアおよびベンジャミン・リー・ウォーフの名を取って「サピア・ウォーフの仮説」とも称される。これはドイツ言語哲学者ウィルヘルム・フォン・フンボルトにまでさかのぼる仮説であり、以下のように表される。

現実世界はかなりの程度,社会の言語習慣の上に無意識に作り上げられるのであり、それぞれの社会は独自の言語を持つから、社会が異なれば世界も異なる。ある言語にあるものをさす言葉が無ければ、それはその言語の話し手の思考野世界観の一部とならず、ある意味で近くされない

( サピア=ウォーフの仮説 - Wikipediaより)

Language shapes the way we think, and determines what we can think it.

(Matzにっき(2003-07-13)より)

また、言語相対仮説は「弱い仮説」と「強い仮説」とからなり、「弱い仮説」は

概念の範疇化は言語・文化によって異なる

「強い仮説」は言語決定論(linguistic determinism)とも称され、

人間の思考は言語に決定される

とされる。

もっとも、今日では

言語学にも研究史上、「言語と、その話者の文化背景や思考には、相関関係がある」とした立場があった。「サピア・ウォーフの仮説」という。現在ではこの考え方は否定されている。現在の理論言語学は「言語人間の脳で独自のモジュールを形成しており、思考、記憶、価値観などを司る位置とは無関係」と仮定するのが一般的だ。その言語独自のモジュールが破損した症状が失語症で、記憶のモジュールが破損したのが記憶喪失だ。

「サピア・ウォーフの仮説」は、人間言語という生得的な能力を文化に関連づけようとした。この姿勢は、第二次世界大戦中に趨勢を占めた「民族は遺伝的に優劣が決定される」という優生学と同じ発想だ。「サピア・ウォーフの仮説」には言語によって民族差別する政治イデオロギーは働いていなかったが、そう悪用される危険性はあった。現在では優生学もサピア・ウォーフの仮説も、事実としては認知されていない。

( no titleより)

との事である。

現在でも検証は多くなされているようである.

塚崎 崇史,石井 敬子.認知における言語・文化相対性:Sapir-Whorf仮説再考.2004など。(未読)


以下にwikipediaより関連項目のリンクを挙げておく。


また、 インターネット言語学情報:言語相対論より、

ウォーフの言語観は、彼のホームページ(http://www.mtsu.edu/~dlavery/Whorf/)に、主著 Language, Thought and Realityからの引用があり、手軽に知ることができる。

 サイバー・スペースでも、言語相対論についてのサイトは数多い。最初にLinguistic Relativity Resouce Center (http://www.baylor.edu/~Erin_Greenawalt/relativity.html) を見てみよう。言語相対論の問題点の詳しい紹介とともに、著名な言語学者の賛成・反対意見が要約掲載されている。『言語を生み出す本能』(NHKブックス)の著者スティーヴン・ピンカーのように生得説に立つ研究者は、普遍主義に立脚している以上、サピア=ウォーフの仮説を頭から否定しているのは当然であろう。しかし心理言語学の分野でのカテゴリー化研究の第一人者エレノア・ロッシュのような研究者も、サピア=ウォーフの仮説には否定的であることがわかる。一方、レイコフのような認知言語学者は、この仮説に好意的であり、いみじくもそれぞれの言語観が言語相対論に対する態度に反映されていると言えよう。

と、様々なリンクが紹介されているが、惜しむべき事にリンク先のほとんどは消失している。

-----

関連項目と私的になった項目をメモ。レヴィストロークとか、ソシュールチョムスキーと言った割とメジャーっぽいヒトたちに付いては1通り読みたい所。

あとで読む


キーワード

, , cat::自然言語処理, あとで読む

cat::ruby

2006-05-26

allegro20060526

[][]自然言語処理論・第1回 自然言語処理への誘い 自然言語処理論・第1回 自然言語処理への誘い - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - 自然言語処理論・第1回 自然言語処理への誘い - 雲雀は高く空を舞い 自然言語処理論・第1回 自然言語処理への誘い - 雲雀は高く空を舞い のブックマークコメント

目次

自然言語処理 / Natural Language Processing, Computational Linguistics

計算機科学人工知能言語学コミュニケーション理論,また,心理学哲学といった分野にまたがる.

自然言語について


自然言語「処理」について

  • 理想としては
    • 自然言語で表現された意味(世界)を理解すること,および,意味(世界)を自然言語で表現すること
  • 現実としては
    • キーワードの抽出,単文の理解(構文解析・意味解析),文脈の理解(文脈解析)など

自然言語処理

応用分野に,翻訳,要約,情報検索,データマイニングなどがあげられる

形態素解析

Morphological analysis

単語に区切り,品詞を決める

構文解析 (文法解析)

Syntactic analysis

単語間の関係を捉え,文法的な構造を決める

意味解析

Semantic analysis

単語の意味,文の意味をとらえる

文脈解析

Contextual analysis / Discourse analysis

文と文のつながり,文を越えた単語間のつながりをとらえる

ほーむわーく。

言語相対説 (Sapir-Whorfの仮説)について調べる.

2006-05-25

[]はじめに。 はじめに。 - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - はじめに。 - 雲雀は高く空を舞い はじめに。 - 雲雀は高く空を舞い のブックマークコメント

以下,カテゴリ[自然言語処理]にて,自然言語処理論に関するメモを記録する.

当面は現在手元にある唯一の資料として,独立行政法人 情報通信研究機構けいはんな情報通信融合研究センター 主任研究員 小島秀樹氏による「自然言語処理論」講義資料を用いた自然言語処理に関するメモを記録する.

以下に参考となるリンクを示す.

また,この講義では参考書として,以下の書籍が示されている.

テクノラティプロフィール