情報システムに関するメモ1

<a href="http://e-words.jp/w/E382BBE38383E382B7E383A7E383B3.html">セッションとは【 session 】 - 意味/解説/説明/定義： IT用語辞典</a>
セッションとは【 session 】 - 意味/解説/説明/定義： IT用語辞典

Ajax

Ajax - Wikipedia

ウェブブラウザ内で非同期通信とインターフェイスの構築などを行う技術の総称。XMLHttpRequest（HTTP通信を行うためのJavaScript組み込みクラス）による非同期通信を利用し、通信結果に応じてダイナミックHTMLで動的にページの一部を書き換えるというアプローチを取る。

現在のWebサイトの仕組み
- バックグラウンドにあるデータベース
- サーバーサイドのプログラム：クライアントからのアクセスに基づいて動作、必要におうじてタイムアウト（初期化）
- クライアント側のプログラム：javascriptによるインタラクションやレンダリングなど

XLink

XLink - Wikipedia

XLinkは、XMLドキュメント同士のリンクを記述するものだが、HTMLのハイパーリンクに加えて、双方向のリンクが可能、ドキュメントと独立してリンクの記述が可能などの特徴を持つ。

B

Pagerank

ページランク - Wikipedia

ページランク (PageRank) は、ウェブページの重要度を決定するためのアルゴリズムであり、検索エンジンのGoogleにおいて、検索語に対する適切な結果を得るために用いられている中心的な技術。

計算方法は略、だけどこっちの方が重要。フロー問題の一種でいくつかの方法が考えられている。

ハブ・オーソリティ解析
- ハブ：重要なリンクを持つページ
- オーソリティ：重要な情報源

与えられたキーワードを含むページの集合を求める
この集合の中のハブとオーソリティを求める
多くのハブからリンクされたページは良いオーソリティ、多くのオーソリティにリンクしているページを良いハブとする

<a href="http://www.searchengineoptimization.jp/hits-algorithm">HITSアルゴリズムとは</a>
HITSアルゴリズムとは | SEO 検索エンジン最適化
計算方法は略。

C

Extensible Markup Language - Wikipedia

Extensible Markup Language（エクステンシブルマークアップランゲージ）は、個別の目的に応じたマークアップ言語作成のため、汎用的に使うことができる仕様、および仕様により策定される言語の名称

SGML(既出)

XMLの基本構造
- XML宣言
  - XML 文書の先頭に付き、その文書が XML 文書であることを明確に示すための記述
- 名前空間
  - 以下のサイト参照。XML名前空間の簡単な説明
- XMLデータ処理≒大規模木構造データ処理

XMLのための検索および操作用言語
- XPath:検索
- XQuery:操作
- XSLT:変換

XPath

XML Path Language - Wikipedia

XML Path Language （XPath; XMLパス言語）は、マークアップ言語 XML に準拠した文書の特定の部分を指定する言語構文である。

XQuery
- FLWOR構文
- データモデルはXPathと同じ

XQuery - Wikipedia

XQueryは、静的型付け機能を（実装依存の機能として）持つXMLデータ問合せの為の問い合わせ言語であり、チューリング完全な関数型言語でもある。 XPathの目的が木の節点を指し示す（アドレッシング）ことであるのに対して、XQueryの目的はXMLデータソースのための照会機能を提供すること

FLWOR - Wikipedia, the free encyclopedia

for creates a sequence of nodes
let binds a sequence to a variable
where filters the nodes on a boolean expression
order by sorts the nodes
return gets evaluated once for every nod

XSLT

XSL Transformations - Wikipedia

XSL Transformations（XSLT、XSL変換）は、W3Cにより標準化されたXML文書の変換用言語

D

画像検索について
- 再現率　 ${ \frac{見つけた正解の数}{すべての正解の数} }$
- 適合率　 ${ \frac{見つけてくれた正解の数}{正解だと思って見つけた数}}$
- お互いにトレードオフの関係

<a href="http://d.hatena.ne.jp/Zellij/20120214/p1">検索結果の「再現率」と「適合率」 - 大人になってからの再学習</a>
検索結果の「再現率」と「適合率」 - 大人になってからの再学習

質問緩和法による再現率向上（検索で出てくる論文など参照）
テストコレクション

NTCIR Project テストコレクションって何？

情報検索用のテストコレクションは、情報検索システムの検索性能（質）を評価するために用いる、(1)文書集合、(2)検索要求、(3)各検索要求に適合する正解文書の網羅的リスト、という３つのものからなる実験用データセットです。

ベクトル空間モデル
- 各文書をn次元ベクトルで表現
- 類似ベクトルをひとまとめに（クラスタリング）
- 各文書の特徴ベクトルは文書内のワードx(i)の有無、など

ベクトル空間モデル - Wikipedia

ベクトル空間モデルによる検索は高次元のベクトル空間上に配置した検索対象のベクトル表現と検索語のベクトル表現の相関量をコサイン、内積、距離等によって計算して関連度を求める。

E

tf/idf法

tf 語出現頻度についての定義方法の例

${ tf_{ij} := 文書 d_i 内に出現する語(term) t_j の出現回数　\\ \\ tf_{ij} = \frac{\log (文書 d_i 内に出現する語(term) t_j の出現回数+1)}{\log (termの種類数)} }$
※定義方法はこれ以外にもいくつかある。上の定義ではlog (termの種類数)が小さい、つまり長い文書で一回でるよりも短い文書で一回出た方がtf値は大きくなるようにしている。

idf 逆文書頻度の定義例

${ idf_j = \log \frac{全体の文書数}{df_j}\\ df_j = term_jの出現する文書の数 }$

以上を用いて各文書に対する各語(term)を重み付け

${ w_{ij} = 文書D_iのterm_jに対する重み = tf_ij * idf_j}$

- tf idf法についての概略は以下参照。

tf-idf - Wikipedia

tf-idfは、tf（英: Term Frequency、単語の出現頻度）とidf（英: Inverse Document Frequency、逆文書頻度）の二つの指標にもとづいて計算される。

以上の定義から、各文書はterm数がnならばそれぞれのtermに対応するnこの重みを持っているからこれをn次元ベクトルで表現。つまり ${D_i}$ 文書は ${(w_{i1},\dots,w_{in})}$ ベクトルを特徴ベクトルとして持っている。これらの文書を検索する為にはこのベクトルに対応したn次元のベクトルを用いて質問する。質問のためのベクトルは「 ${term_i}$ を含むならば質問ベクトル ${\vec{q}}$ のi番目の要素 ${q_i = 1}$ 、含まないなら0」といったもの。そして、そのような質問に含まれるtermを含む文書の内で、よりたくさんそのtermが出現するのを調べるためにコサイン相関値を求める。
${ 文書D_iと質問の間のコサイン相関値 \\ = \frac{ \sum_k^n { q_k w_{ik} } }{\sqrt{\sum_k^n q_k^2 } \sqrt{ \sum_k^n w_{ik}^2 } } }$

適合フィードバック

Relevance feedback - Wikipedia, the free encyclopedia

The idea behind relevance feedback is to take the results that are initially returned from a given query and to use information about whether or not those results are relevant to perform a new query.

クラスタリング

なにか文書間の類似度をはかる尺度をきめてそれをもとにクラスタリングする。
クラスタリング - Wikipedia

F

F値

以下の「検索性能の評価」の項参照、リンクから自動でその項目へ飛びます。要は適合率と再現率を重み付けして調和平均をとったもの。F値が大きいほど性能がいい。
情報検索 - Wikipedia

平均適合率( average precision )と MAP( mean average precision )
- MAPは各質問に対する平均適合率の平均値
- i個めの正解文書がでてくるまでに「正解とおもって選んだ」文書の総数の平均値

nDCG

説明しにくいので以下のサイト参照、とくにwikiが詳しいです。
<a href="https://crowdsolving.jp/node/1435">nDCG (normalized Discounted Cumulated Gain)</a>
nDCG (normalized Discounted Cumulated Gain) | クラソル | CrowdSolving

Discounted cumulative gain - Wikipedia, the free encyclopedia

Discounted cumulative gain (DCG) is a measure of ranking quality. In information retrieval, it is often used to measure effectiveness of web search engine algorithms or related applications.

ランキング表示の問題点
- ランキングのはじめ以外はほとんどみられることはない
- 同じ単語で複数の意味や、ひとつのものが多方面の話題を持つときにすべてを表示仕切れない
- はじめのページには多様な内容の表示が必要となる

G

情報フィルタリングについて

そのままの意味、検索結果などの情報から定められた基準に基づいてふるいわけする。おおまかに内容に基づくフィルタと強調フィルタリングがメイン。
<a href="http://www.itmedia.co.jp/im/articles/0612/22/news138.html">情報フィルタリング（じょうほうふぃるたりんぐ）</a>
情報マネジメント用語辞典：情報フィルタリング（じょうほうふぃるたりんぐ） - ITmedia エンタープライズ

　大量の情報の中から、ユーザーにとって必要な情報を取り出し、不要な情報を除外する処理を自動的に行う技術のこと。要・不要の2つに分けるほかに、情報に重要度や類似度などのメタ情報を加えて重み付けを行うものも含まれる。

<a href="http://gihyo.jp/dev/serial/01/information-recommendation-system/0004">第4回　内容ベースフィルタリング</a>
第4回内容ベースフィルタリング：情報推薦システムの基本｜gihyo.jp … 技術評論社

協調フィルタリング - Wikipedia

協調フィルタリング（きょうちょうフィルタリング、Collaborative Filtering、CF）は、多くのユーザの嗜好情報を蓄積し、あるユーザと嗜好の類似した他のユーザの情報を用いて自動的に推論を行う方法論である。

このほかのメモ

<a href="http://misos.hatenablog.com/entry/2015/01/28/114943">情報システムに関するメモ4（最後） - 雑なメモ</a>
情報システムに関するメモ4（最後） - 雑なメモ
<a href="http://misos.hatenablog.com/entry/2015/01/28/115018">情報システムに関するメモ3 - 雑なメモ</a>
情報システムに関するメモ3 - 雑なメモ
<a href="http://misos.hatenablog.com/entry/2015/01/28/115049">情報システムに関するメモ2 - 雑なメモ</a>
情報システムに関するメモ2 - 雑なメモ
<a href="http://misos.hatenablog.com/entry/2015/01/06/193508">情報システムに関するメモ1 - 雑なメモ</a>
情報システムに関するメモ1 - 雑なメモ