ゆるふわめも

東京か京都にいます。

情報システムに関するメモ1

ほんとにメモでしかない。資料ごとに分けて記述。大切じゃなさそうなものは省く。

A

ハイパーテキスト - Wikipedia

ハイパーテキスト (hypertext) とは、複数の文書(テキスト)を相互に関連付け、結び付ける仕組みである。

HyperCard - Wikipedia

  • 構造化文書
    • 含まれる構造
      • 論理構造
      • レイアウト構造
    • SGML

Standard Generalized Markup Language - Wikipedia

マークアップ言語を定義するためのメタ言語の一つである。

マークアップ言語 - Wikipedia

文章の構造(段落など)や見栄え(フォントサイズなど)に関する指定を文章とともにテキストファイルに記述するための言語

  • レイアウトの生成方法
    • 一体:ユーザーが完全に指定
    • 分離:ユーザーは論理構造のみを指定して、レイアウトはスタイルファイルが決定
    • 半分離:ユーザーがレイアウト規則と論理規則を記述したファイルを別々に記述
  • HTML
    • htmlファイルに論理、表示構造を記述
    • CSSでレイアウトを細かく記述
    • さらに論理とレイアウトを分離するためにXMLとXSLが生まれる

Extensible Markup Language - Wikipedia
XSL Transformations - Wikipedia

  • セッション
  1. クライアントがアクセスするたびにそれぞれにセッションidを作成
  2. idをcookieとしてhttpヘッダに情報を入れて送信
  3. クライアントは以降のアクセス時にこのcookie情報を利用


セッションとは 【 session 】 - 意味/解説/説明/定義 : IT用語辞典

Ajax - Wikipedia

ウェブブラウザ内で非同期通信とインターフェイスの構築などを行う技術の総称。XMLHttpRequest(HTTP通信を行うためのJavaScript組み込みクラス)による非同期通信を利用し、通信結果に応じてダイナミックHTMLで動的にページの一部を書き換えるというアプローチを取る。

  • 現在のWebサイトの仕組み
    • バックグラウンドにあるデータベース
    • サーバーサイドのプログラム:クライアントからのアクセスに基づいて動作、必要におうじてタイムアウト(初期化)
    • クライアント側のプログラム:javascriptによるインタラクションやレンダリングなど

XLink - Wikipedia

XLinkは、XMLドキュメント同士のリンクを記述するものだが、HTMLのハイパーリンクに加えて、双方向のリンクが可能、ドキュメントと独立してリンクの記述が可能などの特徴を持つ。

B

ページランク - Wikipedia

ページランク (PageRank) は、ウェブページの重要度を決定するためのアルゴリズムであり、検索エンジンGoogleにおいて、検索語に対する適切な結果を得るために用いられている中心的な技術。

計算方法は略、だけどこっちの方が重要。フロー問題の一種でいくつかの方法が考えられている。

  1. 与えられたキーワードを含むページの集合を求める
  2. この集合の中のハブとオーソリティを求める
  3. 多くのハブからリンクされたページは良いオーソリティ、多くのオーソリティにリンクしているページを良いハブとする


HITSアルゴリズムとは | SEO 検索エンジン最適化
計算方法は略。


C

Extensible Markup Language - Wikipedia

Extensible Markup Language(エクステンシブル マークアップ ランゲージ)は、個別の目的に応じたマークアップ言語作成のため、汎用的に使うことができる仕様、および仕様により策定される言語の名称

XML Path Language - Wikipedia

XML Path Language (XPath; XMLパス言語) は、マークアップ言語 XML に準拠した文書の特定の部分を指定する言語構文である。

  • XQuery
    • FLWOR構文
    • データモデルはXPathと同じ

XQuery - Wikipedia

XQueryは、静的型付け機能を(実装依存の機能として)持つXMLデータ問合せの為の問い合わせ言語であり、チューリング完全関数型言語でもある。 XPathの目的が木の節点を指し示す(アドレッシング)ことであるのに対して、XQueryの目的はXMLデータソースのための照会機能を提供すること

FLWOR - Wikipedia, the free encyclopedia

for creates a sequence of nodes
let binds a sequence to a variable
where filters the nodes on a boolean expression
order by sorts the nodes
return gets evaluated once for every nod

XSL Transformations - Wikipedia

XSL Transformations(XSLT、XSL変換)は、W3Cにより標準化されたXML文書の変換用言語

D

  • 画像検索について


検索結果の「再現率」と「適合率」 - 大人になってからの再学習

  • 質問緩和法による再現率向上(検索で出てくる論文など参照)
  • テストコレクション

NTCIR Project テストコレクションって何?

情報検索用のテストコレクションは、情報検索システムの検索性能(質)を評価するために用いる、(1)文書集合、(2)検索要求、(3)各検索要求に適合する正解文書の網羅的リスト、という3つのものからなる実験用データセットです。

ベクトル空間モデル - Wikipedia

ベクトル空間モデルによる検索は高次元のベクトル空間上に配置した検索対象のベクトル表現と検索語のベクトル表現の相関量をコサイン、内積、距離等によって計算して関連度を求める。

E

tf/idf法
  • tf 語出現頻度 についての定義方法の例

{
tf_{ij} := 文書 d_i 内に出現する語(term) t_j の出現回数 \\
\\
tf_{ij} = \frac{\log (文書 d_i 内に出現する語(term) t_j の出現回数+1)}{\log (termの種類数)}
}
※定義方法はこれ以外にもいくつかある。上の定義ではlog (termの種類数)が小さい、つまり長い文書で一回でるよりも短い文書で一回出た方がtf値は大きくなるようにしている。

  • idf 逆文書頻度 の定義例

{
  idf_j = \log \frac{全体の文書数}{df_j}\\
  df_j  = term_jの出現する文書の数
}

  • 以上を用いて各文書に対する各語(term)を重み付け

{ w_{ij} = 文書D_iのterm_jに対する重み = tf_ij * idf_j}

    • tf idf法についての概略は以下参照。

tf-idf - Wikipedia

tf-idfは、tf(英: Term Frequency、単語の出現頻度)とidf(英: Inverse Document Frequency、逆文書頻度)の二つの指標にもとづいて計算される。

以上の定義から、各文書はterm数がnならばそれぞれのtermに対応するnこの重みを持っているからこれをn次元ベクトルで表現。つまり{D_i}文書は{(w_{i1},\dots,w_{in})}ベクトルを特徴ベクトルとして持っている。これらの文書を検索する為にはこのベクトルに対応したn次元のベクトルを用いて質問する。質問のためのベクトルは「{term_i}を含むならば質問ベクトル{\vec{q}}のi番目の要素{q_i = 1}、含まないなら0」といったもの。そして、そのような質問に含まれるtermを含む文書の内で、よりたくさんそのtermが出現するのを調べるためにコサイン相関値を求める。
{
 文書D_iと質問の間のコサイン相関値 \\
= \frac{ \sum_k^n { q_k w_{ik} } }{\sqrt{\sum_k^n q_k^2 } \sqrt{ \sum_k^n w_{ik}^2 } }
}

  • 適合フィードバック

Relevance feedback - Wikipedia, the free encyclopedia

The idea behind relevance feedback is to take the results that are initially returned from a given query and to use information about whether or not those results are relevant to perform a new query.

なにか文書間の類似度をはかる尺度をきめてそれをもとにクラスタリングする。
クラスタリング - Wikipedia


F

F値

以下の「検索性能の評価」の項参照、リンクから自動でその項目へ飛びます。要は適合率と再現率を重み付けして調和平均をとったもの。F値が大きいほど性能がいい。
情報検索 - Wikipedia

  • 平均適合率( average precision )と MAP( mean average precision )
    • MAPは各質問に対する平均適合率の平均値
    • i個めの正解文書がでてくるまでに「正解とおもって選んだ」文書の総数の平均値
  • nDCG

説明しにくいので以下のサイト参照、とくにwikiが詳しいです。

nDCG (normalized Discounted Cumulated Gain) | クラソル | CrowdSolving

Discounted cumulative gain - Wikipedia, the free encyclopedia

Discounted cumulative gain (DCG) is a measure of ranking quality. In information retrieval, it is often used to measure effectiveness of web search engine algorithms or related applications.

  • ランキング表示の問題点
    • ランキングのはじめ以外はほとんどみられることはない
    • 同じ単語で複数の意味や、ひとつのものが多方面の話題を持つときにすべてを表示仕切れない
    • はじめのページには多様な内容の表示が必要となる

G

情報フィルタリングについて

そのままの意味、検索結果などの情報から定められた基準に基づいてふるいわけする。おおまかに内容に基づくフィルタと強調フィルタリングがメイン。

情報マネジメント用語辞典:情報フィルタリング(じょうほうふぃるたりんぐ) - ITmedia エンタープライズ

 大量の情報の中から、ユーザーにとって必要な情報を取り出し、不要な情報を除外する処理を自動的に行う技術のこと。要・不要の2つに分けるほかに、情報に重要度や類似度などのメタ情報を加えて重み付けを行うものも含まれる。


第4回 内容ベースフィルタリング:情報推薦システムの基本|gihyo.jp … 技術評論社

協調フィルタリング - Wikipedia

協調フィルタリング(きょうちょうフィルタリング、Collaborative Filtering、CF)は、多くのユーザの嗜好情報を蓄積し、あるユーザと嗜好の類似した他のユーザの情報を用いて自動的に推論を行う方法論である。

このほかのメモ


情報システムに関するメモ4(最後) - 雑なメモ

情報システムに関するメモ3 - 雑なメモ

情報システムに関するメモ2 - 雑なメモ

情報システムに関するメモ1 - 雑なメモ