ほんとにメモでしかない。資料ごとに分けて記述。大切じゃなさそうなものは省く。
A
- 構造化文書
- 含まれる構造
- 論理構造
- レイアウト構造
- SGML
- 含まれる構造
Standard Generalized Markup Language - Wikipedia
文章の構造(段落など)や見栄え(フォントサイズなど)に関する指定を文章とともにテキストファイルに記述するための言語
- レイアウトの生成方法
- 一体:ユーザーが完全に指定
- 分離:ユーザーは論理構造のみを指定して、レイアウトはスタイルファイルが決定
- 半分離:ユーザーがレイアウト規則と論理規則を記述したファイルを別々に記述
Extensible Markup Language - Wikipedia
XSL Transformations - Wikipedia
- セッション
セッションとは 【 session 】 - 意味/解説/説明/定義 : IT用語辞典
ウェブブラウザ内で非同期通信とインターフェイスの構築などを行う技術の総称。XMLHttpRequest(HTTP通信を行うためのJavaScript組み込みクラス)による非同期通信を利用し、通信結果に応じてダイナミックHTMLで動的にページの一部を書き換えるというアプローチを取る。
- 現在のWebサイトの仕組み
- バックグラウンドにあるデータベース
- サーバーサイドのプログラム:クライアントからのアクセスに基づいて動作、必要におうじてタイムアウト(初期化)
- クライアント側のプログラム:javascriptによるインタラクションやレンダリングなど
XLinkは、XMLドキュメント同士のリンクを記述するものだが、HTMLのハイパーリンクに加えて、双方向のリンクが可能、ドキュメントと独立してリンクの記述が可能などの特徴を持つ。
B
ページランク (PageRank) は、ウェブページの重要度を決定するためのアルゴリズムであり、検索エンジンのGoogleにおいて、検索語に対する適切な結果を得るために用いられている中心的な技術。
計算方法は略、だけどこっちの方が重要。フロー問題の一種でいくつかの方法が考えられている。
- ハブ・オーソリティ解析
- ハブ:重要なリンクを持つページ
- オーソリティ:重要な情報源
- 与えられたキーワードを含むページの集合を求める
- この集合の中のハブとオーソリティを求める
- 多くのハブからリンクされたページは良いオーソリティ、多くのオーソリティにリンクしているページを良いハブとする
HITSアルゴリズムとは | SEO 検索エンジン最適化
計算方法は略。
C
Extensible Markup Language - Wikipedia
Extensible Markup Language(エクステンシブル マークアップ ランゲージ)は、個別の目的に応じたマークアップ言語作成のため、汎用的に使うことができる仕様、および仕様により策定される言語の名称
- SGML(既出)
- XMLの基本構造
XML Path Language (XPath; XMLパス言語) は、マークアップ言語 XML に準拠した文書の特定の部分を指定する言語構文である。
XQueryは、静的型付け機能を(実装依存の機能として)持つXMLデータ問合せの為の問い合わせ言語であり、チューリング完全な関数型言語でもある。 XPathの目的が木の節点を指し示す(アドレッシング)ことであるのに対して、XQueryの目的はXMLデータソースのための照会機能を提供すること
FLWOR - Wikipedia, the free encyclopedia
for creates a sequence of nodes
let binds a sequence to a variable
where filters the nodes on a boolean expression
order by sorts the nodes
return gets evaluated once for every nod
XSL Transformations - Wikipedia
D
- 画像検索について
- 再現率
- 適合率
- お互いにトレードオフの関係
検索結果の「再現率」と「適合率」 - 大人になってからの再学習
- 質問緩和法による再現率向上(検索で出てくる論文など参照)
- テストコレクション
情報検索用のテストコレクションは、情報検索システムの検索性能(質)を評価するために用いる、(1)文書集合、(2)検索要求、(3)各検索要求に適合する正解文書の網羅的リスト、という3つのものからなる実験用データセットです。
ベクトル空間モデルによる検索は高次元のベクトル空間上に配置した検索対象のベクトル表現と検索語のベクトル表現の相関量をコサイン、内積、距離等によって計算して関連度を求める。
E
tf/idf法
- tf 語出現頻度 についての定義方法の例
※定義方法はこれ以外にもいくつかある。上の定義ではlog (termの種類数)が小さい、つまり長い文書で一回でるよりも短い文書で一回出た方がtf値は大きくなるようにしている。
- idf 逆文書頻度 の定義例
- 以上を用いて各文書に対する各語(term)を重み付け
-
- tf idf法についての概略は以下参照。
tf-idfは、tf(英: Term Frequency、単語の出現頻度)とidf(英: Inverse Document Frequency、逆文書頻度)の二つの指標にもとづいて計算される。
以上の定義から、各文書はterm数がnならばそれぞれのtermに対応するnこの重みを持っているからこれをn次元ベクトルで表現。つまり文書はベクトルを特徴ベクトルとして持っている。これらの文書を検索する為にはこのベクトルに対応したn次元のベクトルを用いて質問する。質問のためのベクトルは「を含むならば質問ベクトルのi番目の要素、含まないなら0」といったもの。そして、そのような質問に含まれるtermを含む文書の内で、よりたくさんそのtermが出現するのを調べるためにコサイン相関値を求める。
- 適合フィードバック
Relevance feedback - Wikipedia, the free encyclopedia
The idea behind relevance feedback is to take the results that are initially returned from a given query and to use information about whether or not those results are relevant to perform a new query.
なにか文書間の類似度をはかる尺度をきめてそれをもとにクラスタリングする。
クラスタリング - Wikipedia
F
F値
以下の「検索性能の評価」の項参照、リンクから自動でその項目へ飛びます。要は適合率と再現率を重み付けして調和平均をとったもの。F値が大きいほど性能がいい。
情報検索 - Wikipedia
- 平均適合率( average precision )と MAP( mean average precision )
- MAPは各質問に対する平均適合率の平均値
- i個めの正解文書がでてくるまでに「正解とおもって選んだ」文書の総数の平均値
- nDCG
説明しにくいので以下のサイト参照、とくにwikiが詳しいです。
nDCG (normalized Discounted Cumulated Gain) | クラソル | CrowdSolving
Discounted cumulative gain - Wikipedia, the free encyclopedia
Discounted cumulative gain (DCG) is a measure of ranking quality. In information retrieval, it is often used to measure effectiveness of web search engine algorithms or related applications.
- ランキング表示の問題点
- ランキングのはじめ以外はほとんどみられることはない
- 同じ単語で複数の意味や、ひとつのものが多方面の話題を持つときにすべてを表示仕切れない
- はじめのページには多様な内容の表示が必要となる
G
情報フィルタリングについて
そのままの意味、検索結果などの情報から定められた基準に基づいてふるいわけする。おおまかに内容に基づくフィルタと強調フィルタリングがメイン。
情報マネジメント用語辞典:情報フィルタリング(じょうほうふぃるたりんぐ) - ITmedia エンタープライズ
大量の情報の中から、ユーザーにとって必要な情報を取り出し、不要な情報を除外する処理を自動的に行う技術のこと。要・不要の2つに分けるほかに、情報に重要度や類似度などのメタ情報を加えて重み付けを行うものも含まれる。
第4回 内容ベースフィルタリング:情報推薦システムの基本|gihyo.jp … 技術評論社
協調フィルタリング(きょうちょうフィルタリング、Collaborative Filtering、CF)は、多くのユーザの嗜好情報を蓄積し、あるユーザと嗜好の類似した他のユーザの情報を用いて自動的に推論を行う方法論である。