October 7, 2007

コンピュータチェス元世界チャンピオンが書いたマッチング技術はグーグルキラーになれるのか?:Trying out Proximic, Google's Potential Rival



Yesterday, I read Merc's article about German startup called Proximic, and I found its 'pattern proximity' technology quite intriguing, especially because I write in Japanese.
While Google looks at the words on a Web page, Proximic looks for patterns of characters. That means Proximic's approach is completely language-independent, so it works as well with German and Chinese as it does with English. - "Tiny start-up rival to Google?" -SJ Mercury News

So, after viewing Robert Scoble's recent interview of CEO Phillipp Pieper, 33, and CTO Thomas Nitsche, 54 (the world computer chess champion in 1984. -1984!), I embedded the widget code to see what it can bring up.

The first blog it matched was B3 Annex. I never came across it, but the blog covers all the topics I wanted to cover but couldn't. Wow... I added the blog to my link, thanks Proximic!

This is the first time the content matching widget really worked for me. I once tried "Sphere It" to find my blog instantly turned into an unvoluntary ad tool for major news outlets.  I also tried Japanese widget, awasete.com, that in contrast pulled up banal blog entries that were not related to my contents by any measure (I insist...).

In the widget, you can ignore the top part which is my entry (seems like the most read entries on my blog. If you're interested, click on 'find similar'). The News section will bring up three sections; News, Wikipedia, Web. Keep clicking on the 'find similar' to grab the latest status of the news you wrote about (it's fun!). The infotizement section will soon be filled with ads whose partnership announcement is coming soon.

昨日マーキュリーが「グーグルにライバル出現か?」という見出しでドイツの小さな新会社「Proximic」のことを紹介してた。目を引いたのが以下のライン。
グーグルがウェブページのワード(word)を見るのに対し、Proximicは字(character)のパターンを見る。つまりProximicのアプローチは言葉の壁が100%ない。ドイツ語でも中国語でも英語と全く同じに動く。 - "Tiny start-up rival to Google?" -SJ Mercury News

へ~。補足すると英語でwordはアルファベットの行列、characterは文字一塊のこと。英語はワード数だけど日本語はcharacterなんで文字数、という違いがある。

同社ではこの文字パターン認識で広告、記事、Wikiをマッチングする。バレーの大手ネット関連のコンピュータ科学者たちも驚きの精度らしく、ブログやSNSに広まったらブレークスルーになるんでは? と密かに騒がれてるわけ。

Proximicは、なんと1984年(!)のコンピュータチェス元世界チャンピオンのトーマス・ニーチェ(Thomas Nitsche)さんという54歳の数学者が開発した。「Web2.0の若造が書いたプログラムとは違うぞ」と言われている。

チェスのプログラミング書く時には「余計なものを削ぎ落としていかに効率化を図れるか」が決め手となる。昔書いたコードはメモリーたったの5Kb。この経験を思い起こして、ミュンヘン大近くのバウハウス風の真新しいオフィスに篭って5年がかりで一人黙々と書き上げたのがProximicで、そのマッチングのコア技術のソフトウェア専用コードは1Mbにも満たない。

33歳の相棒フィリップ・ピーパー(Philipp Pieper)CEOとは、ピーパーさんの姉妹ロレッタさん(Bertelsmannが買収したWebmiles創設者)のパーティーで知り合って意気投合、翌日にはProximicに取り掛かっていた。英語が流暢なCEOみたいね。2人にスコーブルが話を聞た動画はこちら

早速私もウィジェットを貼り付けてみた(Firefox拡張機能もある)。すると数秒で引っ張ってきたのがB3 Annex、というブログさん。クリックしてみると、ひょ、ひょえ~、私が気になってそのままになってるトピックが後から後から載ってるではないか! というわけで早速LINKに追加。こういうのはとても有難い。

関連記事マッチングのウィジェットはブログに1個あるとリンク貼りと更新の手間が省けて便利だ。私もいろいろ試してはいるんだけど、TechCrunchが使ってる“Sphere It”入れたら日本語記事はCNetばかりでまるで広告塔だし、“あわせて読みたい”は「あわせて読まれたくない」エントリが多くて(たまたま?)外してしまったり…マッチングって意外とむずかしいのよね…。

しばらくサイドバーに置いて実験してみたい。この一番上の「blogspot.com」はうちのエントリなんでどうでもいいけど(人気エントリが表示されてるっぽい。find similar押してみてね)、「News」は下の「find similar」を押すと「News、Wikipedia、Webの3項目が出てきて、気になる項目の「find similar」を押し続けていくと最新状況が把握できて面白い。

一番下の「Infotizement」ってところに提携先(まもなく発表)の広告が入るみたいね。今はまだベータなんで、変な「エルドラドを探せ」ってタイトルの本が載ってる。エルドラドに…なれるかな?


PROXIMICとは? (原文

Proximicが開発した、ウェブサービスの「pattern proximity(パターン・プロキシミティ=パターン近接)」を基にした、ウェブページ関連素材(広告含め)マッチングのための新技術。

他の検索エンジン同様、Proximicではページの内容はページプロファイルのインデックスで把握している。このプロファイルを使って、ページコンテンツと他のページや広告をマッチする。

他の技術と違って、Proximicではキーワードあるいはセマンティックな学習するシステムではなく、「pattern proximity(パターン・プロキシミティ)」を基にしている。これは語を一個一個見るのではなく、シンボルのセットとして、そのパターンを読むもの。つまりテキストそれ自体ではなく、テキストの構成を読む。

マッチング判断は、与えられた言語(“normality”)の基礎パターンを使い、そのページのコンテクストを示す“specifics”を特定して行う。

Proximic社が説明に使った例: 誰かの顔を説明する際には「目があって鼻があって口があって耳がある」とは言わない。これは“normality”だからだ。普通はたぶん「青い目、ワシ鼻、ふっくらした唇、小さな耳」と表現するだろう。これが“specifics"。specificsはnormalityから逸脱する偏差であり、この偏差で割り出した関連コンテキストを手がかりにする方が顔はしっかり描くことができる。

[via San Jose Mercury News - Tiny start-up rival to Google?]

0 comments:

Post a Comment