全文検索エンジン Hyper Estraier 2

このスレへの固定リンク： http://5chb.net/r/unix/1176807372/
ヒント：5chスレのurlに http://xxxx.5chb.net/xxxx のようにbを入れるだけでここでスレ保存、閲覧できます。

1 :

名無しさん＠お腹いっぱい。

2007/04/17(火) 19:56:12

http://hyperestraier.sourceforge.net/index.ja.html

2 :

名無しさん＠お腹いっぱい。

2007/04/17(火) 19:57:06

前スレ
http://pc11.2ch.net/test/read.cgi/unix/1100221699/

3 :

名無しさん＠お腹いっぱい。

2007/04/17(火) 21:59:35

「はっ！はぁぁぁあんっ！ナ、ナマズは？ナマズは、こ、超えたの？？」

4 :

名無しさん＠お腹いっぱい。

2007/04/17(火) 22:08:40

いいえ、タイにご執心の気違い次男がいる限り、なまずは不滅です。
もっとも最近は、もっとダイレクトにcockらしいですが。

5 :

名無しさん＠お腹いっぱい。

2007/04/18(水) 00:12:47

>>1
乙

6 :

名無しさん＠お腹いっぱい。

2007/04/18(水) 22:59:59

こんなところにエロゲーのスレが！？？

7 :

名無しさん＠お腹いっぱい。

2007/04/19(木) 08:50:05

>>6
「イサキ大漁」で検索

8 :

名無しさん＠お腹いっぱい。

2007/04/19(木) 17:49:02

インストール方法から検索方法までの詳細
↓
↓

9 :

名無しさん＠お腹いっぱい。

2007/04/19(木) 18:58:11

つGoogle

10 :

名無しさん＠お腹いっぱい。

2007/04/22(日) 17:16:55

いちいちhttpdなんか動かしてられるか！
ってひとのため。
http://green.ribbon.to/~ikazuhiro/lookup/ndest.html

11 :

名無しさん＠お腹いっぱい。

2007/04/22(日) 20:12:08

フロントエンド、統一してくれんかのぅ

12 :

774

2007/04/23(月) 01:14:13

前スレとの二重カキコご免なさい。
http://athlon64.fsij.org/~mikio/wikipedia/estseek.cgi?clip=8
こちらのサイトでtestを検索
http://athlon64.fsij.org/~mikio/wikipedia/estseek.cgi?phrase=text&perpage=10&clip=8&navi=0&attr=&order=
すると関連キーワードとして
Related terms: text, rowspan, style, align, center, color, background, key
というふうに出てきますが、これって配布されているCGI、estseek.cgiでも出すようにできますか？？
いろいろ調べているんですが、方法が一向に分からず。
ご存知の方いらしたら改造のしかた教えて下さい。

13 :

名無しさん＠お腹いっぱい。

2007/04/24(火) 22:20:44

複数のインデックスを作っておいて、同時に検索できるのでしょうか？
estseek.confのindexname: 部分では複数の記述ができませんでした。

14 :

2007/04/24(火) 22:22:08

すみません。前スレに移動しました。

15 :

名無しさん＠お腹いっぱい。

2007/05/02(水) 19:49:28

relwords.qdb って何処で入手できるんでしょうか。

16 :

名無しさん＠お腹いっぱい。

2007/05/02(水) 20:50:02

http://qdbm.sourceforge.net/mikio/rbbs.cgi?id=RA11373623770980940568&focus=1

17 :

名無しさん＠お腹いっぱい。

2007/05/02(水) 21:16:15

>>16
http://athlon64.fsij.org:8080/wikipedia/relwords.tsv.bz2
は
http://athlon64.fsij.org/wikipedia/relwords.tsv.bz2
のようですが、not found なのです。

wikipediaのデータを使っているようなので、GNU FDL に基づいて
作者に直接請求しなければならないのでしょうかね。

18 :

2007/05/02(水) 22:17:48

俺なら作者に「お願い」するけどな。

ところでGNU FDLに基づいて公開義務が生じる根拠って何かあるの?

19 :

名無しさん＠お腹いっぱい。

2007/05/03(木) 13:45:41

ここで改変されたデータへのアクセスを提供してる。
http://athlon64.fsij.org/~mikio/wikipedia/relwords.cgi

20 :

名無しさん＠お腹いっぱい。

2007/05/06(日) 11:58:48

これだろ
http://athlon64.fsij.org/~mikio/wikipedia/relwords.qdb

21 :

名無しさん＠お腹いっぱい。

2007/05/07(月) 11:24:34

>>20
多謝です。

22 :

名無しさん＠お腹いっぱい。

2007/06/12(火) 00:07:48

KaMailV3もここで良い？

23 :

名無しさん＠お腹いっぱい。

2007/06/12(火) 15:08:13

xyzzyのスレがあるべ。
作者さんはずっとあっちの人だ

24 :

名無しさん＠お腹いっぱい。

2007/06/20(水) 03:25:39

estcmd search -ord のあとに何をかけばいいのかわかんねー。
rubyの二つの bindingもどういう得失があるんだろう..
やっぱり purerubyだとちょっと遅いとか??
ちょっとソースに diveしてくる。

25 :

名無しさん＠お腹いっぱい。

2007/07/02(月) 22:06:30

mixiが自社開発の検索エンジンに移行、ウェブ検索はYSTに:ニュース - CNET Japan
http://japan.cnet.com/news/media/story/0,2000056023,20352009,00.htm

Hyper Estraier あげ

26 :

名無しさん＠お腹いっぱい。

2007/07/03(火) 09:54:12

mixy日記はコーパスとしておもしろそうだよねえ。

27 :

名無しさん＠お腹いっぱい。

2007/07/04(水) 20:56:32

namazu.el と同じようなフロントエンドおねがいしますー。

上にあったlookupじゃ使いにくいです。
リターン一発で編集したいです。

28 :

名無しさん＠お腹いっぱい。

2007/08/26(日) 14:16:34

Windowsバイナリ版で作成したインデクスと付属CGI(estseek.cgi及び関連ファイル)は
そのままレン鯖にうpしても動かないですかね？
試用段階なのだけど、なにか違うんだろうか。

29 :

2007/08/26(日) 15:33:46

ご、ごめん、いずれにしてもRubyからアクセス(検索)することになるので
そっちをテストしたらうまくいきました。
付属CGIが動かない理由はまだわからないけど、
自分でもいまいち整理できてないですし、
estseek.cgiは使わないので質問は取り下げます。
ごめりんこですm(_ _)m

30 :

名無しさん＠お腹いっぱい。

2007/09/04(火) 21:14:26

ちかごろ良さげなパッチがMLに
流れてるが、作者はマージせんのか。
中華、作者はメンテしてんのか？

31 :

名無しさん＠お腹いっぱい。

2007/09/05(水) 02:18:45

確か1.4.9と1.4.10の間も長かったな。
mixi移籍後社内業務で手一杯なのか開発速度が大幅に落ちた希ガス

32 :

名無しさん＠お腹いっぱい。

2007/09/05(水) 11:32:08

Tokyo Cabinet なんてのも作ってるしなあ。 QDBM ともども H.E. もこのまま放置されたりして。
http://tokyocabinet.sourceforge.net/

つーか代わりにメンテナに立候補する香具師はおらんかなあと思う今日このごろ。

33 :

名無しさん＠お腹いっぱい。

2007/10/28(日) 19:54:12

>>32
開発スピードが遅くなるのはいいんだけど、放置プレイだけが心配だなぁ。
Tokyo Cabinet で QDBM の不満点を解消したとかいってるし、QDBM 放置 → H.E. も放置な流れの気配が…

34 :

名無しさん＠お腹いっぱい。

2007/11/05(月) 14:51:27

100万レコードくらいのインデックスを作成したいのですが、
mysqlのエラーで止まります。何かいい方法ありますか？

35 :

名無しさん＠お腹いっぱい。

2007/11/06(火) 00:03:34

そもそもmysqlのエラーというのが発生する経緯がわからん
どういう使い方をしているのか、それを説明したまえ

36 :

2007/11/06(火) 19:34:03

>35

レスありがとうございます。
hyperestraierとacts_as_searchableというrailsのプラグインを使って、全文検索を行いたいと考えています。

acts_as_searchableに備わっているreindex!というメソッドを実行すると、インデックスが構築される仕様になっているのですが、
これを実行すると、だんだん処理が重くなり、最終的にはMysql::Error: Lost connection to MySQL server during queryというエラーが出てしまいます。

reindex!というメソッドはデフォルトでは対象になるレコードを一気にメモリにのせてしまうので、
そのあたりは負荷を減らすようなコードに修正して実行しています。
（このような感じです。http://d.hatena.ne.jp/yune_kotomi/20070912/1189617411）

hyperestraierのメーリングリストで、mysqlのLost Connectionを改善する
mysql_retry_lost_connectionというrailsのプラグインを教えて頂いたのですが、
インストールしても効果がなく、どうも、接続が切れる前の段階でつまずいているような気がします。

対象レコード数は100万弱で、途中で止まってしまいましたが、
#docs => 22897、#words => 196666まではいけました。

なにかアドバイスいただければ幸いです。
よろしくお願いします。

37 :

名無しさん＠お腹いっぱい。

2007/11/07(水) 11:56:45

そのMySQLのqueryとやらは、その先の処理が何時間かかろうともいつまでも待ってくれるの？
単にタイムアウトしているだけのような気が...

38 :

名無しさん＠お腹いっぱい。

2007/11/08(木) 01:02:45

つーかMLとマルチ？やるなあおい

39 :

名無しさん＠お腹いっぱい。

2007/11/08(木) 08:42:09

作者こないね

40 :

名無しさん＠お腹いっぱい。

2007/11/08(木) 22:48:10

マルチっていうより、ML で有効なレスポンスがないからこっちにも、ってことだろう。
残念ながら俺は MySQL と組み合わせたことも Rails も使ったことがないからよくわからん。
つか普通 MySQL で全文検索するんだったら Senna じゃね?

41 :

名無しさん＠お腹いっぱい。

2007/11/11(日) 18:28:54

いや、だからさ、作者はメンテする意思あんのか、と。

42 :

名無しさん＠お腹いっぱい。

2007/11/12(月) 00:50:42

メンテナンスに関しては、開発者コミュニティが形成されていない
のがダメな点だな。

作者の手を煩わせてはいかんよ。

43 :

名無しさん＠お腹いっぱい。

2007/11/12(月) 08:59:50

いやでもパッチ投げても直接マージされるわけじゃなく、本人がリライトして
著作権保持者を維持してるので、開発コミュニティの形成はforkでもしないと
無理だよ。

44 :

名無しさん＠お腹いっぱい。

2007/11/12(月) 10:29:24

作者がmixiじゃなくgoogleに就職していれば…

45 :

名無しさん＠お腹いっぱい。

2007/11/12(月) 10:59:56

googleに行ったフーリソフトウェア者も沈黙しちゃってる件(泣)

46 :

名無しさん＠お腹いっぱい。

2007/11/12(月) 19:53:49

マイクロソフトはソース見たらフリーウェアに参加で着なくなるけどほかのも？

47 :

名無しさん＠お腹いっぱい。

2007/11/21(水) 14:39:17

estseek.cgiで属性検索しても結果に出てこないのはなんで？
[UVSET]してるけどなー

48 :

名無しさん＠お腹いっぱい。

2007/11/21(水) 14:44:41

あとgather -aa @uri STRで属性インデックスつけてるけど　やっぱ遅いですね
属性検索で速く検索する方法ありますか

49 :

名無しさん＠お腹いっぱい。

2007/11/21(水) 18:22:16

>>48
それ属性インデクス追加のオプションだっけ？
おれは
estcmd create -attr @uri str idx
とかやって属性インデクス付けたよ．

1000万件位のレコード数だったけど，URI検索は体感できるほど
速くなった．

50 :

名無しさん＠お腹いっぱい。

2007/11/29(木) 10:43:00

>>39-45
で、いざ新バージョンが出たら沈黙ってなんだよ。

51 :

名無しさん＠お腹いっぱい。

2007/11/29(木) 13:26:34

http://hyperestraier.sourceforge.net/index.ja.html
> 最新のソースパッケージ（バージョン1.4.12）

あれ、いつの間に。
ML 入ってるけどリリース情報なかったぞ。
何にせよ復活age.

ただ、ChangeLog 見る限り、

2007-11-18 Mikio Hirabayashi <mikio@users.sourceforge.net>
* estraier.c: code clean-up.
- Bugs related to type casting of perl binding were fixed.
- Release: 1.4.12

2006-11-11 Mikio Hirabayashi <mikio@users.sourceforge.net>
* estraier.c (est_resmap_add): "method" argument was added.
* estraier.c (est_inode): a bug related to overflow was fixed.
* estraier.c (est_narrow_score): a bug related to attribute distinction was fixed.
* estraier.c (est_search_union): search accuracy with trailing uni-gram was improved.
* estmaster.c (searchlocal): a bug related to scanning with regular expressions was fixed.
* estscout.c (realmain): "union", "score", and "idsuffix" attributes were added.
* estsupt.c (realmain): "score" attribute was added.
* estsupt.c (procsearch): accuracy of hint was improved.
* estsupt.c (realmain): "logmsg" parameter was added.
* estscout.c (realmain): "distinct" parameter was added.
* estscout.c (showresult): cache clear at random was added.
- Release: 1.4.11

ここのところ精力的に ML に投げられてたパッチはマージされてなさげ?

52 :

名無しさん＠お腹いっぱい。

2007/12/05(水) 19:46:42

pthreadsライブラリのないシステムで動かしたいんですが
なんとかならんですかね。

53 :

名無しさん＠お腹いっぱい。

2007/12/06(木) 19:59:56

Chimera Search（キメラ・サーチ）
http://www.osstech.co.jp/product/chimera

> 構築コンポーネントに以下のOSS（オープンソースソフトウェア）を利用
> しているため、安価に導入できるのに高性能・高機能を発揮します。
> * プログラム言語： Rubyおよび Ruby On Rails
> * 全文検索システム： Hyper Estraier

54 :

名無しさん＠お腹いっぱい。

2007/12/22(土) 14:50:01

百度でやってるように
會→会
懷→懐
みたいに異体・旧字体・繁体・簡体をまとめてくれるといいのに。

estraier.c のなかの canonize なんとか関数に誰かちょっちょっと書き加えてくれ。

55 :

名無しさん＠お腹いっぱい。

2007/12/22(土) 15:24:27

>>53
こういう製品って虚しいよね。
だって、導入６０万、年１２万だったらGoogle MINIの方が
安いし、ハードウェア込みの提供だからメンテフリーだし。
実際，うちの会社はWWW用はGoogleMINI にした。
部内サーバは自分でHyper Estraierをいれた。

56 :

名無しさん＠お腹いっぱい。

2007/12/22(土) 17:12:45

>>55
それはそうなんだが、Google MINIってちっとも社内のニーズに合わせてくれなくて不満がでるんだよな。
ページの計算もなんか適当に丸められちゃうし。

57 :

名無しさん＠お腹いっぱい。

2007/12/24(月) 16:00:59

コレ使って、某サイトの1万件の記事の全文検索作ったが早いし良いね!!
acts_as_searchableの未完成具合に泣いたけどｗｗ

Rails系のエンジニアに聞くと皆使ってるし、
結構いろんなサービスでも使ってるみたい。

58 :

名無しさん＠お腹いっぱい。

2007/12/27(木) 04:43:21

最新版のWindows版のバイナリパッケージを配布して欲しい．．．

59 :

名無しさん＠お腹いっぱい。

2007/12/27(木) 21:52:28

ありゃ、SennaはともかくHEにもないんだ…

60 :

名無しさん＠お腹いっぱい。

2008/01/06(日) 02:53:55

(　￣0￣)Ψ　誰かぁぁ　PHP-nativ binding を作ってぇ～

61 :

名無しさん＠お腹いっぱい。

2008/01/29(火) 14:23:57

クローラー＋ノードサーバーを使用した検索をシステムを動かし
http://*****:1978/node/***/search_ui　の形式で検索には成功しました。

次ステップで
estraierpure.rb を PHP に移植したという　「EstraierPure for PHP 4.3」を使用し、ClassNodeを利用しましたが、検索結果に同じサイトばかり表示されてしまいます。

１：Pure版には　類似隠匿機能はないのでしょうか。
　　Ruby、Javaにもないようですし..

２：Binding版（Perl等）には、類似隠匿機能（set_eclipse)があるのですが、classNode　がありません。
　　Binding版で、P2P（ノード）利用した検索をシステムって可能なのでしょうか。
　　CPAN（Search-Estraier）を観ましたが、classNodeがあったのですが、set_eclipseがありませんでした
３：そもそもBinding版とPure版の違いってなんでしょうか。（汗

全く、的外れな質問でしたらお許しください
やりたいのは、「P2P＋クローラーでの検索サーバーの構築」です。

62 :

名無しさん＠お腹いっぱい。

2008/01/29(火) 18:32:53

ノードＡＰＩの場合、est_noderes_eclipse関数。　
Pureには、実装されてないようです。

＞そりゃ俺がやるから使う側は楽なんだけどさ、面倒くせーことこの上ない。
　http://qdbm.sourceforge.net/mikio/rbbs.cgi?id=RA11306060711414945086

63 :

名無しさん＠お腹いっぱい。

2008/01/30(水) 00:08:19

5年ぶりになまずを再インストールしたらすごくまともになってた。これでいいじゃん。

64 :

名無しさん＠お腹いっぱい。

2008/01/30(水) 01:19:12

5年ぶりかよっ。

65 :

名無しさん＠お腹いっぱい。

2008/01/30(水) 02:18:18

鰤と鯰

66 :

2008/01/30(水) 14:55:51

面倒くせーですか.... Ｃでやってみましょうか..１５年ブリ（鬱

67 :

名無しさん＠お腹いっぱい。

2008/01/30(水) 20:11:19

いくらなんでも鯰でいいはないだろ…
検索漏れ大杉でとても使う木になれん

68 :

名無しさん＠お腹いっぱい。

2008/01/31(木) 10:15:31

＞検索漏れ大杉

　ヒント　Mecab

69 :

名無しさん＠お腹いっぱい。

2008/01/31(木) 14:10:21

namazu+kakasi じゃなくて鯰＋和布蕪ってこと？

70 :

名無しさん＠お腹いっぱい。

2008/02/01(金) 10:36:19

>>66
Ｃで組むならＱＤＢＭの使いこなしが必要。
関数になれましょう

71 :

名無しさん＠お腹いっぱい。

2008/02/07(木) 15:54:15

景気よくageます.
Windows版バイナリパッケージのverは1.4.10で止まったままなんでしょうか.
どなたかビルドしておられたらありがたいですが

72 :

名無しさん＠お腹いっぱい。

2008/02/09(土) 17:52:06

1.4.10 で困ることあるのか？

73 :

名無しさん＠お腹いっぱい。

2008/02/10(日) 09:18:20

辞書データ変換ツール一般についてと
(製品版のデータを全部持った)体験版のデータ変換についての話が
入り乱れてないか?

74 :

名無しさん＠お腹いっぱい。

2008/02/10(日) 09:19:50

すまん、誤爆した。

75 :

名無しさん＠お腹いっぱい。

2008/02/20(水) 02:24:28

これ、データーベース(QDBM）が壊れまくり。
ＤＢが開いた状態で、プロセスが落ちると１００％ぶっ飛ぶ
速いらしいが、こんなん怖くて使えないわ。
どうでもいいような、無くなってもいいデータしか扱えないわ。

さてと、１０００万件のデータ、ゼロから収集だわ（鬱

なんとかならんでしょうかね

76 :

名無しさん＠お腹いっぱい。

2008/02/20(水) 02:34:44

なんとかしてみてよ。

77 :

名無しさん＠お腹いっぱい。

2008/02/20(水) 08:56:25

俺もbsfilterでqdbm使ってたらすぐ壊れたんでsdbmに変えた･ﾟ･(つД｀)･ﾟ･

78 :

名無しさん＠お腹いっぱい。

2008/02/20(水) 10:37:59

http://qdbm.sourceforge.net/mikio/rbbs.cgi?id=RA11226165321819719571

79 :

名無しさん＠お腹いっぱい。

2008/02/20(水) 15:07:56

>>77
よかったな! sdbmの方が圧倒的に速いぞ。

80 :

名無しさん＠お腹いっぱい。

2008/02/21(木) 13:32:05

まぁ～、トラック　と
ノーヘルどころか、頭蓋骨すらない脳味噌丸出しのバイク便の差。

高速道路で同じ荷物を運んで　どっちの運ちゃんが逝くかは明白。

シートベルト程度の防御は欲しいけど、速さと安全は成り立たないだろね。
ＲＡＭにカキコされたキャッシュ程度のモンよ

81 :

名無しさん＠お腹いっぱい。

2008/02/21(木) 18:56:31

>>80
お前喩えのセンスあるな

82 :

名無しさん＠お腹いっぱい。

2008/02/23(土) 11:56:39

ＨＥ＋Tokyo Cabinet に変わるまで待てよ

83 :

名無しさん＠お腹いっぱい。

2008/02/23(土) 13:45:46

TC ってさらに速さを追求したライブラリなんじゃネーの?
安全性上がるのか?

84 :

2008/02/23(土) 13:52:41

ああ、
http://alpha.mixi.co.jp/blog/?p=90
> 耐障害性の向上 : データベースファイルが壊れにくい
って書いてあるな。

速度だけでなく安全性も向上するのか。

85 :

名無しさん＠お腹いっぱい。

2008/02/23(土) 14:11:07

http://alpha.mixi.co.jp/blog/?p=98
> QDBMにおいては、データベースを開いているアプリケーションが異常終了した場合、
> もしくはデータベースを適切に閉じずに終了した場合は、データベースが壊れるように
> していました。それらは明白なバグであり、アプリケーションの作者やそれを使うことを
> 選択したユーザに何らかの意識的な対処を求めることが適切であると考えたからです。
> (中略)
> しかし、上記のような理想主義と「上から目線」では現実の問題に対処できないことを
> 近ごろ感じはじめました。マナーを守らない/守れないユーザやユースケースも結構な
> 割合で存在するのが現実なのです。したがって、TCは、マナーを守らないアプリケー
> ションやそのユーザにも宥和する戦略に転換しました。

突然の停電とか当たり前に起こりうる事態なんだから、
バグとかマナーとかそういう問題じゃないと思うんだよな…
アプリにバグが無くても OS の不具合で落ちることなんかしょっちゅうだしな。

86 :

名無しさん＠お腹いっぱい。

2008/02/23(土) 16:37:48

サバイバビリティの概念がないソフトウェア設計者がいるのか。
能力的に対処できないということはなさそうだから、
実世界の面倒くさいことから逃避するための言い訳か。

> アプリにバグが無くても OS の不具合で落ちることなんかしょっちゅうだしな。

そんな事がしょっちゅうあるようなOSは使わないのが普通。

開発者がアレだとユーザもアレなのが集まるというのを実感しないでもない。

87 :

名無しさん＠お腹いっぱい。

2008/02/23(土) 16:53:57

>>86
おまえは Windows を使ったことがないのか?

88 :

名無しさん＠お腹いっぱい。

2008/02/24(日) 05:10:28

●ノードマスタの異常終了（再起動シナイ）
　サーバールートdirの　_pid と　_stop の削除　

●ＤＢの復旧
　estcmd repair index_path
　

89 :

名無しさん＠お腹いっぱい。

2008/02/24(日) 14:10:33

共有鯖で、クローラーを動かしてますが、突然、
｢out of memory｣で止まってしまいました。( p_q)エ-ン

クローラールートディレクトリ(rootdir)内が飛んだようで
以後、
estwaver crawl rootdir 　で　「could not open」となり起動できません。

メモリが少ないのはわかるのですが、先日までは正常に動作してました。
rootdirの復活方法など対処方法を教えてください　(o*。_。)oペコッ

90 :

名無しさん＠お腹いっぱい。

2008/02/24(日) 15:35:47

つ…釣り？

91 :

名無しさん＠お腹いっぱい。

2008/02/24(日) 15:57:55

あるいは「一般人」かも

92 :

名無しさん＠お腹いっぱい。

2008/02/24(日) 19:53:33

>>85,86
耐障害性の確保は上位層でやれってことだろ。
オーバーヘッドを減らすためには妥当な技術選択だ。
あんたらが考えてるくらいのことはとっくに考えてるはずだよ。

その例としてTokyo Tyrantでちゃんと耐障害性を確保しているしな。
http://alpha.mixi.co.jp/blog/?p=147

これベースでHEを作ってくれないかなぁ。

93 :

名無しさん＠お腹いっぱい。

2008/02/24(日) 21:47:33

むしろ今後HEが放棄されそうで心配…。

94 :

名無しさん＠お腹いっぱい。

2008/02/24(日) 22:47:01

mixi.jp 内で動いているエンジンを表に出して欲しい。

95 :

名無しさん＠お腹いっぱい。

2008/02/25(月) 06:44:00

>>92
中見てないけどtokyoestraierってのがそうじゃないの?

96 :

名無しさん＠お腹いっぱい。

2008/02/26(火) 12:43:58

>>92
選択肢の一つではあるが、技術的に妥当な選択だとは思わないな。
用途が制約される(上位層やユーザがその要求を履行するのは難しい)という点で。

97 :

名無しさん＠お腹いっぱい。

2008/02/26(火) 22:43:32

トレードオフのある技術選択において何が妥当かはユースケース次第だろう。
consistencyを真面目に考えたらそれこそスタンドアロンでは実現できないし。

98 :

名無しさん＠お腹いっぱい。

2008/02/27(水) 17:41:29

ＨＥはそのまま。

後継は、tokyoestraier（ＴＥ）でしょう。
http://hyperestraier.sourceforge.net/past/?M=A

99 :

名無しさん＠お腹いっぱい。

2008/02/28(木) 13:12:04

DesktopHEでファイルサイズとテキストサイズの上限を調整する方法教えてくれよ。

100 :

名無しさん＠お腹いっぱい。

2008/03/21(金) 04:12:02

ココもＭＬも過疎ってるし...

101 :

名無しさん＠お腹いっぱい。

2008/04/03(木) 20:14:51

node配下のインデックスファイルって
別のHEシステムにインポートできないかな。

独立したサーバAで作ったインデックスを
別の独立したサーバBにrsyncで飛ばしてしてクローン作るとか･･･

102 :

名無しさん＠お腹いっぱい。

2008/04/03(木) 21:54:36

rsyncでやってみれば
多分動くでしょ。AとBのアーキテクチャが同じなら

103 :

名無しさん＠お腹いっぱい。

2008/04/03(木) 23:58:23

Q. ビッグエンディアンもしくはリトルエンディアンのマシン上で動きますか？
A. はい。どちらでも動作します。ただし、双方でインデックスを
共有することはできません。

そうでない場合は共有できるんじゃないの?

104 :

名無しさん＠お腹いっぱい。

2008/04/04(金) 10:03:10

> 101
私やってますよ
サーバAでestwaverで集めて、サーバBにrsyncで飛ばして、検索はBで
ってシステム構築してます
AもBも同じPC同じOSですが

105 :

名無しさん＠お腹いっぱい。

2008/04/04(金) 11:20:55

>>101-102
レス㌧

バックアップとしても使えそうね

てか過疎で誰も居ないかと思ってたけど
人がまだ居て嬉しかった(´；ω；｀)ﾌﾞﾜｯ

106 :

名無しさん＠お腹いっぱい。

2008/04/04(金) 11:21:29

安価ミスorz

>>102-104

107 :

名無しさん＠お腹いっぱい。

2008/04/09(水) 23:28:58

tokyocabinetのwin32版って、どこ？

108 :

名無しさん＠お腹いっぱい。

2008/04/10(木) 07:40:41

http://tokyocabinet.sourceforge.net/spex-ja.html#faq
Q. : Windowsで利用できませんか？
A. : 残念ながらできません。今のところ対応予定もありません。

109 :

名無しさん＠お腹いっぱい。

2008/04/10(木) 10:05:57

お、TCのドキュメントでたんだ。

期待age

110 :

2008/04/17(木) 18:25:17

>>52
>pthreadsライブラリのないシステムで動かしたいんですが

Hyper Estraierの前身の Estraierが pthreadsを必要としてなかったのでそっちを入れました。

111 :

名無しさん＠お腹いっぱい。

2008/04/17(木) 23:37:00

pthはだめなの？

112 :

名無しさん＠お腹いっぱい。

2008/04/18(金) 10:46:20

Windowsで作成したデータベースをFreeBSDにコピーして使用しようと思い「P2Pガイド」の
「初期導入の効率化」を参考にデータベースを作成したのですが、検索が上手くいきません。

FreeBSD側に持っていっても、estsmdでは正常に検索できるのですが、サーバを立ち上げて
estcallを使うと、検索結果のヘッダ(ヒット数など)は表示される物の、それに続くはずの
文書一覧が表示されません。

どなたか原因分かる方見えませんか?

113 :

名無しさん＠お腹いっぱい。

2008/04/18(金) 17:38:32

>>111
GNU pth というのがあったとですか。勉強になりました。
でも本当の UNIX系OSではなくて UNIXエミュレーション環境なので pth では無理かも。
ともかく調べてみます。ありがとね。

114 :

名無しさん＠お腹いっぱい。

2008/04/24(木) 09:09:51

インデックス作成していたらout of memoryで止まるorz
物理メモリ1GB、仮想メモリ1.4GB使い切る・・・
-ftなんか使う物じゃないんだろうか
javaとかのソースコードも見たいんだけどなぁ・・・

115 :

名無しさん＠お腹いっぱい。

2008/04/24(木) 23:32:59

インデックス対象に Excel ファイルとか含まれてる?
Excel のせいでメモリ不足になってるならこういう話がある
http://pmakino.jp/tdiary/20070501.html#p01

116 :

名無しさん＠お腹いっぱい。

2008/04/25(金) 00:03:50

なるほど。参考になりました。

大学の研究室のファイルサーバ(約600GB)の検索用に導入しようと試みているんですが
実験のログやそれをとりまとめたxls、論文のdocやpdf、プレゼン用のppt(x)に
実験プログラムなどなど混沌としているため目的のファイルを探すのが容易になればと・・・

-ftじゃなくて.javaなどもテキストファイルとして認識するようにどこか変更すればいいんだろうか。

がんばっていろいろいじってみます

117 :

名無しさん＠お腹いっぱい。

2008/05/05(月) 21:20:24

KaMailV3でH.E使っているんですが、mh形式のメールを登録したときに、メール内の添付ファイル名で検索することってできるんでしょうか。
H.E単体で、できないものであれば、あきらめようと思っていますが。

118 :

名無しさん＠お腹いっぱい。

2008/05/12(月) 02:11:46

Windowsバイナリ版1.4.9を数台のPCに設置＆P2P連携し、
デフォルトの検索インターフェイスやコマンドラインからメタ検索をしているのですが、
似た内容のファイルが複数ヒットすると数件しかスニペット表示されません。
(例えば、5件のファイルがヒットしてもスニペット表示されるのは1件だけとか)

何かオプションを指定するなどしてヒットしたすべてのファイル、
あるいは上位何件かのファイルのスニペットを表示させる、
ということはできないのでしょうか？

119 :

名無しさん＠お腹いっぱい。

2008/06/15(日) 02:36:39

Tokyo Estraier http://hyperestraier.sourceforge.net/past/?M=A
てさ、0.0.1とかいうバージョン番号のせいで内容を見る気になってなかったんだけど、
実際見てみたら HE 1.4.13 で Tokyo Cabinet を使えるようにしたものなんだね。
今まではQDBMが壊れやすいせいでHEを敬遠してたのだけど、これは良いかも。
これで実運用してる人とかいるかな？

まあ本命は Tokyo Dystopia なんだけどさ。Rubyバインディングとかつくってほしいなあ。
http://tokyocabinet.sourceforge.net/dystopiadoc/

120 :

名無しさん＠お腹いっぱい。

2008/06/15(日) 18:21:12

壊れやすいよね。
問題なのは壊れたのに気づかないという・・・
リペアしてもリペア出来てないという・・・

121 :

名無しさん＠お腹いっぱい。

2008/06/16(月) 18:24:46

検索結果をXMLで受け取りたいときはどうしたらいいの？

122 :

名無しさん＠お腹いっぱい。

2008/06/16(月) 18:35:51

estcmd なら estcmd search に
　-vxを付けると、属性情報とスニペットをXML形式にして結果を出力します。
ってマニュアルに書いてあるよ。

それ以外は自分でAPI使ってXML返すプログラムを作るってのが
本来の使い方だろうね。

123 :

名無しさん＠お腹いっぱい。

2008/06/16(月) 18:54:39

APIつくらないとダメかなぁ～

124 :

名無しさん＠お腹いっぱい。

2008/06/22(日) 17:24:43

２５６Ｍのバーチャルサーバーで動かしてます。
検索時はメモリオーバーになるらしく、プロセスがＫＩＬＬされまくります。

どれくらいのメモリがあれば使えるものですか？

125 :

名無しさん＠お腹いっぱい。

2008/06/22(日) 23:17:58

128M の玄箱 HG でも動いているが…
なんか使い方おかしいんじゃね?

126 :

名無しさん＠お腹いっぱい。

2008/06/23(月) 00:00:57

>>124
バーチャルサーバのスワップはちゃんととってます？

127 :

名無しさん＠お腹いっぱい。

2008/06/23(月) 06:32:14

検索対象拡張子を追加するにはどこいじればいいんだろう？
.javaとかをテキストとして処理するようにしたいんだが・・・

128 :

124

2008/06/23(月) 16:57:29

バーチャルサーバのスワップ？　

どうやって取るんだろ。。( p_q)ﾜｶﾝﾈっす　PLASKサーバーです

_conf　の設定が悪いのでしょうか。。P2P（estmaster）で使ってます。
_confにメモリ周辺の設定ってありましたっけ？

129 :

名無しさん＠お腹いっぱい。

2008/06/24(火) 02:03:12

.netからDLLを利用しようと思ってます。
が、検索のAPIがDLL内でmallocしたものを返す仕様になっており、
メモリ解放ができません。
内部で完結するよう関数追加してビルドしなおししかないでしょうか？

130 :

名無しさん＠お腹いっぱい。

2008/06/24(火) 21:40:22

DTDって変更したいときは任意の場所に出来るのかな？
デフォルトのファイルを書き換えるだけ？

131 :

名無しさん＠お腹いっぱい。

2008/06/24(火) 22:14:59

>>129
どうしたいのか分からんが、間にラッパーを
かませればいいんじゃないの?

132 :

名無しさん＠お腹いっぱい。

2008/06/24(火) 23:50:56

>>131
はい、ラッパー作った方がいいと思います。
ラッパーのビルドもcygwin入れて本体と同じライプラリつかってやるんですよね。きっと。
UNIX系はさっぱりで、makeファイルすらよくわからず、相当時間がかかりそうです。

とり急ぎ直近はSearch系だけestcmdでやっちまおうと思います。
ギャザラはDLL使うのでなんとも不格好なんですが。

133 :

名無しさん＠お腹いっぱい。

2008/06/25(水) 10:35:07

freeをcrtからインポートすればいいだけじゃないの？

134 :

名無しさん＠お腹いっぱい。

2008/06/26(木) 01:02:03

makeの設定とdllの中身見たらmsvcrt.dllでいいみたいですね
どうもありがとうございました。

135 :

名無しさん＠お腹いっぱい。

2008/07/08(火) 20:51:02

質問です。
windows環境でRailsの開発をしててHyper Estraierを使いたいんですが、
配布されているバイナリパッケージにRubyバインディングが見当たりません。
Cygwinでソースをmakeしても、Hyper Estraier本体は入るんですが、
Rubyバインディングのmakeでコケます。

windowsでは無理？

136 :

名無しさん＠お腹いっぱい。

2008/07/12(土) 09:15:52

どうコケのかを言わずに、どう答えて欲しいんだろう

137 :

名無しさん＠お腹いっぱい。

2008/07/12(土) 17:24:10

>>135
お前にゃ無理だ。

138 :

名無しさん＠お腹いっぱい。

2008/07/24(木) 13:28:58

ショボ頭の自分助けて…

pdfをインデックス化したいんですけど、30MB超えるpdfだと、
文章の途中までしかインデックス化してくれません。。
特にエラーとか出てないんですけどなんでだろ？

$ estcmd gather -cl -fx ".pdf" "H@estfxpdftohtml" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./

一応、-lf -1 -lt -1で、ファイルサイズ制限無しとかにしてみるんだけど、
マニュアルとかGoogle先生とか聞いても対処方法もわかんなくて、、
こんなバカ助かるかな？

139 :

fumiyas

2008/07/25(金) 12:27:12

>>138

estfxpdftohtml スクリプト中に「ulimit -v 262144 -t 10 2> "/dev/null"」ってのがあるから
「262144」の部分を適当に多くしてみるとどう?

140 :

fumiyas

2008/07/25(金) 12:55:11

>>114
うちの estmaster もインデックスにデータを投入するごとに肥大化しているような。
お客さんのところでメモリ使用量 1GB 越えも発生したので、調査する予定。(;_;)

… その前に Tokyo Estraier を試してみようかしら?

141 :

名無しさん＠お腹いっぱい。

2008/07/25(金) 15:21:53

>>139

うぅ、バカに救いの手をありがとうございます。orz
少しインデックス化できた文章が増えたので、イケルか！と思ったんですが、
値を倍位に変更しても、それ以上は増えなくて、やっぱり途中で切れちゃってる。＿|￣|○|||
( -t 10 => 500とかもしてみたけどダメだった…）

なにげに、
$ pdftotext -enc UTF-8 -htmlmeta "pdfファイル"
これでやってみると、きちんとオワリまで文章がテキスト化されているみたい。

新たに発覚したんだけど、どうもpdf文章の途中でたまたま出てくる「<<」の記号から、
「>>」の所まで、ごっそり文書がインデックス化されてないっぽい。(ﾟﾛﾟ;))((;ﾟﾛﾟ)ｵﾛｵﾛ

すまん、かえって混乱させてるかも。。
というか、自分混乱してる。

142 :

fumiyas

2008/07/26(土) 02:26:06

>>141

ああ、わかった…。(たぶん)
pdftotext のバグですね。

pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" | output

の部分を:

pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \
|sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \
| output

とでも書き換えてみてください。(これだと「pre」が単語として登録されてしまうが…。)

# sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext
# chmod 755 /usr/bin/estfxpdftotext

とでもして、

$ estcmd gather -cl -fx ".pdf" "T@estfxpdftotext" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./

とするとか。

143 :

名無しさん＠お腹いっぱい。

2008/07/26(土) 11:00:18

>>142
あんただれ？

144 :

名無しさん＠お腹いっぱい。

2008/07/28(月) 14:06:44

>>142

ホントすいません、付き合って頂いちゃってありがとうございます。
pdftotext のバグですか!?
だとすると、こんなド素人に使いこなすのは難しくなっちゃうかも。。現状で満足せなあかんですかね(;´ー`)

スクリプトありがとうございます(人-)
ただかなり初歩的な部分で分からないところが…(滝汗) そもそも sed がイマイチ分かってないしょっぱい自分…

> # sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext
> # chmod 755 /usr/bin/estfxpdftotext

estfxpdftohtml や estfxpdftotextは /usr/local/share/hyperestraier/filter にあって
/usr/bin には無かったりするんですが、その辺は読み替えろよこんちくしょう的な感じでしょうか…？(ﾟДﾟ;)ｱﾜﾜ
それともそのままやっちゃっても大丈夫的な感じでしょうか？

145 :

fumiyas

2008/07/29(火) 13:53:59

>>144

まずは pdftotext のバグについて。
pdftotext は -htmlmeta オプションを付けると PDF に含まれる
本文のテキストを簡単な HTML にして、プラス文書情報 (Adobe Reader なら
[File] - [Properties] で表示される情報) を HTML の <meta> に
含めてくれますが、PDF 本文のテキストは <pre> で囲まれるだけで
その中に含まれる <, >, & を <, >, & に変換してくれません(バグ)。
なので PDF に「<HTMLのタグではない適当な文字列>」という文が含まれていると、
estcmd がそれを HTML のタグと認識してしまい、削除してしまいます。

sed がやっていることですが、<pre>～</pre> の間の <, >, & を
<, >, & に変換しているだけです。

最後に estfxpdftohtml(text) の置き場所ですが、私の手元の Debian の
hyperestraier パッケージでは /usr/bin に置かれているというだけで、
そっちの環境で /usr/local/share/hyperestraier/filter なら、
そっちに合わせて ↑ に置くのがいいと思います。

# sed 's/ -htmlmeta / -raw -nopgbrk /' \
/usr/local/share/hyperestraier/filter/estfxpdftohtml \
>/usr/local/share/hyperestraier/filter/estfxpdftotext

>>143
ハンドル(?)をググると出てくるので、そっちをどうぞ。:-)

146 :

fumiyas

2008/07/29(火) 13:57:46

ありゃ? 「＆ｌｔ；」(実際は半角)とかが「<」に変換されちまった…。
どうしたらいいの? ま、いいか。

147 :

fumiyas

2008/07/29(火) 15:56:25

初心者板で聞いてきました。「&amp;」って書くのね…。

pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \
|sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \
|output

その中に含まれる <, >, & を <, >, & に変換してくれません(バグ)。

148 :

名無しさん＠お腹いっぱい。

2008/07/30(水) 18:50:03

>>147

す・すすごい!!できたできました!!(･∀･∀･)
ごっそり抜けちゃってた文章も、タグだと誤解されてしまってたんですね。
きちんとインデックスに戻ってきました、戻ってきましたよ！！щ(゜ロ゜щ) カモ-ン

天才ですかfumiyasさま… (ｼ_ _)ｼネ申 >>147
ほんにありがとうございます。

確かにインデックスの方には <pre> が単語化されているようですが、
これはもう、しょうがないですよ…ね…？

はぁぁ、感動しちゃいました。(；∀；　)

149 :

fumiyas

2008/08/01(金) 01:35:58

>>148
解決されたようでなによりです。
「pre」が気になるようなら、上で書いたように estfxpdftohtml
の代わりに estfxpdftotext でもどうぞ。estcmd の -fx オプションの
値を変更するのを忘れないように。

150 :

HE@SHE

2008/09/27(土) 02:48:36

Hyper Estraierで、URI属性をフレーズ検索の対象とする方法はありますでしょうか。

151 :

名無しさん＠お腹いっぱい。

2008/10/02(木) 13:47:11

すみません教えてください。
ファイルサーバ（Xとか入れてません）として使っているetchにHyper Estraierを入れてわりと経つのですが、
pdfの日本語がインデックスに入っていないことに気付きました。
いろいろ調べて、ひとまずpdftotextが日本語を変換してくれてないのだ、と分かりました。

degas@debian:~$ pdftotext 日本語入りのpdf.pdf
Error: Unknown character collection 'Adobe-Japan1'
　：
Error: Unknown character collection 'Adobe-Japan1'

ってな状況ですorz。xpdfはapt-getでhyperestraierをインストールするときに
推奨パッケージでxpdf-utilsを入れたので、大丈夫だと思っているのですが…。
念のためいまxpdfも入れてみましたが、同じエラーが出ます。
指針が有ればお願いしますm(_ _)m。

152 :

名無しさん＠お腹いっぱい。

2008/10/02(木) 14:23:09

Unknown character collection 'Adobe-Japan1' でググっても解決しないの？
xpdf-japanese とやらを入れてる？

153 :

名無しさん＠お腹いっぱい。

2008/10/02(木) 14:29:43

http://www.foolabs.com/xpdf/download.html
にある
xpdf-japanese.tar.gz
は入れた？

154 :

名無しさん＠お腹いっぱい。

2008/10/02(木) 15:11:58

ありがとうございます。
xpdf-japaneseはapt-getだと入らないのですよ…何でか分からないけど。

155 :

名無しさん＠お腹いっぱい。

2008/10/02(木) 15:19:29

そうですか。私にも何でか分かりません。

156 :

151,153

2008/10/02(木) 16:59:34

解決しました。

xpdf-commonをapt-getでインストール、
cmap-adobe-japan1を取ってきてdpkgでインストール、
さらに/etc/xpdf/xpdfrcに
include /etc/xpdf/xpdfrc-japanese.dpkg-new
を書き加えればOKでした。

apt-getしか使えない男にお付き合いいただきありがとうございました。
お邪魔しました。

157 :

名無しさん＠お腹いっぱい。

2008/10/02(木) 17:05:15

ファイルを指定ディレクトリに置くだけだからapt-getイラネですよ。
DLしてtar xvfzしてREADMEだかINSTALLだか読めば分かると思う。

158 :

名無しさん＠お腹いっぱい。

2008/10/20(月) 15:21:23

tokyo estraierはここ以外で存在が話題になっていないんだけど
商用、あるいは公用の検索システムに勝手に使っちゃっていいんだろうか

159 :

fumiyas

2008/10/27(月) 11:44:33

>>158
GPL と LGPL だし、問題ないでしょ。(たぶん :-)
で、tokyo estraier どんなくらい試しました?

160 :

名無しさん＠お腹いっぱい。

2008/10/28(火) 18:27:33

>>159
>>158じゃないけれど
普通にインデックスして普通に検索出来て普通に遊べて…
これ、本当にインデックス時にTokyoCabinet使ってるのか不安になってきた

161 :

名無しさん＠お腹いっぱい。

2008/10/28(火) 18:40:31

データベースファイルの先頭バイトを覗いたら、[depot]って書かれてたりして

162 :

名無しさん＠お腹いっぱい。

2008/10/28(火) 21:50:58

>>161
う…_attrフォルダの中に「depot」ファイルがあるんだが

163 :

名無しさん＠お腹いっぱい。

2008/10/29(水) 10:07:46

過去のバージョンと、Windows版のバイナリパッケージのページが落ちてるようなんだが。
UNIX板でアレだけどWin版の1.4.10持ってる人だれか上げてくれないかな…

164 :

名無しさん＠お腹いっぱい。

2008/10/29(水) 11:16:02

>>163
http://www2.uploda.org/uporg1754116.zip.html

165 :

名無しさん＠お腹いっぱい。

2008/10/29(水) 11:38:31

ディレクトリ一覧がデフォルトでは表示されなくなっただけなので
正確なファイル名が分かるとか、検索サイト等のキャッシュから手繰るとかで
落とせますよ。

http://hyperestraier.sourceforge.net/win/hyperestraier-1.4.10-win32.zip

166 :

名無しさん＠お腹いっぱい。

2008/10/29(水) 11:47:50

>>164
>>165
ディレクトリ一覧が表示されないだけだったのか。
ありがとう、助かりました。
お早いレスで俺涙目。

167 :

名無しさん＠お腹いっぱい。

2008/10/29(水) 18:47:28

Tokyo Estraierってどこにあるの？

168 :

名無しさん＠お腹いっぱい。

2008/10/30(木) 00:44:04

Windows環境でMecabを使いたいんですけど、可能ですか？
試した手順は、下記になります。
前提：WindowsXP、Cygwin環境
１、Mecab0.97と辞書のビルド
２、下記サイトを参考にし、qdbmとHyperEstraierのビルド
http://www.shinonon.dyndns.org/diary/20071212.html
HyperEstraierのビルドで--enable-mecabとしましたが、
その後のmakeでエラーとなります。

169 :

名無しさん＠お腹いっぱい。

2008/10/30(木) 14:21:13

>>167
http://hyperestraier.sourceforge.net/past/tokyoestraier-0.0.1.tar.gz

ベースはHyper Estraier1.4.13
ソース見ると確かにTokyo Cabinetのincludeが入ってるんだが
実際に使われてるのかちと分からん
QDBMも一緒に入ってないとエラー出るし

ところで100万以上の文書を対象にインデックス作ると想像以上に遅いんだな…
1秒以下でパパッと結果が表示されるのは何件くらいが限度なんだろ

170 :

fumiyas

2008/10/30(木) 18:22:25

TE コンパイルしてみた。`estcmd create db` だけ試した。

>>162
_idx 以外は QDBM を使ってるんで、_idx だけ見てごらん。

$ /usr/local/tokyoestraier/bin/estcmd crete db
$ strings db/_idx/0001
ToKyO CaBiNeT
1.0:510

>>169
HE ソースとの diff とってみればわかるけど、一部のみ TC, ほかは QDBM。
ちなみに、`estcmd repair db` 時に _idx 以下は何もしないようになっている。
いいのか? いまのところ DB の構成を把握していないのでよくわからんが、
_idx が転置インデックス? ほかは? 知っている人、教えて…。

あと 100万以上の文書は試したことないんでアレなんだけど、
参考までにハードウェアの構成とか、estcmd create に
指定したオプション (estcmd を使っているなら。-xh 付けたの?)、
estmaster の _conf の設定等を教えてもらえると嬉しいです。

171 :

名無しさん＠お腹いっぱい。

2008/12/08(月) 22:30:47

Hyper Estraierについて質問させてください。

Windowsで一回動かしたんですが、cygwinのパスで結果が表示されてしまうので、
うれしくないと思い、VMware2.5.1 build-126130 でUbuntu7.10を動かし、
そちらでestcmd gather を走らせました。Hyper Estraier1.4.9です。

Apacheはxamppを使いました。http://localhost/xampp/ は正常に表示されてると
思います。1.6.8aと出ています。あとphp5もスタートさせました。

でも、http://localhost/cgi-bin/estseek.cgi にアクセスすると、
Error: the configration file is misshing.とか出ます。

/opt/lampp/cgi-bin/estseek.cgi と同じフォルダに estseek.confは置いてます。
estcmd search casket 'ほげほげ'
とかはちゃんとHITして結果が出てきます。

Errorが出てくる原因は何でしょうか。分かる方教えてください。

172 :

171

2008/12/09(火) 22:34:48

自己レスです。よく分かりませんが
estseek.conf
estseek.tmpl
estseek.top
をchmod 744 したら動きました。失礼しました。

173 :

名無しさん＠お腹いっぱい。

2008/12/12(金) 00:50:50

>>53
すげー遅レス失礼。
HEの情報収集中→WikipediaのHEのエントリ→ >>53 の製品ページ
って感じでその製品を知ったんだけど、GPLって書いてるくせに
ソースコードダウンロードのリンクをたどってもソースコードがないんだけど、
これってどうなの？

http://www.osstech.co.jp/product/chimera#%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89

つーか、会社概要見たけど、中の人がこのスレにいるのか。

174 :

名無しさん＠お腹いっぱい。

2008/12/12(金) 01:21:53

>>173
別に公開する必要は無い。
会社側からするとChimera Searchのバイナリとあわせてソースコードを提供する、
もしくはバイナリにソースコードの入手方法が明記された文書を添えておけばいい。

GPLv2での3-aと3-bね。

175 :

173

2008/12/12(金) 19:40:13

>>174
そうなんだ。どうもありがと。
Webページ見たけど個人お断りみたいな事書いてあったな。

関係ないけどGPL v2日本語訳の原文へのリンクが間違ってるね（v3にリンクされてる）。

176 :

名無しさん＠お腹いっぱい。

2008/12/12(金) 20:12:53

GPLはちゃんと読んでない人は世間の評判から誤解しやすいライセンスだから、
批判するんだったらちゃんと読んで理解してからにした方がいい。

177 :

名無しさん＠お腹いっぱい。

2008/12/16(火) 17:55:27

>>173
これ読むといいよ。
http://web.archive.org/web/20041024013051/http://home.catv.ne.jp/pp/ginoue/memo/gpl.html

178 :

名無しさん＠お腹いっぱい。

2009/02/01(日) 02:03:25

>>47にも書いてるけど，属性検索ができない．
Wikipediaの全文検索デモページで試してみたけど効果なし...

179 :

名無しさん＠お腹いっぱい。

2009/02/08(日) 23:47:35

疑似ノードマスタって、認証なしなの？
通常のノードマスタみたいにユーザとパスを設定できないの？

180 :

名無しさん＠お腹いっぱい。

2009/02/09(月) 01:33:22

estcmd outで文書の一括削除はできますか？

181 :

名無しさん＠お腹いっぱい。

2009/02/13(金) 23:47:32

Windows版のバイナリ落としてindexだけはコマンドで作ってみたんですが
JavaのAPI使ってファイル検索や全文検索を行うサンプルコードが載って
いるサイトとかってないですかね？
web環境ないのでSwingから直で操作したいのですがAPIの使い方がよくわかりません・・
初歩的な質問ですいません。

182 :

名無しさん＠お腹いっぱい。

2009/02/23(月) 06:47:28

Unix板なのに申し訳ないのですが、Ubuntu Intrepid64bit版を使っています。
mecabを組み込みたかったのでソースからビルドしましたが、ライブラリとしてregexp.hだけ認識されないのでビルドできません。
32bitの時も同様だったのですが、こちらはネットでダウンロードしたライブラリをつっこんでインストール迄無事に成功しました。
aptitude search lib | grep -i regexp などで見つけたものを次々インストールしてみましたが全くお手上げです。
必要なライブラリについてご存知の方いませんか？

183 :

名無しさん＠お腹いっぱい。

2009/02/23(月) 09:04:47

>>182
やったの去年だからよく覚えてないけど
ふつーのUbuntuならソフトウェアの一覧に普通に入っていた気がする

184 :

名無しさん＠お腹いっぱい。

2009/02/23(月) 17:49:55

aptで入るね

185 :

182

2009/02/24(火) 06:22:35

>>183-184
レス有難うございます、結局手順を忘れていただけで、32bit版でと同様の事をすればいいだけですんなりビルド成功。
aptでlibc-dev(これですよね？)を入れてもlibregex.aがないので、http://arglist.com/regex/からregex3.8a.tar.gzを落してビルドし~/lib ~/includeに放り込む。
似たような事で困っている方は試してみて下さい。
どうもお騒がせしました。

186 :

名無しさん＠お腹いっぱい。

2009/08/28(金) 12:40:08

作者ページのタイトルがうざくなってるんだが、改ざんされたのかな

187 :

名無しさん＠お腹いっぱい。

2009/08/28(金) 13:43:19

特に変わったようには見えないが。
> Last-Modified: Tue, 25 Dec 2007 01:47:27 GMT
だし。

188 :

名無しさん＠お腹いっぱい。

2009/08/28(金) 20:25:53

>>186
ソースみてみ。アクセスしたタイミングで表示されるものが変わるようになってる。
しかし作者ﾀｿはmixiに就職してからH.E.のほうには全然顔出さなくなったな。

189 :

名無しさん＠お腹いっぱい。

2009/08/28(金) 22:37:54

ソース見てみた、何じゃこりゃ。

> case 59: name = "ちょｗｗｗおまｗｗｗいごｗｗ"; break;
> case 61: name = "どう見ても超迷子です本当にありがとうございました"; break;

190 :

名無しさん＠お腹いっぱい。

2009/08/31(月) 10:17:50

> From: [783] 名無しさん＠お腹いっぱい。 <sage>
> Date: 2006/09/17(日) 07:52:41
>
> case 59: name = "ちょｗｗｗおまｗｗｗいごｗｗ"; break;
> case 61: name = "どう見ても超迷子です本当にありがとうございました"; break;

191 :

名無しさん＠お腹いっぱい。

2009/11/09(月) 16:22:46

検索してもHitしないってことはなにが考えられるのかな？
登録文書に検索語句は確実にあるし、DBも壊れていない・・・

192 :

名無しさん＠お腹いっぱい。

2009/11/09(月) 18:02:45

ごめん、壊れてたみたい。
estcmd inform で壊れてるかどうかわかんないんだよなあ・・・

193 :

名無しさん＠お腹いっぱい。

2009/11/15(日) 00:49:32

>>192
そうなの？おれもestcmd inform で情報出てきたら平気だと思ってた。
どうやって壊れてる判定したの？

194 :

名無しさん＠お腹いっぱい。

2009/11/15(日) 01:54:04

>>193
絶対に登録文書にある文字列を検索しても出てこなかったので。
再構築で直りました。
インデックスが壊れているかどうか調べるコマンドが欲しい。

195 :

名無しさん＠お腹いっぱい。

2009/11/18(水) 06:15:41

estcmd repair を、時々やらないと駄目ってことですかね。
(-_-;ウーン　たまに治らないときもあるし..

--　追記お願いします m(_ _"m)ペコリ---------
【テク１】ノードマスタが再起動しない・・正常に停止しないとこうなる
　サーバールートDirの　_pid _stop の削除

【テク２】ＤＢが㌧でるっぽい
#estcmd repair index_path

ex.ノードサーバー利用時は（サーバールートをcasketなら）
#estcmd repair casket/_node/ノード名

【テク３】estwaver crawl時の「could not open」エラーの解決法
クローラールートディレクトリを　crawl_dir　と仮定して Code:
#cd crawl_dir
#estcmd repair _index
#dpmgr repair _trace/0001/depot
#dpmgr repair _trace/0002/depot
#dpmgr repair _trace/0003/depot

196 :

名無しさん＠お腹いっぱい。

2009/11/18(水) 16:56:39

>>195
>>estcmd repair を、時々やらないと駄目ってことですかね。
repairを一回やってみたんだ。直ったかなと思って、それでも念の為に
もう一回repairしてみたんだ。登録文書がごっそり減ったんだ。
repairを繰り返す度に減っていくんだ・・・

あきらめて再構築したよ。

197 :

名無しさん＠お腹いっぱい。

2009/11/19(木) 05:41:03

>repairを繰り返す度に減っていくんだ・・・

((( ；ﾟДﾟ)))ｶﾞｸｶﾞｸﾌﾞﾙﾌﾞﾙ　

「特定のキーワードにヒットしたを、ＤＢから削除する」　なんてことできますか？

「特定のキーワードにヒットさせない」でもいいかなー

198 :

名無しさん＠お腹いっぱい。

2009/11/20(金) 08:54:17

Estraierで2chのログファイルを全文検索してJaneで表示できないでしょうか。
DATファイルを全文検索に入れるだけじゃなくて、名前やスレタイで絞り込めれば最高なのですが。

DesktopHEで利用しようとしております。

199 :

名無しさん＠お腹いっぱい。

2009/11/20(金) 14:16:19

>>197
私も探してみたけど、そのものは無いみたい。
よくやる作業ならcgiとか作るんじゃないかな。

コマンドから手作業するときは、例えばこんな感じ。
消したいやつを検索して
estcmd search -vu -attr '@uri STRINC /path/to/del/' _index BadWord
OKなら上のコマンドに以下を追加
|awk '$1 ~ /^[0-9]+/{print $1}' |while read id; do estcmd out -cl _index $id; done

200 :

名無しさん＠お腹いっぱい。

2009/11/20(金) 16:26:25

>>198
出来ないことはないと思うけど、面倒くさいかもね。dat2htmlのフィルタ作って読みこませて、
DesktopHEの関連付けはjaneにすればいいみたいな。

私はhtmlに変換してブラウザで全文検索してる。そういう人の方が多いと思うけど。

201 :

名無しさん＠お腹いっぱい。

2009/11/20(金) 22:49:29

>>200
速レスありがとう。
htmlに変換してって毎日巡回するたびにdat2html走らせてるの？
それとも真夜中にバッチ処理？

いずれにせよ、HDD容量が倍必要ですよね？

202 :

名無しさん＠お腹いっぱい。

2009/11/21(土) 12:31:28

>>201
>>毎日巡回するたびにdat2html走らせてるの？
そうだよ。1時間ごとにdat2htmlを走らせてる。ロードアベレージを見て負荷が大きいときは処理しないようにしている。
ログは8GBくらいある。datファイルは定期的に削除している。
ウェブブラウザから検索できるので、LAN内で利用出来て重宝している。

203 :

名無しさん＠お腹いっぱい。

2009/11/21(土) 23:28:31

>>202
うちもログは6Gぐらいあります。
全部変換するとなると15ｇぐらいいきそうですよねorz

Windowsだからロードアベレージ監視できないのと、指定したコテハンがNASDAQについて
レスした発言とかを知りたくても特定がとてつもなく難しいのがネックになりそう。

Threadsearchと併用しないと駄目ですかね。

204 :

名無しさん＠お腹いっぱい。

2009/11/27(金) 00:40:30

XREAで設置しようとしたけど、インストールの段階で躓いたorz
cannot find -liconvとかでてきてるし・・・

libiconvの入れ方に問題があるのかなぁ・・・。

205 :

名無しさん＠お腹いっぱい。

2010/01/07(木) 21:28:29

某サイト丸ごと吸い上げようと、
クローラーの設定seeddepthを50にしたら、５時間かかっても１つもインデックスできなかった...

種文書を全部吸い上げてからインデックスするとは知らんかった。
seeddepth１～２でよさそうね。

206 :

名無しさん＠お腹いっぱい。

2010/01/15(金) 16:12:43

Hyper Estraier のｗｉｎを使っている方に質問です。

当方初心者。
インストール、インデックス作成まではできました。なんとか。

しかし、estseek.confの内容変更の段で（だと思ってるんですが・・・）つまづいています。
replaceの行の変更はどのようにしたらよろしいのか教えていただけないでしょうか？

何卒よろしくお願いいたします。

207 :

名無しさん＠お腹いっぱい。

2010/01/16(土) 02:43:00

>>206
win版も使ったことはありますが、それだけでは何がなんだか分かりません。
estcmd inform casket は通りますか?
Hyper Estraier の画面は出るのですか?
表示のどこかに不満があるのですか?
どうなって欲しくて、現状どうなっているのか書いてください。

208 :

名無しさん＠お腹いっぱい。

2010/01/18(月) 15:45:09

ゴミのような2chのログも、こいつを使うと宝の山になる。
はらしょー

209 :

名無しさん＠お腹いっぱい。

2010/02/05(金) 14:01:07

Hyper Estraier 1.4.10(Win)を利用している者です。

ブラウザの検索結果画面のリンクをクリックしてもジャンプしないという経験をした方はいないでしょうか？
今、その状態です。

検索結果画面のソースを丸々コピーしたｈｔｍｌファイルを作成し、それをブラウザに表示し、リンクをクリックすれば目的の文書にジャンプします。
すごく不思議な感じです。ブラウザはＩＥ、sleipnirで確認しました。

どのようにすればジャンプするようになるかおわかりの方、教えていただけないでしょうか？
これは、もうｈｔｍｌの問題に過ぎないような気もしますが、よろしくお願いいたします。

210 :

名無しさん＠お腹いっぱい。

2010/02/05(金) 22:04:05

文字コードの問題じゃね？

211 :

名無しさん＠お腹いっぱい。

2010/02/07(日) 17:19:49

鯖、HEてよりは、ブラウザ、クライアントの問題ぽく聞こえる。

212 :

209

2010/02/08(月) 08:11:35

>>211
ブラウザは、他にオペラも試しました。同じ結果でした。
クライアントも４人分のLAN接続しているPCから試しました。同じ結果でした。

>>210
仮に文字コードの問題なら、対処法はありますでしょうか？

何卒よろしくお願いいたします。

213 :

名無しさん＠お腹いっぱい。

2010/02/08(月) 20:12:30

まずは、本当に文字コードの問題かどうかを確かめるべきです
フォルダ名からファイル名まで完全に英数文字だけのファイルをわざと検索結果として出して
それをブラウザから開くことができれば、文字コードの問題だと思います

214 :

209,212

2010/02/09(火) 08:13:55

>>213
>フォルダ名からファイル名まで完全に英数文字だけのファイルをわざと検索結果として出し

やってみました。ダメでした。相変わらずジャンプしてくれません。

考えるに、estseek.conf の replace設定なのかな、と。
これについては、自分でも自信がなかったので、下記に示します。
当方の場合、c:\の直下に「server」のフォルダを作成し、そこに「estseek.cgi」、「casket」等を入れております。

－－－－－－－－－－－－－－－－－－－－－－－－－－－
replace: ^file:///c:\server\{{!}}http://127.0.0.1/
replace: /index\.html?${{!}}/
－－－－－－－－－－－－－－－－－－－－－－－－－－－
このような記載でよろしいのでしょうか？

215 :

209,212,214

2010/02/09(火) 16:47:54

追記します。

estseek.conf のreplace設定を見直してみました。
試行錯誤の結果、
－－－－－－－－－－－－－－－－－－－－－－－－－－－
replace: file:///c|/server/{{!}}http://サーバPCのIPアドレス/
replace: /index\.html?${{!}}/
－－－－－－－－－－－－－－－－－－－－－－－－－－－
とすることによりまして、
検索結果の画面に緑色で表示される、ヒットした文書ファイルの所在の表示が、

http://サーバPCのIPアドレス/|http://サーバPCのIPアドレス/・・・・・

となりました。
この、「｜」を挟んで繰り返される「http://サーバPCのIPアドレス/」の最初の方、および「｜」が消えるようになれば、正常動作するような気がします。

これらを消す、なにか良い方法がありましたら教えていただければ助かります。

216 :

名無しさん＠お腹いっぱい。

2010/02/09(火) 20:47:05

replaceの設定は元の設定で問題ない感じがします。

むしろ、showlrealの設定が falseの設定になっていると、
当該現象が発生するように思われます。こちらでも、
同様の現象を確認しました。unix で 1.4.13ですが。

217 :

名無しさん＠お腹いっぱい。

2010/02/09(火) 21:38:12

こちらでは、ジャンプしない現象も、その後に改善した状況も確認できました。

replace行を拝見すると、C:\server\ 部分のエスケープがされてないようです。
正しくは、C:\\server\\ではないでしょうか?

そして、C:\\server\\の配下に、実際の検索したいデータが存在する必要があります。estseek.cgiや indexファイルではありません。

showlrealの変更で、ジャンプの可否が確認できたら、この行を修正する必要があります。

以下マニュアルより
-------------
replaceは正規表現によってURIを変換するのに使います。複数回指定できます。
先頭にマッチする「^」を駆使すれば接頭辞（ディレクトリ）の変換ができますし、末尾にマッチする

「$」を駆使すれば接尾辞（拡張子）の変換ができます。例えば、「\.htm${{!}}.html」とすると、末尾の「.htm」を「.html」に変換できます。

「{{!}}」の前の部分は正規表現なので、「\」や「.」にはエスケープ文字「\」を前置する必要があることに注意してください。「{{!}}」の後の置換文字列は正規表現ではないので、エスケープは必要ありません。
--------------

218 :

209,212,214,215

2010/02/10(水) 07:57:47

>>216
showlreal　を「true」にしてみましたが、状況は変わりませんでした。
ジャンプする、しないの問題でいえば、ｐｄｆの文書ファイルはジャンプすることが確認されました。
.htmがなぜかジャンプしないのです。

>>217
C:\\server\\と記載し、やってみました。
すると、検索結果の画面に緑色で表示される、ヒットした文書ファイルの所在の表示が、
c:\server\search\・・・・・
となりました。

htmの文書へは、ジャンプしてくれません。
仮にジャンプしてくれても、LAN内のPCからアクセスした場合、当該文書にアクセスできません。
やはり、http://サーバPCのIPアドレス/・・・のように表示されなくてはならないと思います。

まだまだ試行錯誤中・・・

219 :

名無しさん＠お腹いっぱい。

2010/02/10(水) 08:56:54

つーかさ、やってることの意味分かってやってる？
別に「そうしないと君のためにならないよ」なんてくだらない説教をしたいからではなく、
何が分かって何が分からなかったのかを言ってくれないと、どこから説明すればいいのか、
どこを質問すればいいのかを、こっちは全部エスパーしなくちゃならないんだよ。
困ってるのは分かってるから、せめて情報の出し惜しみはしないでくれ。

# 素直に読むと、何も分かってない、replace行の動作の意味や正規表現とはなんぞやを
# すべて説明しなくちゃならないように思えるんだけど..... もしかしてそうなの？

220 :

名無しさん＠お腹いっぱい。

2010/02/23(火) 20:50:40

これって英語の検索もはやくなるの？

221 :

名無しさん＠お腹いっぱい。

2010/02/24(水) 00:09:09

もちろん早くなるけど、普通に使うと hyper で hyper estraier には引っかかるけど、hyperestraier には引っかかりません
そういうのを引っかけるようにするにはワイルドカードを使うなど工夫しなくてはなりません

222 :

名無しさん＠お腹いっぱい。

2010/02/24(水) 12:18:43

http://www.seg.rmit.edu.au/zettair/
英語で使うだけならこっちの方が速かったりする？

223 :

名無しさん＠お腹いっぱい。

2010/02/24(水) 12:50:03

なんだ、宣伝かよ

224 :

名無しさん＠お腹いっぱい。

2010/02/24(水) 16:57:45

日本語で最速なのはこれっぽいけど
英語で最速なのがどれなにか知りたかったんだ

225 :

名無しさん＠お腹いっぱい。

2010/03/08(月) 21:40:20

亀レスにもほどがあるがズバリそのものがあります。

>>198
Datファイル全文検索ソフト
http://frozenlib.net/DatE/
>DatEはHyperEstraierを使用してJaneのログを高速に検索するソフトです。

226 :

名無しさん＠お腹いっぱい。

2010/03/16(火) 22:31:58

｢file size limit exceeded」で、いきなりダウンしたよ。

システムによって２Ｇとかのファイル制限あるから、
logファイルの大きさには注意しましょ。
ログの記録レベルを煽りましょう～

227 :

名無しさん＠お腹いっぱい。

2010/03/25(木) 00:58:26

indexサイズが小さくて、もれなく検索できればいい。
あと書庫内検索。重要度順位は入らんから不足無しで出るのが良い。
web用途ではなくデスクトップで使うには
書庫内と不足なしが大事。
順位は無くて良い。開いてみれば済むからな。
これはそういう使い方出来る?

228 :

名無しさん＠お腹いっぱい。

2010/03/25(木) 01:06:28

複雑なアルゴリズムはいらない。
Grepの手助け程度で良い。
書庫に対応する。
いいやつ無いですか?

229 :

名無しさん＠お腹いっぱい。

2010/03/25(木) 02:01:51

フィルタ書けばいいじゃん。

230 :

名無しさん＠お腹いっぱい。

2010/03/25(木) 07:11:50

全文検索では全角か半角はどちらかに変換した方がいいと思うのですが。
UTF8や16では、全角のアルファベットは世界共通の配置になってますか。
言語ごとに異なる位置にありますか。
統一した方が良いと思いますが。コード位置がわかりません、

231 :

名無しさん＠お腹いっぱい。

2010/03/25(木) 07:29:47

N-gramするうえで文字単位にするかバイト単位にするかはどうすればいいですか。
このソフトはどっちですか。
日本語だと一文字で2バイトか3バイトになります。英語は1バイトにります。
文字単位では日本語一文字と英語一文字の価値が同等になりますが
実際の情報量は日本語の方が大きいです。
英語の2文字か3文字くらいの情報量がありそう。
バイト単位にすると、N=2の時に英字一文字の検索がしにくくなります。

232 :

名無しさん＠お腹いっぱい。

2010/03/25(木) 07:31:23

何が言いたいのかさっぱり分かりません！＼(￣∧￣)／

# 思いついた単語を羅列してるだけみたいだけど在日？

233 :

名無しさん＠お腹いっぱい。

2010/03/25(木) 10:19:59

脊髄反射で在日とか言うネトウヨ？

234 :

名無しさん＠お腹いっぱい。

2010/03/26(金) 11:17:22

ということにしたいのですね。

235 :

名無しさん＠お腹いっぱい。

2010/03/26(金) 12:04:40

いいえ、自分が理解できないだけなのを認めたくないだけです。

236 :

名無しさん＠お腹いっぱい。

2010/03/26(金) 13:35:20

ということにしたいのですね。

237 :

名無しさん＠お腹いっぱい。

2010/03/26(金) 13:56:04

はい。

238 :

名無しさん＠お腹いっぱい。

2010/03/26(金) 14:41:05

>>231
http://hyperestraier.sourceforge.net/uguide-ja.html#wordextraction
バイト単位ではなく文字単位2-gram
ただし英語はデフォルトで空白区切り、インデックス作成時に英語も文字単位2-gram指定可能
また英語空白区切りでインデックスを作ってもアルファベット一文字の検索は可能、２文字は不可

こんぐらい教えてやれよ、無能なやつばっかだな

239 :

名無しさん＠お腹いっぱい。

2010/03/26(金) 15:22:12

分かってんならすぐに教えてやれよ、ノロマだな

という煽りは置いといて、元々の問いは本当にその答えを望んでいたのか？
もしそうだとしても、たぶんその答えの前に「HE内部では全ての文字はUTF-8で扱う」という大前提が必要では？

元々の問い（かどうかも分からない）は、N-gramのアルゴリズムには詳しそうなんだけど、それでいて「日本語は
英語の2文字か3文字くらいの情報量がありそう」とか言い出すし、UTF-8のことを知ってそうだけど知らなそうだし、
N-gramのアルゴリズムにそれだけ詳しいんならユーザガイドをちらっと読めば>>238の答えはすぐに分かるはずだし
ほんと、よく何を言ってるのか分かったね、すごいよあんた >>238

240 :

名無しさん＠お腹いっぱい。

2010/03/26(金) 20:42:39

サンクス
いまローカルでgrep手助け用検索開発してる
もれないようにUTF8をバイナリとみてすべての2バイトを記録してみる。

241 :

名無しさん＠お腹いっぱい。

2010/03/26(金) 23:42:38

ちょｗまて
漏れなしバイナリ検索ならgrepで十分だろ
インデックス化するメリットないぞ

242 :

名無しさん＠お腹いっぱい。

2010/03/26(金) 23:58:55

数ギガ、数十ギガとデータあったらどうする?

243 :

名無しさん＠お腹いっぱい。

2010/03/27(土) 00:22:50

もうその話あきた。よそでやれ

244 :

名無しさん＠お腹いっぱい。

2010/04/14(水) 09:33:15

mixiで公開してる東京なんとか
とかいう奴はこれの上位版？

245 :

名無しさん＠お腹いっぱい。

2010/04/14(水) 11:36:00

TokyoCabinetは検索エンジンというよりそのバックエンド、かな？

246 :

名無しさん＠お腹いっぱい。

2010/05/01(土) 16:32:06

これはなんでこんな速いんだ
転置インデックスだけの速さじゃないよね

247 :

名無しさん＠お腹いっぱい。

2010/05/19(水) 20:34:25

hyper estraierで3000報の論文を検索しまくったら
予想外に研究が進んで、凶授どもが俺のことを
天才と勘違いしてやがるｗ
こんなダメ人間に希望を与えてくれた作者氏に
頭が下がる思いです。

248 :

名無しさん＠お腹いっぱい。

2010/05/21(金) 21:40:15

公式メーリングリストは敷居が高いのと、
若干過疎気味なので、こちらで質問させてください。

windows開発環境で、ドキュメントファイル(doc,xls,ppt,pdf)は
インデックスを作成し、検索できるようになりました。
後は掲示板のデータベースの検索が残っています。
SQLという言語で読み書きしてるらしいのですが、
hyper estraierでデータベースのインデックスを
作成するにはどうすればよいのでしょうか？
検索してみたのですが、windows環境での方法は
見つかりませんでした。
windows環境でインデックスを作成する方法の伝授、
もしくは説明してるサイトがありましたら、教示願います。
当方、組み込み系のプログラムの経験はありますが、
windowsプログラム、webアプリ、SQLは素人状態です。

要領を得ない、質問をした本人がいまいちわかってない
自覚がある質問で申し訳ありませんが、よろしくお願いします。

249 :

名無しさん＠お腹いっぱい。

2010/05/24(月) 12:53:33

たぶん一番普通の方法はwebクローラーを使ってインデックスを作成
http://hyperestraier.sourceforge.net/cguide-ja.html

うまく行かないようであればスクリプトとかでインデックス追加スクリプトを自作
いろんな方法があってC,Java,Rubu,Perl,Pythonとか
ざっくり言うとプログラム中で @uri,@title,@mdate,本文を作って検索インデックスに追加。
頑張ればcsvデータ→シェルスクリプト＋estcmdでもできなくはないと思う。

250 :

名無しさん＠お腹いっぱい。

2010/05/26(水) 02:11:25

>>249
248です。
ありがとうございました。
まだわかっていない部分があるので、
まずはwebクローラーを使って試行してみます。

251 :

名無しさん＠お腹いっぱい。

2010/06/01(火) 20:00:23

数が増えるとフラッシュしまくりで速度低下するんですが。
解決方法ありますか。

252 :

名無しさん＠お腹いっぱい。

2010/06/02(水) 19:06:56

複数ファイルの書庫をディレクトリと認識するエンジンありますか

253 :

名無しさん＠お腹いっぱい。

2010/06/03(木) 13:20:31

>>252
書庫の中身をドラフト形式で渡すフィルタ書けばいいんじゃないかな。

254 :

名無しさん＠お腹いっぱい。

2010/06/03(木) 16:48:10

サンクス

255 :

名無しさん＠お腹いっぱい。

2010/06/04(金) 20:57:30

【岩波書店】　Google問題の核心
　　　　　　　　―― 開かれた検索システムのために ――
　　　　　　　　　　　　　　　　　　牧野　二郎
http://www.iwanami.co.jp/shinkan/index.html
　世界の出版界に衝撃が走った．Googleが新しいブックサービスを開始したのだ．
Googleなどの検索システムがなぜ興隆し，そこで起こっている収集の限界や偏向問
題など深刻化する問題を各国の事例などを踏まえ徹底的に検証する．それらを解決
するため，著者を軸にさまざまの分野の研究者が集結し，新しい検索システムを提
案する．

256 :

名無しさん＠お腹いっぱい。

2010/06/05(土) 22:13:46

>>249
結局、SQLコマンドでデータを取ってきて、
インデックス作成するプログラムを作りました。
ありがとうございました。

257 :

名無しさん＠お腹いっぱい。

2010/06/14(月) 16:45:12

すみません、教えてください。
Hyper Estraierを使い始めましたが、
Hyper Estraierで文章の中身だけでなく、
ファイル名やファイルパスも検索のキーワードに
同時にヒットさせたいです。
インデックスの作成や、検索時になにか
オプションで指定するなど、なにか方法がありますか。
よろしくお願いします。

258 :

名無しさん＠お腹いっぱい。

2010/06/28(月) 10:43:43

クローラーで拾ってきたURLだけの検索ってので改造したけど、随分前のことなの忘れちゃった。
他に

259 :

名無しさん＠お腹いっぱい。

2010/08/05(木) 03:31:58

引き継いで開発してくれる有志っていないの？
低スキルなので、私はだめだけど..

260 :

名無しさん＠お腹いっぱい。

2010/08/05(木) 04:16:09

>>259
なんか問題あるっけ？
TCに移行すればいいじゃない。

261 :

名無しさん＠お腹いっぱい。

2010/08/05(木) 17:19:59

TCって、KVSじゃないの？

262 :

名無しさん＠お腹いっぱい。

2010/08/15(日) 12:35:46

TCは全文検索できるよ。

263 :

名無しさん＠お腹いっぱい。

2010/09/22(水) 22:13:39

最近使い始めたものです。
簡便書式で検索した場合、
例えば、「a*」とした場合と「ab*」とした場合に
なぜか「ab*」の方がヒット件数が多くなります。
一応、公式サイト見てきましたが、
それらしいことは書いてありませんでした。
なにか心当たりがある方がいれば、
教えてください。
よろしくお願いします。

264 :

名無しさん＠お腹いっぱい。

2010/09/22(水) 22:16:16

>>262
データ量多くなるとまともに使えなくなるけどなｗ

265 :

名無しさん＠お腹いっぱい。

2010/09/23(木) 01:38:18

>>264
mixiの全データ検索に使用されているからそれはないのでは？
なにか運用間違えているとか？

266 :

名無しさん＠お腹いっぱい。

2010/09/23(木) 02:49:10

TCの全文検索ってQ-GRAMインデックスのことだろ？
データ量増えるとホント糞みたいに重くなって使い物にならんぞ。

267 :

名無しさん＠お腹いっぱい。

2010/09/23(木) 19:36:40

作ってる本人も遅いって言ってた気がする。

268 :

265

2010/09/23(木) 20:30:00

mixiでTCが使われているのは全文検索じゃなかったね。ゴメン

269 :

名無しさん＠お腹いっぱい。

2010/10/07(木) 04:14:16

>>263
N-gramのN=2とかが関係してるんじゃない?
わかち書きを変えてみると違う結果になると思う。

270 :

名無しさん＠お腹いっぱい。

2010/10/09(土) 17:47:15

>>269
レス、ありがとうございました。
とりあえず、est_cond_set_optionsのオプションをESTCONDSUREで
検索してみましたが、結果の数は変わりませんでした。
なんにしろ、N-gram関連を勉強してみます。

271 :

名無しさん＠お腹いっぱい。

2010/10/11(月) 12:23:08

>>263

wildmax の設定でいくらか調整できると思う。
けれど一文字で検索する場合には、N-gramインデックスでは
あまり良い結果出せないんじゃないかな。

269が書いた通り、2-gramに対し一文字で検索するため、
「ab」を含む文書を取得する
「a」で始まる2-gramをwildmax個拾って、それらを含む文書を
取得する(2gramの出現頻度とかは見てない)

という内部動作なんだろうなと、前に思った。

272 :

名無しさん＠お腹いっぱい。

2010/10/27(水) 20:48:38

>>271
遅レスすいません。さっき、気づきました。
詳細な情報ありがとうございました。
とりあえず、ソースを読んでみましたが、
QDBMの中身も把握してないと理解
できなさそうなので、時間のあるときに
見てみます。

273 :

名無しさん＠お腹いっぱい。

2010/10/30(土) 15:19:33

誰かこの問題をHyper Estraier でも起きないか検証してくれw
http://uinyan.com/windows7_critical_bug/

274 :

名無しさん＠お腹いっぱい。

2010/11/16(火) 15:09:15

windowsですが、DesktopHEの他に、似たソフトってないですか？
もしくはどなたか改造されていたり。
フォルダ順ができるだけでも楽になるのですが・・・

275 :

名無しさん＠お腹いっぱい。

2011/02/10(木) 08:37:50

ファイル名のみ、または、最初の数行だけをクロールすることは可能？
全文だとインデックスがすごい容量になりそうなので、できるだけ少ないクロールをしたいのですが。

276 :

名無しさん＠お腹いっぱい。

2011/02/10(木) 09:36:59

”インデックスの容量”を心配しているの？
だとしたら杞憂だと思うんだけど、もしかして組込み系？

277 :

名無しさん＠お腹いっぱい。

2011/02/10(木) 13:07:41

>>276
いえ、普通のLinuxマシンで、1TBほどのファイルサーバーをクロールしようと考えています。インデックスの容量とクロール時間を気にしています。
なので、とりあえずはファイル名と最初の数行だけをクロールしたいと考えていました。

278 :

名無しさん＠お腹いっぱい。

2011/02/10(木) 13:47:37

>>277
インデックスの容量　->　テキスト情報量に依存
クロール時間　　　　->　クロール方法に依存

マニュアルをちゃんと読んでから検討したほうがいいよ。

279 :

名無しさん＠お腹いっぱい。

2011/02/10(木) 23:56:21

最近のMinGWでコンパイルに成功したかたいますか？

ライブラリ名が変更されてるのを修正すればコンパイルは通るのですが、
実行すると異郷終了します

そもそもqdbmのmake　checkでvtestが失敗するようで、
コンパイルできないのが正しいんでしょうか？
一応バイナリ版のqdbmを持ってきて実行しても
やはりインデックス作成で異常終了してしまいました

なにかポインタがあれば教えてください

280 :

名無しさん＠お腹いっぱい。

2011/04/14(木) 21:08:55.94

大文字小文字を区別して検索できるようにして欲しい

281 :

名無しさん＠お腹いっぱい。

2011/04/17(日) 12:28:30.18

インデックスがでかくなってくると速度落ちないですか?
回避する方法ありますか?

282 :

281

2011/04/17(日) 12:31:21.73

>>251も自分だ。10ヶ月ほど前にも書き込んでたが。
解決策見つからず。

283 :

名無しさん＠お腹いっぱい。

2011/05/07(土) 18:02:40.44

>>251,281-282
この遅くなるって、
c:\hyperestraier\estcmd: INFO: flushing index words: name=index ...
ってでてディスク凄いアクセスするようになって遅くなって感じですか？

自分は上記のような感じで

ファイル数12500、総サイズ1.33G程度のHTMLファイルを
スキャンし終わるまで14分位かかってしまいます。

オプションとしては次のようにしているのですが・・・
gather -il ja -lt -1 -lf -1 -pc CP932 -sd -cm -cs 400

284 :

名無しさん＠お腹いっぱい。

2011/05/11(水) 20:07:25.33

もう見てる人居ないんだろうか

285 :

名無しさん＠お腹いっぱい。

2011/05/11(水) 20:21:05.25

見てるけど、開発が止まっちゃってて新しい話題がないよなー

286 :

名無しさん＠お腹いっぱい。

2011/05/12(木) 05:31:56.98

一応チェックリストには入れてる

287 :

名無しさん＠お腹いっぱい。

2011/05/13(金) 19:03:09.08

namazu とこれくらいかー？
使える全文検索は。

288 :

名無しさん＠お腹いっぱい。

2011/07/13(水) 06:07:12.29

luceneで決まりだろ

289 :

名無しさん＠お腹いっぱい。

2011/07/13(水) 16:35:33.19

クラウドサービスの検索エンジンでタダで使えるのってあるのでしょうか？
全部Webに乗っけてしまって、site:付きでググってもらうのは他人に説明不要で楽なんだけど。
何一つ知らないので、どなたか詳しい方や使った経験ある人は紹介してくれませんか。

query文法を調整したり、著者名は特別扱いしたり、順位付けをカスタマイズしたり（それか不要な
結果をフィルタリングしたり）、出力のフォーマットを調整できればとかいう希望をもってます。

290 :

名無しさん＠お腹いっぱい。

2011/07/19(火) 00:44:48.88

今はkyotoだっけtokyoだっけ？

291 :

名無しさん＠お腹いっぱい。

2011/07/19(火) 12:55:07.65

作者がmixiからgoogleにいったよね

292 :

名無しさん＠お腹いっぱい。

2011/07/19(火) 14:38:11.73

>>291
へえ、ついに検索の総本山へか

293 :

名無しさん＠お腹いっぱい。

2011/08/13(土) 15:26:49.80

え？自分で会社作ってたんじゃなかったっけ？？

294 :

名無しさん＠お腹いっぱい。

2011/08/15(月) 10:45:08.18

失敗したんだって

295 :

名無しさん＠お腹いっぱい。

2011/08/28(日) 22:41:21.12

解決策が見つからなかったので質問させてください。
Windows用バイナリをWindowsサーバに入れて、ファイルサーバの検索用に
使用しています。ファイルサーバのパスに「－」（全角マイナス）が含ま
れている場合、検索結果のリンクの「－」の部分がunicodeの「-」になっ
てしまい、リンクからファイルを開くことができません。

unicode→Shift-JISの変換がうまくいっていないのかと思いますが、どの
ようにすれば解決するのか教えてください。また、この問題はLinuxでは
そもそも発生しない問題でしょうか。

Windows用バイナリ
http://hyperestraier.sourceforge.net/win/

296 :

名無しさん＠お腹いっぱい。

2011/09/18(日) 23:41:27.20

P2Pでクローラーを動かしてます。

特定のURLがｲﾝﾃﾞｯｸｽされるかを知るにはどうすればよろしいのでしょうか？

297 :

296　

2011/09/18(日) 23:42:18.24

お願いします

298 :

192.774

2011/11/26(土) 01:02:16.43

検索革命のせいか検索デスクの逆リンクがまだ動かない。

299 :

名無しさん＠お腹いっぱい。

2012/01/18(水) 15:49:41.20

mew以外にもhyper estraier で過去ログの高速検索ができるメールソフトないでしょうか

300 :

名無しさん＠お腹いっぱい。

2012/01/18(水) 19:37:28.38

Gnus

301 :

名無しさん＠お腹いっぱい。

2012/04/19(木) 18:59:45.66

Hyper EstraierをGoogleアラートに登録してたら、
今日こんな↓
https://gist.github.com/2418271
が送られてきたが、これなんだろ? mac用のruby使ったinstaller?
githubよく知らんので、これが全部なのかなんかの一部なのかも分からん。
なにこれ?

302 :

名無しさん＠お腹いっぱい。

2012/04/19(木) 21:59:39.60

Homebrew http://mxcl.github.com/homebrew/
っつうMac用パッケージ管理システムのインストール定義だね。
rubyスクリプトで定義が書けるんだね。

303 :

名無しさん＠お腹いっぱい。

2012/04/20(金) 21:10:24.25

やはりMacでしたか。よくわからないのですが、
僕はWinとUbuntuしか持ってないので使い道ないですね。

しかしこれだけ情報が増えた世界で個人で気軽に使える
全文検索エンジンは絶対使わなきゃ損と思ってるのですが、
いまいちもりあがりませんな…

304 :

名無しさん＠お腹いっぱい。

2012/04/20(金) 23:35:36.63

>>303
Hyper Estraierが出てきた当時はサイト内検索はnamazuから取って変わると
思っていたけどGoogleカスタム検索のほうが流行ってしまって見ることは
かなり少なくなってしまった気がするな。俺はローカルのメールを検索するのに
現役で使っているけど。
MLログを見てみたら作者がフェードアウトしてしまってもう5年経つのか。
後継のソフトウェアを作ってるみたいだけどもう少し表に出てきてほしい。

305 :

名無しさん＠お腹いっぱい。

2012/04/21(土) 19:13:50.93

>>304
>>303さんとは別の者だけど
ブログ見る限りは、子供できて家庭が忙しくて
プライベートで全文検索どころじゃないのかなあと
googleに再就職した、とは書いてあるけど

306 :

303

2012/04/21(土) 20:56:51.07

>>304
うちの会社だけなのかな、よその部署から情報もらおうと思うと
同じ本部内ですらすごく嫌がられる。だからActive Directoryで
公開されているフォルダを全部DesktopHEでインデックス化しちゃったんだよね。
よくない事かもしれないけど、いろいろ分かって捗るｗ

307 :

名無しさん＠お腹いっぱい

2012/05/21(月) 00:40:06.77

検索に基礎がなっていない。

308 :

名無しさん＠お腹いっぱい。

2012/08/11(土) 17:34:18.82

すいません、質問させてください。

まずは、環境から。
ubuntuにhyperestraier wv xlhtml ppthtmlをインストール。
word、excel等を検索対象とするために、
# cp /usr/share/hyperestraier/filter/* /usr/lib/bin/
(ダメ押し?でこれも　# PATH=$PATH:/usr/share/hyperestraier/filter)
これでパスが通るはず？

で、実際にやってみました。
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ 検索対象フォルダ/
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ ほげ
これで、doc、xls等が検索対象になっていることは確認できましたが、
estcmd: INFO: 26 (~/fuga.ods): registered
sh: 1: estxfilt: not found
と表示され、txtファイル以外の検索はできないようです。

どのようにすれば、doc、xlsファイル等を検索できるでしょうか？
また、そもそもLinuxでMSofficeのファイルを全文検索することは可能なのでしょうか？
さらに、odfファイル全般についても検索可能かをお尋ねしたいと思います。

以上、よろしくお願いいたします。

309 :

名無しさん＠お腹いっぱい。

2012/08/11(土) 17:38:13.25

訂正です。
下の方の
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ ほげ
　　　↓
$ estcmd search -ic utf-8 -vh インデクスフォルダ/ ほげ

です。　失礼しました。

310 :

名無しさん＠お腹いっぱい。

2012/08/11(土) 18:17:47.26

>>309
estfxmsotohtml を使うんじゃないの。
H@estfxmsotohtml でhtmlにして登録じゃないの。

311 :

名無しさん＠お腹いっぱい。

2012/08/11(土) 19:07:37.99

>>310
おぉ、うまくいきました。
T@estxfilt→H@estfxmsotohtmlと置き換えることで、
xlsとdocが検索できるようになりました。
ありがとうございました。

ところで、ODFファイルの検索は可能なのでしょうか？
MS関連のファイルには対応しているけど、
Linuxで使われているOpenOfficeのファイルに対応してないというのは、
ちょっと納得できないような・・・。

312 :

名無しさん＠お腹いっぱい。

2012/08/11(土) 20:12:21.99

>>311
ODFがメジャーになる前だったからなあ……
odt2txt ってコマンドがあるからこいつを使ってフィルタを作ればいいんじゃないかな。
シェルスクリプトでフィルタ書くの簡単だし。

313 :

名無しさん＠お腹いっぱい。

2012/08/11(土) 20:36:05.84

>>312
レスどうもです。
odsはどうするのでしょうか？
っていうか、そんなスキルないですよorz

フィルタ書くの簡単だとしたら、
なんでLinuxで全文検索が簡単にできるようにならないんでしょうかね？
個人的には、デスクトップ検索はPCの必須アイテムだと考えていますが、
googleデスクトップは終了しちゃうし、DesktopHEは64bitで使えないし、
現在windowsで最強のデスクトップ検索ソフトのfilediverは超マイナーだし、
デスクトップ検索は、世間的にはあんまり関心のない分野なのかなと思ったりします。

314 :

名無しさん＠お腹いっぱい。

2012/08/11(土) 20:56:51.31

>>313
知らんがな。
おまえの愚痴に付き合う気はない。
欲しい人は自分で書く。そういう世界だから。
あとデスクトップ検索アプリは他にちゃんとあるし、フィルタもすでに作っている人がいる。

315 :

名無しさん＠お腹いっぱい。

2012/10/10(水) 14:49:50.26

pandocというのがodfの変換もできるほか、いろいろ変換できそう

316 :

名無しさん＠お腹いっぱい。

2013/05/04(土) 18:53:18.57

>>313
DesktopHEはWin7x64で快適に動作していますが。

317 :

名無しさん＠お腹いっぱい。

2016/02/08(月) 08:45:27.23

2007年からメンテされてないんだね

318 :

名無しさん＠お腹いっぱい。

2016/02/08(月) 10:03:53.02

forkがあるけどこっちも止まってるかな
https://github.com/fumiyas/hyperestraier-encore