2010-06-08

Хайлт гээч хачин зүйл

Саяхан хуулийн сайтынхаа эхний хувилбарыг ажилд оруулчихлаа. Одоо ч яахав зөвхөн хуулиас өөр үзэх боломжтой байгаа болохоор сүртэй асуудалгүй. Харин цааш хэрхэн хөгжүүлэх, ямар мэдээллээр яаж баяжуулах талаар төлөвлөгөө гаргаад ажиллаж байхад хууль, эрхзүйтэй холбоотой төрөл бүрийн мэдээ, мэдээллийг хэрэглэгчид ойрхон буюу олоход хялбар байх талаар асуудал үүсч эхлэв. Өөрөөр хэлбэл мэдээлэл хэрэгтэй боловч хэн ч олж үзэхгүй байж магадгүй тийм мэдээлэл боловсруулах, оруулах нь ямар ч үр дүнгүй юм. Үүндээ шийдэл хайж яваад хайлтын талаар бага сага зүйл олж мэдсэн бөгөөд өөрийн бодлоосоо хуваалдаг юм билүү гээд.

Google ахын талаар
Google бол интернэтийн их далайд хэний ч юм дусаасан мэдээллийн дуслыг бидэнд ил болгож өгдөг жинхэнэ урлагийн бүтээл. Хэрэв байхгүй байсан бол интернэт ямар байхыг төсөөлөхөд ч бэрх. Гэхдээ бүх зүйлийг сүхээр хийж болдоггүйн адилаар хайлт бүрийн шийдэл нь Google байх боломжгүй юм. Өөрөөр хэлбэл Google-д төрөл бүрийн мэдээллийн зөвхөн өнгөн тал буюу html хуудас л харагддаг бөгөөд энэ өнгөц мэдээлэлд тулгуурлан хайлт хийдэг бөгөөд энэ үед вэб хуудсанд агуулагдаж буй бараг бүх мэдээлэл нь ижил чухлын зэрэгтэй байна гэсэн үг. Гэтэл сайт бүрд мэдээллийн зохиогч, гарчиг, агуулга, ангилал гэх мэт зүйлс ялгаатай чухалын зэрэгтэй бас зарим нэгээр нь л хайлт хийх сонирхолтой байдаг. Харин энэ бүгд Google-д бараг л ижилхэн, дээрээс нь шинэ мэдээллийг тийм ч хурдан оруулдаггүй. Ийм болоод ч тэр үү сүүлийн үед ихэнх вэбүүд өөрийн гэсэн хайлтын системтэй болсон байх юм. Учир нь тэд өөрт байгаа мэдээллийн дотоод бүтцийг мэддэг тул ямар мэдээллийг бас ямар зүйлээр нь хайхыг тодорхойлж өгч чадна. Тэгээд л Twitter, Facebook гээд дийлэнх томоохон вэбүүд өөрийн гэсэн хайлтын системтэй байдаг. Гэлээ гээд Google ахыг ад үзэж болохгүй.

Хэрэв та өөрийн үүсгэсэн вэб хуудсыг Google ахад мэдэгдэхийг хүсвэл Google-ийн мэддэг аль нэг хуудаснаас тэрхүү хуудас руу чинь холбоос байх хэрэгтэй. Хэдий чинээ олон холбоос байна, төдий чинээ олдох нь хялбар болж, үр дүнгийн хуудсанд дээгүүр залрах болно. Маш энгийн.

Хайлт гээч хачин зүйл
Хайлтыг хүн бүр өөр өөрөөр боддог ч миний бодлоор "бүх зүйл хайлт" юм. Мэдээж нүдэнд мэдээлэл оруулах хайх нь хайлт, гэхдээ бас таны зочилж буй хуудсанд гарах мэдээллийг бусад мэдээллээс ялгаж олж үзүүлэх нь ч мөн адил хайлт юм. Үгүй гэж үү? Тэгэхээр хэн ч юу ч яаж ч ойлгож болох болохоор хайлтыг зөв хийх тийм ч амар биш юм шиг. Жишээ нь, хүн юу хүсч байгаагаа мэдэж байгаа юм шиг боловч тэрийгээ хэрхэн тодорхойлохоо мэдэхгүй байвал яах вэ? Эсвэл тодорхойлсон ч таны систем дэх тодорхойлолтоос өөр байвал? Бүр мэдээлэл хайж буй хүн үг үсгийн алдаатай бичвэл бүр ч асуудал үүснэ. Дээрээс нь нийгэм, нийгмийн, нийгмийг гэдэг үгс хоорондоо холбоотой, хэн бүхэнд ойлгомжтой боловч "тэнэг төмөр"-ний хувьд тэс ондоо, адилтгах аргагүй зүйлс юм. Энэ мэт жижиг сажиг ч юм шиг юмнуудаас болж хайлт маань тийм ч "хөнгөн зууш" биш аж.

Өөрийн хайлтын системийг ямар байх, аль мэдээллийн юугаар хайх талаар тодорхойлсны дараа ямар технологи ашиглахаа сонгох хэрэгтэй. Цөөн тооны үгнээс буюу зөвхөн гарчиг, хуудасны нэрээр хайха маш энгийн хайлт хийхэд MySQL гэх мэт баазын систем маань хангалттай. Харин их хэмжээний текст, олон төрлийн мэдээллийг хольж эсвэл зарим нэг мэдээллийн хувийн жинг өндөр байлгах буюу хэцүүхэн, нүсэр хайлт байлгахыг хүсвэл бас л нүсэр, хэцүү систем ашиглана гэсэн үг. Үүнд зориулсан mnogosearch, lucene, sphinx, xapian гээд нээлттэй програм хангамжууд олон бий. Хэрэгцээ шаардлагаасаа хамаарч нэгийг нь сонгох ч аль аль нь элдэв тохиргоотой бас л "хялбар зууш" биш.

Эдгээр нь хайлтын систем хийхэд анхаарах наад захын зүйлс, хамгийн гол нь хайлт хэрэгтэй эсэх, хайлт хийсэн тохиолдолд юугаар нь хийх боломжтой байх талаар сайн бодож шийдэх хэрэгтэй. Технологийн шийдэл хамгийн сүүлд ирэх ёстой.

Хачин хүсэлт
Миний блогийн уншигч танаас хүсэх зүйл байна. Хэрэв танд миний блог таалагддаг бол өөрийн блог, вэбдээ холбоос үүсгэж бусад хүмүүст, Google ахад намайг олоход илүү хялбар болгоорой. Мөн миний танилцуулсан, танилцуулах бусад вэбүүдийг ч бас. Одоогоор санал болгох чухлууд нь www.huuli.mn, wiki.limnux.net нь л байна. Цааш нэмэгдэнэ гэдэгт итгэлтэй байна. Мөн та ч бас өөрийн вэб хаягийг үлдээгээрэй, надад таалагдвал би ч бас холбоос үүсгэе.

1 comment:

surenjav said...

www.imedinfo.org Анагаах ухааны шинэ мэдээ мэдээллийг бичдэг