Форум на Kuban.ru (http://forums.kuban.ru/)
-   Молодёжный (понемногу обо всём) (http://forums.kuban.ru/f1057/)
-   -   Автоматическое определение пола пользователей (многабукв) (http://forums.kuban.ru/f1057/avtomaticheskoe_opredelenie_pola_pol-zovatelej_mnogabukv-2937085.html)

Ками 14.08.2012 11:32

Автоматическое определение пола пользователей (многабукв)
 
Наткнулась вот на исследование яндекса - [u]как и что ищут через поисковик мужчины и женщины[/u] (собственно: [url]http://company.yandex.ru/researches/reports/ya_on_men_women_11.xml[/url]).
В статье, в частности, объясняется как именно машина распознаёт пол ползователя.
"Яндекс определяет пол пользователей автоматически — с помощью технологии машинного обучения Матрикснет. Объяснить, как она работает, можно на примере.
Если показать человеку несколько белых предметов, он поймёт, что значит «белый», и сможет находить белые предметы среди множества вещей разных цветов. Ему не помешает, что среди предметов, по которым он учился, некоторые были круглыми и мягкими, некоторые — квадратными и твёрдыми, некоторые — жидкими, а некоторые — сыпучими. Человек поймёт, что в данном случае эти характеристики неважны, а обратит внимание только на цвет.
Чтобы научить Матрикснет понятиям «мужчина» и «женщина», ему надо «показать» достаточное количество тех и других. Но для этого сначала надо отобрать пользователей с известным полом — а это непростая задача. В качестве основы брались данные из профессиональной социальной сети МойКруг — в профессиональной жизни люди чаще указывают о себе правильную информацию. Дальше данные обезличивались и автоматически сверялись с информацией из других источников. Отбирались только те пользователи, пол которых совпадал во всех источниках — в итоге около 500 тысяч мужчин и около 500 тысяч женщин. Именно по поисковым сессиям этих пользователей и учился Матрикснет — и выявил около трёхсот важных закономерностей (при этом он учёл «белое», «твёрдое» — отбросил). Из этих закономерностей Матрикснет построил сложную математическую формулу. По ней и определяется пол пользователя.

В описанном процессе есть одна дополнительная сложность. Представим себе, что человек учится различать фиолетовый, сиреневый, лиловый и пурпурный цвета. Сколько он ни будет стараться, про некоторые оттенки так и не сможет с уверенностью сказать, какой же это цвет. Он скажет только что-нибудь вроде «это скорее сиреневый, а это — похоже, лиловый». Примерно в такой же ситуации оказывается и компьютер, когда пытается определить пол пользователя по его поведению: ведь все люди очень разные, далеко не каждый укладывается в закономерности, выявленные машиной. Поэтому в каждом случае Матрикснет сообщает, насколько он уверен в своём решении. Примерно так: «Я уверен на 92%, что это женщина».

После этого как-то не очень верится в выводы яндекса...)

Эр 14.08.2012 11:36

"различать фиолетовый, сиреневый, лиловый и пурпурный цвета" -- это уже признак Ж

Ками 14.08.2012 11:43

1-zor > да, но как быть с запросами типа "как сделать то-то" или "лыжи для асфальта, красные" (не гоовря уже о просто ключевых словах - здоровье, секс, воспитание и т.п. и всяческих брендах-названиях...)
мне кажется "бесполых" вопросов всё же больше... намного!
или ты о каком [u]тексте [/u]говорил?))

ЭтотНикТочноСвободен 14.08.2012 11:49

Бгг))
[img]http://company.yandex.ru/i/researches/men_women_2011/pic7.png[/img]

Ками 14.08.2012 11:52

4-ЭтотНикТочноСвободен > да, там много забавного)

Эр 14.08.2012 11:52

Ачё, от курения есть польза???

Ками 14.08.2012 11:53

6-Эр > да сама чуть в поисковик не ввела)))))

Ками 14.08.2012 12:00

8-zor > я тогда не понимаю...
грош цена тогда таким "исследованиям". а они вона выдаются за статистику целой страны на огромном ресурсе...

Ками 14.08.2012 12:02

в смысле не грош [u]цена [/u](люди-то скока работали, прописывая всё это), а - доверия нет совсем. а на основе этих "исследовани", скорее всего кто-то какие-то работ делает, использует их для своих выводов и т.п....

Ками 14.08.2012 12:29

11-zor > как это не будешь?
журналистка какого-нить женского журнала, увидав в результатах "исследования" запрос со стороны мужчин о "пользе курения" сделает вполне определённый вывод и статью этому выводу посвятит и проиллюстрирует - "по данным гендерного исследования посиковой машины"))
отакот

Disc 14.08.2012 16:35

виртуально сказать, кто пишет м или ж можно, но смотря где, на каких форумах с какими темами и с вниманием на окончание.
Только какая польза - угадывать м или ж, - это пишет, не понимаю.

ResT 14.08.2012 20:09

А на кой хрен это нужно?! Ну будут они знать пол человека, им за это премия будет?


Текущее время: 16:13. Часовой пояс GMT +3.