Advertisement
RobertDeMilo

Вещественные числа и задача о задачах

Oct 21st, 2023
82
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
C++ 8.48 KB | None | 0 0
  1. #include <algorithm>
  2. #include <cmath>
  3. #include <iostream>
  4. #include <map>
  5. #include <set>
  6. #include <string>
  7. #include <utility>
  8. #include <vector>
  9.  
  10. using namespace std;
  11.  
  12. const int MAX_RESULT_DOCUMENT_COUNT = 5;
  13.  
  14. const double EPSILON = 1e-6;
  15.  
  16. struct Document {
  17.     int id;
  18.     double relevance;
  19.     int rating;
  20. };
  21.  
  22. enum class DocumentStatus
  23. {
  24.     ACTUAL,
  25.     IRRELEVANT,
  26.     BANNED,
  27.     REMOVED
  28. };
  29.  
  30.  
  31. string ReadLine() {
  32.     string s;
  33.     getline(cin, s);
  34.     return s;
  35. }
  36.  
  37. int ReadLineWithNumber() {
  38.     int result;
  39.     cin >> result;
  40.     ReadLine();
  41.     return result;
  42. }
  43.  
  44. vector<string> SplitIntoWords(const string& text) {
  45.     vector<string> words;
  46.     string word;
  47.     for (const char c : text) {
  48.         if (c == ' ') {
  49.             words.push_back(word);
  50.             word = "";
  51.         }
  52.         else {
  53.             word += c;
  54.         }
  55.     }
  56.     words.push_back(word);
  57.  
  58.     return words;
  59. }
  60.  
  61. class SearchServer {
  62. public:
  63.     void SetStopWords(const string& text) {
  64.         for (const string& word : SplitIntoWords(text)) {
  65.             stop_words_.insert(word);
  66.         }
  67.     }
  68.  
  69.     void AddDocument(int document_id, const string& document, DocumentStatus status, const vector<int>& ratings) {
  70.         const vector<string> words = SplitIntoWordsNoStop(document);
  71.         const double inv_word_count = 1.0 / words.size();
  72.         for (const string& word : words) {
  73.             word_to_document_freqs_[word][document_id] += inv_word_count;
  74.         }
  75.         document_ratings_[document_id] = { ComputeAverageRating(ratings), status };
  76.  
  77.     }
  78.     int GetDocumentCount()
  79.     {
  80.         return static_cast<int>(document_ratings_.size());
  81.     }
  82.  
  83.     tuple<vector<string>, DocumentStatus> MatchDocument(const string& raw_query, int document_id) const
  84.     {
  85.         // Если документ не соответствует запросу(нет пересечений по плюс - словам или есть минус - слово), вектор слов нужно вернуть пустым.
  86.  
  87.         Query query = ParseQuery(raw_query);
  88.  
  89.  
  90.         vector<string> pluss_wordss;
  91.  
  92.         for (const string& word : query.plus_words)
  93.         {
  94.             if (word_to_document_freqs_.count(word) != 0 && word_to_document_freqs_.at(word).count(document_id) != 0)
  95.             {
  96.                 pluss_wordss.push_back(word);
  97.             }
  98.         }
  99.  
  100.         for (const string& word : query.minus_words)
  101.         {
  102.             if (word_to_document_freqs_.count(word) != 0 && word_to_document_freqs_.at(word).count(document_id) != 0)
  103.             {
  104.                 pluss_wordss.clear();
  105.                 break;
  106.             }
  107.         }
  108.  
  109.         // map<int, Doc> document_ratings_;
  110.         return { pluss_wordss, document_ratings_.at(document_id).status };
  111.     }
  112.  
  113.     vector<Document> FindTopDocuments(const string& raw_query, DocumentStatus statuss = DocumentStatus::ACTUAL) const {
  114.         const Query query = ParseQuery(raw_query);
  115.  
  116.         auto matched_documents2 = FindAllDocuments(query);
  117.  
  118.         vector<Document> matched_documents;
  119.  
  120.  
  121.         for (auto it = find_if(matched_documents2.begin(), matched_documents2.end(),
  122.             [this, statuss](Document& document)
  123.             {return (document_ratings_.count(document.id) != 0 && document_ratings_.at(document.id).status == statuss); }); it != matched_documents2.end();
  124.             it = find_if(next(it), matched_documents2.end(),
  125.                 [this, statuss](Document& document)
  126.                 {return (document_ratings_.count(document.id) != 0 && document_ratings_.at(document.id).status == statuss); }))
  127.         {
  128.             matched_documents.push_back(*it);
  129.         }
  130.  
  131.         sort(matched_documents.begin(), matched_documents.end(),
  132.             [](const Document& lhs, const Document& rhs) {
  133.              
  134.                 if (abs(lhs.relevance - rhs.relevance) > EPSILON)
  135.                 {
  136.                     return lhs.rating > rhs.rating;
  137.                 }
  138.                 return lhs.relevance > rhs.relevance;
  139.  
  140.             });
  141.      
  142.  
  143.  
  144.         if (matched_documents.size() > MAX_RESULT_DOCUMENT_COUNT) {
  145.             matched_documents.resize(MAX_RESULT_DOCUMENT_COUNT);
  146.         }
  147.         return matched_documents;
  148.     }
  149.  
  150. private:
  151.     set<string> stop_words_;
  152.     map<string, map<int, double>> word_to_document_freqs_;
  153.  
  154.  
  155.  
  156.     struct Query {
  157.         set<string> plus_words;
  158.         set<string> minus_words;
  159.     };
  160.  
  161.     struct QueryWord {
  162.         string data;
  163.         bool is_minus;
  164.         bool is_stop;
  165.     };
  166.  
  167.     struct Doc
  168.     {
  169.         int rating;
  170.         DocumentStatus status;
  171.     };
  172.  
  173.     // id , {rat, status}
  174.     map<int, Doc> document_ratings_;
  175.  
  176.  
  177.     bool IsStopWord(const string& word) const {
  178.         return stop_words_.count(word) > 0;
  179.     }
  180.  
  181.     vector<string> SplitIntoWordsNoStop(const string& text) const {
  182.         vector<string> words;
  183.         for (const string& word : SplitIntoWords(text)) {
  184.             if (!IsStopWord(word)) {
  185.                 words.push_back(word);
  186.             }
  187.         }
  188.         return words;
  189.     }
  190.  
  191.     static int ComputeAverageRating(const vector<int>& ratings) {
  192.         int rating_sum = 0;
  193.         for (const int rating : ratings) {
  194.             rating_sum += rating;
  195.         }
  196.         return rating_sum / static_cast<int>(ratings.size());
  197.     }
  198.  
  199.  
  200.  
  201.     QueryWord ParseQueryWord(string text) const {
  202.         bool is_minus = false;
  203.         // Word shouldn't be empty
  204.         if (text[0] == '-') {
  205.             is_minus = true;
  206.             text = text.substr(1);
  207.         }
  208.         return {
  209.             text,
  210.             is_minus,
  211.             IsStopWord(text)
  212.         };
  213.     }
  214.  
  215.  
  216.  
  217.     Query ParseQuery(const string& text) const {
  218.         Query query;
  219.         for (const string& word : SplitIntoWords(text)) {
  220.             const QueryWord query_word = ParseQueryWord(word);
  221.             if (!query_word.is_stop) {
  222.                 if (query_word.is_minus) {
  223.                     query.minus_words.insert(query_word.data);
  224.                 }
  225.                 else {
  226.                     query.plus_words.insert(query_word.data);
  227.                 }
  228.             }
  229.         }
  230.         return query;
  231.     }
  232.  
  233.     // Existence required
  234.     double ComputeWordInverseDocumentFreq(const string& word) const {
  235.         return log(document_ratings_.size() * 1.0 / word_to_document_freqs_.at(word).size());
  236.     }
  237.  
  238.     vector<Document> FindAllDocuments(const Query& query) const {
  239.         map<int, double> document_to_relevance;
  240.         for (const string& word : query.plus_words) {
  241.             if (word_to_document_freqs_.count(word) == 0) {
  242.                 continue;
  243.             }
  244.             const double inverse_document_freq = ComputeWordInverseDocumentFreq(word);
  245.             for (const auto [document_id, term_freq] : word_to_document_freqs_.at(word)) {
  246.                 document_to_relevance[document_id] += term_freq * inverse_document_freq;
  247.             }
  248.         }
  249.  
  250.         for (const string& word : query.minus_words) {
  251.             if (word_to_document_freqs_.count(word) == 0) {
  252.                 continue;
  253.             }
  254.             for (const auto [document_id, _] : word_to_document_freqs_.at(word)) {
  255.                 document_to_relevance.erase(document_id);
  256.             }
  257.         }
  258.  
  259.         vector<Document> matched_documents;
  260.  
  261.         for (const auto [document_id, relevance] : document_to_relevance) {
  262.             matched_documents.push_back({
  263.                 document_id,
  264.                 relevance,
  265.                 document_ratings_.at(document_id).rating
  266.                 });
  267.         }
  268.         return matched_documents;
  269.     }
  270. };
  271.  
  272.  
  273. void PrintDocument(const Document& document) {
  274.     cout << "{ "s
  275.         << "document_id = "s << document.id << ", "s
  276.         << "relevance = "s << document.relevance << ", "s
  277.         << "rating = "s << document.rating
  278.         << " }"s << endl;
  279. }
  280.  
  281. int main() {
  282.     SearchServer search_server;
  283.     search_server.SetStopWords("и в на"s);
  284.  
  285.     search_server.AddDocument(0, "белый кот и модный ошейник"s, DocumentStatus::ACTUAL, { 8, -3 });
  286.     search_server.AddDocument(1, "пушистый кот пушистый хвост"s, DocumentStatus::ACTUAL, { 7, 2, 7 });
  287.     search_server.AddDocument(2, "ухоженный пёс выразительные глаза"s, DocumentStatus::ACTUAL, { 5, -12, 2, 1 });
  288.  
  289.     for (const Document& document : search_server.FindTopDocuments("ухоженный кот"s)) {
  290.         PrintDocument(document);
  291.     }
  292. }
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement